KI-Spracherkennung: Spuren aus dem Trainingsmaterial und andere Halluzinationen

Bild: Künstliche Intelligenz, symbolisiert durch einen Roboter, die versucht, einen gesprochenen Text zu transkribieren (KI-generiert)

Wer das beliebte Whisper-Modell von OpenAI nutzt, um Gespräche zu transkribieren oder zu übersetzen, kennt das Problem:

Im Ergebnis der Spracherkennung schlagen immer wieder Spuren aus dem Trainingsmaterial durch.

Bei deutschsprachigen Texten erscheint häufig «Untertitel von Stephanie Geiges», bei Texten aus dem Schweizerdeutschen manchmal auch «Mit Untertiteln von SWISS TXT».

Stephanie Geiges erstellt seit vielen Jahren die Untertitel für alle Arten von Videos. SWISS TXT erstellt insbesondere die Untertitel für Sendungen der Schweizerischen Radio- und Fernsehgesellschaft (SRG).

Bei GitHub gibt es eine anschauliche Sammlung solcher Spuren aus dem Trainingsmaterial.

Weitere gängige Beispiele auf Deutsch sind «Untertitel im Auftrag des ZDF» und «Copyright WDR». Auch die «Amara Community» für Untertitel hinterlässt immer wieder Spuren («Untertitel der Amara.org-Community»).

Die Spuren sind KI-typische Halluzinationen.

Die Spuren sind KI-typische Halluzinationen. Sie erscheinen meist dort, wo das KI-Modell mit der Spracherkennung scheitert, weil es keine Sprache zu erkennen gibt.

Beim «Datenschutz Plaudereien»-Podcast, für den ich Whisper zum Teil einsetze, erscheinen die Spuren aus dem Trainingsmaterial meist bei der Musik am Anfang und am Ende der Episoden.

Solche Halluzinationen sind interessant, aber harmlos, da sie einfach zu erkennen sind. Sie befeuern vor allem die urheberrechtliche Diskussion über das Trainingsmaterial bei Künstlicher Intelligenz.

Solche Halluzinationen stehen aber auch für ein tatsächliches Problem beim Transkribieren mit Modellen wie Whisper:

Die Modelle transkribieren nicht 1:1 die gesprochene Sprache, sondern erstellen eine Übersetzung.

Die Modelle transkribieren nicht 1:1 die gesprochene Sprache, sondern erstellen eine Übersetzung, selbst wenn die Ausgangs- und Zielsprachen identisch sind.

Das Ergebnis ist in Teilen fast immer unvollständig oder gar falsch bzw. sinnentstellend. Wie erheblich die Halluzinationen sind, ist sehr unterschiedlich.

Wenn das Ergebnis mit weiteren KI-basierten Hilfsmitteln verarbeitet wird, beispielsweise für das Podcast-Marketing oder für Zusammenfassungen, pflanzen sich solche Fehler bzw. Halluzinationen nicht nur fort, sondern werden verstärkt.

Daran ist beispielsweise zu denken, wenn man Transkripte oder gar Übersetzungen von Podcast-Episoden liest oder hört.

Bei Apple Podcasts werden Transkripte in Kürze standardmässig angezeigt. Spotify geht noch weiter und liefert nicht nur standardmässig Transkripte mit Hilfe von Whisper, sondern wird gesprochene Sprache mit geklonten Stimmen in anderen übersetzten Sprachen ausspielen.

Bei Whisper kann es helfen, das grösste «Large»-Modell zu verwenden.

Bei Whisper kann es helfen, das grösste «Large»-Modell zu verwenden. Das gilt insbesondere für Schweizerdeutsch, das nicht gezielt ausgewählt werden kann.

Das «Large»-Modell ist allerdings langsam und auch nicht in jedem Fall besser. So leidet die aktuelle 3er-Version von Whisper unter dem Problem, dass Wiederholungen auftreten. Es gibt bereits Versuche, für ein Fintuning kleinen Whisper-Modelle für Schweizerdeutsch, die aber – soweit für mich ersichtlich – bislang an Grenzen stossen.

Ein Kommentar

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Felder mit * sind Pflichtfelder.