Zum Hauptinhalt springen

Audiodatei transkribieren und formatieren

Hier teilen wir unsere Testergebnisse mit 3 Modellen beim Transkribieren von Mehrpersonen-Stimmen.

Sandra Fischer avatar
Verfasst von Sandra Fischer
Vor über 3 Wochen aktualisiert

PeakPrivacy verfügt Stand heute (Mai 2025) noch nicht über Sprecher-Erkennung (ist auf der Roadmap). Heisst, es kann nicht deuten wenn Person A, B oder C spricht. Für die KI ist es ein und dies selbe Person. Das Resultat ist, dass es ein "einzelner" Lauftext generiert. Dieser kann im Anschluss von der KI nicht perfekt formatiert werden, denn die KI kann lediglich raten, was ist eine Frage, was eine Antwort ist oder wann Person A und wann Person B spricht.

Nun haben wir dank einem Use Case einer PeakPrivacy Kundin (danke vielmals!), die Erfahrung gemacht, dass es in gewissen Fällen funktionieren kann. Vorallem mit dem Modell Gemini haben unsere Tests die besten Ergebnisse erzielt. Ich schreibe bewusst "kann", denn man kann sich nicht zu 100% darauf verlassen. Gilt für KI generell, wie du ja bestimmt schon weisst :-). Doch auch mit dem "kann" dazwischen, kann es unsere Arbeit bereits so erleichtern!

Der Use Case

Die Kundin hat eine Mp3 Datei welche ein Interview mit 2 Personen aufzeichnet. Sie möchte damit folgendes machen:

  • Transkribieren

  • Den Text nicht als einen "einzelnen" Lauftext ausspielen, sondern in einer übersichtlichen Form zur Verfügung stellen um damit weiterarbeiten zu können

  • Die übersichtliche Form kann verschieden sein, bsp. die Fragen fett markiert, nach der Antwort eine neue Zeile, vor jeder Frage das Wort "Frage" resp. "Antwort" erwähnen etc.

So haben wir (PeakPrivacy) es gemacht (testing):


Der Ablauf als Beschreibung:

1) Mp3 hochladen und warten bis der Upload abgeschlossen ist
2) Dann ganz wichtig: Auf die Datei klicken und dort das "Häckchen" aktivieren / auf grün setzen. Nur so wir der ganze Inhalt verwendet.
3) Dann mit folgendem Prompt das Dokument (der Inhalt muss nicht copy pasted werden in den Chat) direkt senden: "Finde in folgendem Interview die Fragen und Antworten. Markiere die Fragen und Antworten mit einem Text und dann Doppelpunkt. Markiere dies jeweils Fett. Mach dies unbedingt für das ganze Interview."

Wir haben Gemma 3, Mistral Swiss und Gemini getestet. Das Resultat von Gemini hat uns am meisten überzeugt. Mistral Platz 2 und Gemma 3 an letzter Stelle. Dort hat es uns das Interview nicht bis zu Ende formatiert.

Der Ablauf in Bildern:

Dieser Screenshot zeigt die vollständig hochgeladene Datei im Chat.

Klickt man auf die Datei, geht dieses Feld auf. Oben rechts des Feldes den Schieber/ Häcklein auf grün setzen. Nur so wird der ganze Inhalt berücksichtigt.

Zurück im Chat, den Promt eingeben. Und den Chat starten (roter Pfeil neben Sucheingabe).

Doppelt prüfen, dass das LLM läuft, das du willst. Wir bevorzugen für diesen Use Case hier Gemini. Entsprechend auf Gemini ändern.

Hat dies deine Frage beantwortet?