Detailbeschreibung > SpeechToText

Einleitung

Mit DABiS800 Speech-to-Text wird Sprache aus Audios in Text konvertiert.

Die effektive Transkription der Audiodateien wird durch externe Transkriptionsdienste (Provider) erledigt.

Zur Zeit werden die folgenden Provider unterstützt:

•Azure Cognitive Services (Microsoft)

•Trint

Jeder Kunde kann den Provider selber wählen und schließt direkt mit dem Provider einen (Abonnements-)Vertrag ab.

Ablauf

Beim Import / Upload einer Audiodatei werden Metadaten in der DABIS Datenbank (DB) abgelegt. Gleichzeitig wird die Audiodatei im Dateisystem gespeichert.

Der DABiS Transkriptionsdienst lädt die Audiodatei zum gewünschten Provider hoch und startet dessen Transkriptionsprozess. Sobald die Transkription beendet ist, wird das providerspezifische Transkript heruntergeladen und in das DABiS800-Format konvertiert. Diese Datei wird ebenfalls im Dateisystem abgelegt. Der Name setzt sich aus der TitelId und der Endung".dabis800.json" zusammen.

Bei Bedarf wird für die DAVID Editoren die Transkript-Datei zusätzlich in ein spezielles Format umgewandelt und mit der Dateiendung ".S2T" abgelegt.

UeberischtSpeechToText

Beim Import durch den IPA erfolgt die Transkription auf Wunsch automatisch. Aus der PlanningBase WebApplikation kann der Transkriptionsprozess (Speech-to-Text-Analyse) manuell gestartet werden.

Datenbank

Für jeden zu transkribierenden Titel wird in der Tabelle "Transcript" ein Datensatz angelegt. Sobald die Transkription abgeschlossen ist, wird der Datensatz mit dem transkribierten Text ergänzt. Es gibt immer nur eine Text-Version: Eine neuere Transkription überschreibt eine bestehende.

Die Dokumentation für die Speech-to-Text-Konfiguration finden Sie hier.