Geschäft

Open Source: OpenAI veröffentlicht automatisches Spracherkennungssystem Whisper

Open Source: OpenAI veröffentlicht automatisches Spracherkennungssystem Whisper

OpenAI hat ein neues automatics Spracherkennungssystem (automatisch spraakherkenningssysteem, ASR) bekannt gegeben namens Whisper. Het is gebaseerd op een Encoder-Decoder Transformer en staat in een open-sourceversie op GitHub zur Verfügung. Het Entwickler-team heeft het ASR-systeem getraind met 680.000 Stunden-audiomateriaal van internet. Zwei Drittel der Aufzeichnungen waren dabei auf Englisch, das letzte Drittel in verschillende andere talen. Damit soll Whisper as Multitasking-Modell nicht nur transcribieren, sondern auch Sprachen Confirm und übersetzen können.

Im Forschungsbericht zu Whisper gibt das Team von OpenAI an, dass man das Modell mit dem Ziel entwickelt hat, ein robustes Sprachverarbeitungsprogramm zu purchase, das ohne Datensatz-spezifisches Feintuning auskommt. Die Forscher führen an, dass vortrainierte Audio-Encoder oft unüberwacht gelert haben. Dadurch sind die Encoder zwar stark spezialisiert, all things goeden es Feintuning durch Menschen, um den Decodern zu ermöglichen, die Daten in einer entsprechenden Qualität ausgibt. Für Whisper nutzte das Team daher etwa 10.000 Stunden überwachter Sprachdaten für je 30.000 Stunden Daten mit mehr Hintergrundrauschen, sodass ein schwach überwachtes Modell entstand. Dafür ließ sich der Prozess laut Post gut automatisieren.

Whisper is gebaseerd op een Ende-zu-Ende-Architektur en is als Transformer implementiert. Audiodates liegen als Mel-Spektrogramme von 30-sekündigen Sound-Schnipseln vor. Die dargestellten Encoder-Blöcke enthalten die Multilayer-Perceptronen (MLP) en Selbst-Attention, die Decoder Blöcke neben MLP en Selbst-Attention noch Cross-Attention, um das nächsten Text-Token vorherzusagen.

(Afbeelding: OpenAI)

Whisper is gebaseerd op einem Encoder-Decoder Transformer. Dabei liest das Programm Audiodaten als 30 Sekunden Schnipsel, die het Entwickler dem System vorsetzen als Mel-Spectrogramme. Die Decoder trainierte man darauf, einen zum Ton fittingen Text zu generieren. Whisper verwend noch sisätzlich noch spezielle Token, die sollen dem Programm das Erfüllen mehrerer Aufgaben erlauben. Laut OpenAI eignet sich das Programm, um Sprachidentifikation, Zeitstempel auf Phrasenebene, mehrsprachige Sprachtranskription en Sprachübersetzung ins Englische durchzuführen.

Aufgrund der großen Datengrundlage für das Training en dem mangelnden Feintuning für einen bestimmten Datensatz bleibt Whisper etwa beim LibriSpeech-Benchmark hinter spezialisierten Models zurück. Het team van OpenAI meldt jedoch von einer besseren Zero-Shot-Leistung im Umgang mit unbekannten Datensätzen. The Robustheit des Modells äußert sich laut den Entwicklern durch eine 50 Prozent lagere Fehlerrate bei Tests een verschillende Datensätzen, ook als soult entwickelten Systems forkommen.



Whisper soll mehrsprachige Spracherkennung, Sprachübersetzung, das Identifizieren von sprochener Sprache en das Rekennen von Sprachaktivitäten beherrschen. Alle diese Aufgaben sets eine gemeinsame Sequenz von Token dar, die der Decoder vorhersagen soll. Damit soll ein einziges Modell diverse Stufen einer herkömmlichen Sprachverarbeitungspipeline ersetzen.

(Afbeelding: OpenAI)

Whisper steht in fünf verschillende Modellgrößen auf GitHub zur Verfügung. De trainingsparameter reichen von 39 Millionen bis über 1,5 Milliarden. Voor de kleinste Modell sind etwa 1 GByte VRAM vonnöten, de grootste braucht etwa 10 GByte. Bis auf die big Version können die Modelle ausschließlich mit Englisch umgehen. Die verschillende Größen bedeut einen Unterschied in der Geschwindigkeit und Genauigkeit der Systeme.



(Afbeelding: OpenAI)

Sprachmodelle und Spracherkennung spielen aktuell eine große Rolle, so etwa auch bei dem Chat-Programm LaMDA, das dieses Jahr aufgrund eines angeblichen Bewusstseins für Furore sorgte. Wie Whisper baseert LaMDA ebenfalls auf einer Transformer-Architektur. Eine grundlegende Erklärung des Aufbaus und der Funktion von Transformern is hier te vinden.

Weitere Informationen zu Whisper finden sich in Blog von OpenAI en im Forschungsbericht zu dem neuen Spracherkennungssystem.


Meer van iX Magazine

Meer van iX Magazine


Meer van iX Magazine

Meer van iX Magazine


(psst)

Zur Startseite

Previous post
Microsoft: Windows 11 bekommt sein erstes groes Update – Computer & Medien
Next post
Schüler kämpft gegen „Querdenker“-Lehrer – dieser will ihn stoppen