High Performance Neural Networks for Online Speech Recognizer

Thai Son Nguyen

High Performance Neural Networks for Online Speech Recognizer

2021

Thai Son Nguyen

Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fahigkeit einer Maschine, Worter und Ausdrucke gesprochener Sprache zu identifizieren und diese in ein fur Menschen lesbares Format zu konvertieren. Die Anwendungen sind ein masgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermoglicht. Um diese Fahigkeit in vollem Mase zu gewahrleisten, mussen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, fur eine Interaktion mit einem Benutzer, auch schnell genug, antworten. Dieses Wechselspiel beider Bedingungen eroffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschlieslich mit dem Problem der Genauigkeit befasst, unterscheidet. Schon uber ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht. Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Losung der Spracherkennungsaufgabe ermoglichte. Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domane der Sprache statistisch entkoppelt und modelliert. Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Ausspracheworterbuch, HMM-Topologien, Phonem-Cluster-Baumen, einem akustischen Modell und einem Sprachmodell, besteht. Durch aktuelle Fortschritte bei kunstlichen neuronalen Netzen (KNN) fur die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen. In den letzten Jahren hat die Einfuhrung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, groses Interesse auf sich gezogen. Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfallt. Gleichzeitig benotigt die Ende-zu-Ende ASR oft eine wesentlich grosere Trainingsdatenmenge und es ist eine grosere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet. Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems fur ein Online- und Streaming-Szenario. Der Autor erreichte dies durch ein Vorgehen in zwei Schritten. Im ersten Schritt wurden vielfaltige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen. Batch-Mode bedeutet, dass die vollstandigen Audiodaten beim Start der Verarbeitung zur Verfugung stehen. Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermoglichen Inferenzen online bzw. fortlaufend durchzufuhren. Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt. Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, konnen anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden. Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem grosen Dynamikumfang bekannt. Diese Merkmale konnen drastisch durch naturliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegerate, beeinflusst werden. Die grose Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern. Diese Diskrepanz gehen wir durch zwei high-level Ansatze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an. Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkommliche Merkmalsextraktionen. Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet. Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung ubertreffen lies. Daruber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor. Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusatzliche Trainingsdaten zu generieren und so die Qualitat der Trainingsdaten zu erhohen. Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting. Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells fur die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Losung vor. Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsanderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion. In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Satze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrosern. Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark fur Telefongesprache. Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusatzliche Anpassungen und Inferenz-Techniken, erfullen. Weder der ublicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen. Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor. Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder fur den Latenzhochstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern. Um die Latenzmetrik zu optimieren, fuhrten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte fruh zum Benutzer zu schicken und diese spater teilweise zu korrigieren. In Experimenten in einer realen Situation in der Vorlesungsprasentations-Domane konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden. Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist fur Ende-zu-Ende Spracherkennung zunehmend beliebt geworden. Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen. Wie S2S-Modelle mit ihrem Batch-Mode Kapazitat aber fur eine online Spracherkennung gebraucht werden konnen, ist dennoch eine offene Forschungsfrage. Wir naherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten. Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusatzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen. Unsere Experimente auf dem Datensatz mit Telefongesprachen zeigten, dass unser Stream-Erkenner, mit einer Verzogerung von 1,5~Sekunden fur alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht. Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne Einbusen in der Genauigkeit genutzt werden kann.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations