Seit der Veröffentlichung der Shoebox- und Worlds of Wonder-Puppen Julie Doll von Julie hat sich die Spracherkennungstechnologie ständig weiterentwickelt.Am Ende des Jahres 2018 unterstützt Google Assistant mehr als 30 verschiedene Sprachen.
Qualcomm hat außerdem ein Spracherkennungssystem entwickelt, das Wörter und Sätze mit einer Genauigkeitsrate von 95% erkennt.Außerdem ist der intelligente Sprachdienst von Microsoft genauer und effizienter als manuelle Anrufdienste.
Obwohl das maschinelle Lernen die Entwicklung der Spracherkennungstechnologie in die Höhe getrieben hat, sind diese Spracherkennungssysteme immer noch nicht perfekt.Das ernsteste Problem ist die geographische Diskriminierung.
Einer kürzlich von der Washington Post durchgeführten Studie zufolge erkennen beliebte intelligente Sprachassistenten, die von Google und Amazon entwickelt wurden, lokale Akzente außerhalb der USA mit einer um 30% geringeren Genauigkeit als lokale Akzente in den USA.
Unternehmen wie IBM und Microsoft werden den Corpus des Switchboards verwenden, um die Fehlerrate von Sprachassistenten zu reduzieren, aber es stellt sich heraus, dass das Corpus-Problem das Akzenterkennungsproblem von Sprachassistenten nicht vollständig lösen kann.
"Daten sind verwirrend, weil die Daten die menschliche Natur widerspiegeln", sagte Rumman Chowdhury, Global Responsibility AI Supervisor bei Accumer. "Hier kommt der Algorithmus zum Tragen: menschliche Verhaltensmuster suchen."
Algorithmische Voreingenommenheit gibt an, inwieweit Maschinenlernmodelle gegenüber Daten oder Design voreingenommen sind.Viele Nachrichtenberichte haben eine erhebliche Verzerrung bei Gesichtserkennungssystemen (insbesondere der Bilderkennungsrekognition von Amazon Web Services) hervorgebracht.
Darüber hinaus kann ein Algorhythmus in anderen Bereichen auftreten, beispielsweise bei der Vorhersage, ob der Beklagte in Zukunft automatisierte Systeme und Inhaltsempfehlungsalgorithmen hinter Google News und anderen Apps verwenden wird.
Microsoft- und AI-Branchenführer wie IBM, Qualcomm und Facebook haben automatisierte Tools entwickelt, um Verzerrungen bei AI-Algorithmen zu erkennen und zu reduzieren, aber nur wenige können spezifische Lösungen zur Akzentuierung von Identifikationsproblemen vorschlagen.
Es gibt nur zwei Unternehmen, die wirklich eine Lösung finden: Die eine ist die Sprach- und die andere Nuance.
Löse das Problem der Akzentlücke
Speechmetrics, ein auf Spracherkennungssoftware für Unternehmen spezialisiertes Cambridge-Technologieunternehmen, hat vor 12 Jahren ein ehrgeiziges Programm implementiert, um ein genaueres und umfassenderes Spracherkennungssystem als jedes andere Produkt auf dem Markt zu entwickeln.
Das Unternehmen untersuchte ursprünglich statistische Sprachmodellierung und rekurrente neuronale Netze und entwickelte ein maschinelles Lernmodell, das Speicherausgangssequenzen verarbeiten kann.Im Jahr 2014 verwendete es ein Gigabyte-Korpus, um die Entwicklung seiner statistischen Sprachmodellierung zu beschleunigen. Seitdem wurde der erste Schritt getan.
Im Jahr 2017 wurde ein weiterer Meilenstein gesetzt: In Zusammenarbeit mit dem Qatar Computing Institute (QCRI) wurde ein Konvertierungsservice für Arabisch entwickelt.
‚Wir haben festgestellt, dass wir ein Spracherkennungssystem zu entwickeln, benötigen nur ein Modus für alle Sprachen anwenden können, ohne Akzent Problem, und es identifiziert die australischen Akzent Genauigkeit und Transkription schottischer Akzent so hoch.‘ Speechmatics Chief Executive Officer Benedikt von Thüngen sagte.
Im Juli dieses Jahres entwickelten sie erfolgreich ein solches Spracherkennungssystem Global English. Es hat mehr als 40 Ländern, Tausende von Stunden von Sprachdaten und mehrere zehn Milliarden Wörter, Voice-Text-Umwandlungsfunktion alle Englisch mit Akzent.
Darüber hinaus ist Global English auch untrennbar mit der Einrichtung von Speechmatic Automatische Linguist, der ein Rahmen der künstlichen Intelligenz ist die Sprache der Grundlage für eine neue Sprache zu lernen, unter Verwendung der Sprache in erkennbaren Mustern bekannt.
"Angenommen, Sie möchten mit den Amerikanern auf der anderen Seite sprechen und mit den Australiern auf der anderen Seite kommunizieren, und dieser Amerikaner hat früher in Kanada gelebt. Daher gibt es einen kanadischen Akzent. Zu dieser Zeit werden die meisten Spracherkennungssysteme diesen Unterschied kaum erkennen können." Die Sprache des Akzents, aber unser Spracherkennungssystem muss sich überhaupt nicht um dieses Problem kümmern. ", Sagte Ian Firth, Vizepräsident für Produkte bei Speechmatics, in einem Interview.
Im Test schnitt Global English besser ab als die Cloud Speech API von Google und die IBM Cloud bestimmte Akzente. Thüngen sagte, dass die Genauigkeit im High-End-Bereich um 23% bis 55 höher ist als bei anderen Produkten. %.
Speechmatics ist nicht die einzige Firma, die das Problem der Akzentuierung lösen möchte.
Mit Hauptsitz in Berlin, Massachusetts Dayton Nuance sagte, es eine Vielzahl von Methoden verwenden, um sicherzustellen, dass das Spracherkennungssystem fast 80 Sprachen identifizieren kann, und hohe Genauigkeit ist die gleiche.
In seiner Sprachmodell in Großbritannien, sammelt sie die Sprach- und Textdaten 20 bestimmten Dialekt Region, einschließlich jeden eindeutigen Dialekt Wort (wie beispielsweise das Wort ‚cob‘ verwendet bezieht sich speziell auf Rollen) und Aussprache. Daher ist diese Nuance das Spracherkennungssystem in der Lage, 52 verschiedenen Ausdruck ‚Heathrow‘ die zu identifizieren.
Heute Nuance Spracherkennungssystem hat eine neue Entwicklung. Dragon ist eine aktualisierte Version von Nuance Spricht entwickelt kundenspezifische Software-Portfolio in Text, der schaltet das Gerät automatisch Lernmodell in verschiedenen Dialekten nach dem Akzente des Benutzers.
Verglichen mit der alten Version ohne Dialekt automatische Umschaltfunktion, die neue Version des Spracherkennungssystems erkennt die Genauigkeit von Englisch mit einem spanischen Akzent von 22,5% und die Genauigkeit der Identifizierung der südamerikanischen Dialekt um 16,5%, die die Genauigkeit der südostasiatischen Englisch identifiziert. Die Rate ist 17,4% höher.
Je mehr Daten, desto besser
Letztendlich wird der Akzent der Spracherkennung durch unzureichende Daten verursacht: Je höher die Qualität des Korpus, desto vielfältiger das Sprachmodell, so ist zumindest theoretisch die Genauigkeit des Spracherkennungssystems höher.
In der Studie von Washington Post erkennt der Google Home Intelligent Voice Assistant die Genauigkeit der südamerikanischen Sprache mit einer um 3% niedrigeren Genauigkeit als die Genauigkeit der Erkennung der westamerikanischen Sprache. Amazon Echo erkennt die Sprache des US-Mittelwesten mit einer um 2% geringeren Genauigkeit.
Ein Sprecher von Amazon sagte gegenüber der Washington Post, dass die Spracherkennungsfähigkeiten von Alexa sich weiter verbessern würden, wenn mehr Nutzer mit unterschiedlichen Akzenten sprechen würden, und in einer Erklärung sagte Google, dass sie ihre Datenbanken erweitern werden. Verbessern Sie kontinuierlich die Spracherkennungstechnologie von Google Assistant.
Da immer mehr Benutzer Spracherkennungssysteme verwenden, werden ihre Funktionen weiter verbessert: Laut dem Marktforschungsunternehmen Canalys werden bis 2019 fast 100 Millionen intelligente Sprachsysteme weltweit verkauft. Etwa 55% der amerikanischen Haushalte haben ein intelligentes Sprachsystem.
Erwarten Sie keine Lösung, die das Akzentproblem vollständig löst. "Laut der aktuellen technologischen Entwicklung können Sie kein Spracherkennungssystem mit höchster Genauigkeit entwickeln, das für Benutzer auf der ganzen Welt geeignet ist." Das ist das Beste, was Sie tun können. Es soll sicherstellen, dass diese Spracherkennungssysteme die Akzente derjenigen, die sie benutzen, genau identifizieren können. "