Dal rilascio delle bambole IBM di Shoebox e Worlds of Wonder, Julie doll, la tecnologia di riconoscimento vocale è in continua evoluzione. Entro la fine del 2018, Google Assistant supporta più di 30 lingue diverse.
Qualcomm ha inoltre sviluppato un sistema di riconoscimento vocale che riconosce parole e frasi con un tasso di accuratezza del 95%. Inoltre, il servizio voce intelligente di Microsoft è più accurato ed efficiente rispetto ai servizi di chiamata manuale.
Tuttavia, sebbene l'apprendimento automatico abbia fatto impennare lo sviluppo della tecnologia di riconoscimento vocale, questi sistemi di riconoscimento vocale non sono ancora perfetti, il problema più grave è la discriminazione geografica.
Secondo un recente studio condotto dal Washington Post, i popolari assistenti vocali intelligenti sviluppati da Google e Amazon riconoscono accenti locali non statunitensi con un'accuratezza del 30% inferiore rispetto agli accenti locali statunitensi.
Aziende come IBM e Microsoft utilizzeranno il corpus di Switchboard per ridurre il tasso di errore degli assistenti vocali, ma si scopre che il corpus non può risolvere completamente il problema del riconoscimento degli accenti degli assistenti vocali.
"I dati sono confusi, perché i dati riflettono la natura umana", ha affermato il supervisore di Accred Global Responsibility AI Rumman Chowdhury, "È qui che l'algoritmo eccelle: ricercare i modelli di comportamento umano."
La distorsione algoritmica indica il grado in cui i modelli di apprendimento automatico sono distorti rispetto ai dati o alla progettazione.Molte notizie hanno generato notevoli pregiudizi sui sistemi di riconoscimento facciale (in particolare il riconoscimento dell'immagine Riconoscimento di Amazon Web Services).
Inoltre, il bias dell'algoritmo può verificarsi in altre aree, ad esempio prevedendo se il convenuto sarà nel futuro dei sistemi automatici e degli algoritmi di raccomandazione dei contenuti alla base di Google News e altre app.
I leader del settore Microsoft e AI, tra cui IBM, Qualcomm e Facebook, hanno sviluppato strumenti automatici per rilevare e ridurre il bias negli algoritmi AI, ma pochi possono proporre soluzioni specifiche ai problemi di identificazione degli accenti.
Ci sono solo due aziende che trovano davvero una soluzione: una è Speechmatic e l'altra è Nuance.
Risolvi il problema del gap di accento
Speechmetrics, una società tecnologica di Cambridge specializzata in software di riconoscimento vocale aziendale, ha implementato un programma ambizioso 12 anni fa per sviluppare un sistema di riconoscimento della lingua più accurato e completo di qualsiasi altro prodotto sul mercato.
L'azienda ha inizialmente ricercato la modellizzazione del linguaggio statistico e le reti neurali ricorrenti, sviluppando un modello di apprendimento automatico in grado di gestire sequenze di output di memoria e nel 2014 ha utilizzato un corpus di gigabyte per accelerare lo sviluppo della sua modellazione linguistica statistica. Da allora, il primo passo è stato fatto.
Nel 2017, ha preso un'altra pietra miliare: sviluppato un servizio di conversione della lingua araba in collaborazione con il Qatar Computing Institute (QCRI).
"Abbiamo scoperto che abbiamo bisogno di sviluppare un sistema di riconoscimento vocale che possa essere applicato a tutte le lingue in un'unica modalità, che non abbia più un problema di accento e che riconosca l'accuratezza di un accento australiano all'altezza di un accento scozzese trascrizionale." L'agente Benedikt von Thüngen ha detto.
A luglio di quest'anno, hanno sviluppato con successo un sistema di riconoscimento vocale chiamato Global English, che ha migliaia di ore di dati vocali e decine di miliardi di parole in più di 40 paesi e supporta la conversione vocale e di testo di tutti gli accenti inglesi.
Inoltre, l'istituzione dell'inglese globale è inseparabile dal linguista automatico di Speechmatic, una struttura di intelligenza artificiale che apprende il fondamento linguistico di una nuova lingua utilizzando modelli riconosciuti in lingue conosciute.
"Supponiamo di voler parlare con gli americani dall'altra parte, e devi comunicare con gli australiani dall'altra parte, e questo americano viveva in Canada, quindi c'è un accento canadese, e la maggior parte dei sistemi di riconoscimento vocale avrà difficoltà a riconoscere questa differenza. Il linguaggio dell'accento, ma il nostro sistema di riconoscimento vocale non deve preoccuparsi di questo problema. "Ian Firth, vicepresidente dei prodotti di Speechmatics, ha dichiarato in un'intervista.
Nel test, l'inglese globale ha ottenuto risultati migliori rispetto all'API Cloud Speech di Google e Cloud di IBM nel riconoscere specifici accenti, Thüngen ha affermato che nel settore high-end, la precisione è superiore del 23% a 55 rispetto ad altri prodotti. %.
La Logopedia non è l'unica azienda che vuole risolvere il problema dell'identificazione degli accenti.
Nuance, con sede a Burlington, Massachusetts, afferma che utilizzerà una varietà di metodi per garantire che il suo sistema di riconoscimento vocale riconosca quasi 80 lingue con la stessa alta precisione.
Nel suo modello in lingua inglese, raccoglie dati vocali e di testo per 20 aree dialettali specifiche, incluse le parole che sono uniche per ogni dialetto (come la parola "cob" specifica per il panino) e la sua pronuncia. Il sistema di riconoscimento vocale riconosce 52 diverse espressioni di "Heathrow".
Al giorno d'oggi, il sistema di riconoscimento vocale Nuance ha un nuovo sviluppo.La versione aggiornata di Dragon è una combinazione di software di conversione vocale e di testo personalizzato sviluppato da Nuance, il cui modello di apprendimento automatico può essere commutato automaticamente in diversi dialetti secondo l'accento dell'utente.
Rispetto alla vecchia versione non è funzione di commutazione automatica dialetto, il sistema di riconoscimento vocale per riconoscere la nuova versione della precisione della lingua inglese con accento spagnolo al 22,5% di precisione di riconoscimento dialetto meridionale di americani più elevato 16,5%, per identificare l'esatto sud-est inglese Il tasso è superiore del 17,4%.
Più dati, meglio è
In definitiva, i problemi di accento riconoscimento vocale a causa della mancanza di dati generati. Maggiore è la qualità del corpus, la più diversificata modello di linguaggio, almeno in teoria, maggiore è la precisione del sistema di riconoscimento vocale.
Nello studio del Washington Post, Home page di Google intelligente assistente vocale precisione di riconoscimento del linguaggio meridionale degli Stati Uniti che in tasso di precisione del riconoscimento lingua occidentale del 3% degli Stati Uniti, mentre Amazon Eco precisione del riconoscimento lingua Midwest ad essere inferiore al 2%.
Un portavoce di Amazon ha dichiarato al Washington Post che, mentre più utenti parlano in diversi accenti, le capacità di riconoscimento vocale di Alexa continueranno a migliorare e, in una dichiarazione, Google ha dichiarato che espanderanno i loro database. Migliora continuamente la tecnologia di riconoscimento vocale di Google Assistant.
Man mano che sempre più utenti usano i sistemi di riconoscimento vocale, le loro funzioni saranno ulteriormente migliorate. Secondo la società di ricerche di mercato Canalys, circa 100 milioni di sistemi vocali intelligenti sono venduti a livello globale entro il 2019. E, entro il 2022, Circa il 55% delle famiglie americane dispone di un sistema vocale intelligente.
Non aspettatevi un programma per risolvere il problema di accento. 'Secondo l'attuale sviluppo tecnologico, non è possibile sviluppare la massima precisione ed è adatto per gli utenti di tutto il mondo un sistema di riconoscimento vocale,' ha detto Fede. 'La cosa migliore che si può fare È per garantire che questi sistemi di riconoscimento vocale possano identificare con precisione gli accenti di coloro che li utilizzano ".