IBM의 Shoebox 및 Worlds of Wonder 인형 인 줄리 인형이 출시 된 이래로 음성 인식 기술은 끊임없이 발전해 왔으며 2018 년 말까지 Google Assistant는 30 개 이상의 다른 언어를 지원합니다.
Qualcomm은 95 %의 정확도로 단어 및 구문을 인식하는 음성 인식 시스템을 개발했으며 Microsoft의 지능형 음성 서비스는 수동 전화 서비스보다 정확하고 효율적입니다.
그러나 기계 학습이 음성 인식 기술의 발전을 가속화 시켰지만 이러한 음성 인식 시스템은 여전히 완벽하지는 않습니다. 가장 심각한 문제는 지리적 차별입니다.
워싱턴 포스트가 최근 실시한 조사에 따르면 Google과 Amazon이 개발 한 유명한 스마트 보이스 어시스턴트는 미국 이외의 지역 액센트를 미국 현지 액센트보다 30 % 낮은 정확도로 인식합니다.
IBM이나 MS와 같은 회사는 교환 원의 오류율을 줄이기 위해 스위치 보드 코퍼스를 사용할 것입니다.하지만 코퍼스가 음성 보조자의 악센트 인식 문제를 완전히 해결할 수는 없습니다.
데이터가 인간의 본성을 반영하기 때문에 데이터가 혼란 스럽다 "라고 Accumer의 Global Responsibility AI 관리자 인 Rumman Chowdhury는 다음과 같이 말했다."이것은 알고리즘이 탁월한 곳입니다 : 인간의 행동 패턴을 추구합니다. "
알고리즘 바이어스는 기계 학습 모델이 데이터 또는 디자인에 대해 편향된 정도를 나타냅니다. 많은 뉴스 보고서는 얼굴 인식 시스템 (특히 Amazon Web Services의 이미지 인식 인식)에 상당한 편향을 일으 킵니다.
또한, 알고리즘 편차는 피고가 뒤에 미래의 범죄와 구글 뉴스 응용 프로그램 콘텐츠 자동화 시스템을 추천 할 것입니다 여부를 예측하는 등의 알고리즘과 같은 다른 영역에 나타납니다.
악센트 인식 문제가 특정 솔루션을 만들 수 페이스 북과 감지 및 AI 알고리즘을 발생하는 편견을 줄이기 위해 자동화 된 도구를 개발했지만, 몇 사람을 포함한 IBM, 퀄컴을 포함한 마이크로 소프트와 AI 업계의 리더.
실제 솔루션을 제안, 두 회사. 하나는 Speechmatics이며, 또 다른 뉘앙스이다.
액센트 간격 문제 해결
기업 음성 인식 소프트웨어 전문 캠브리지 기술 기업인 Speechmetrics는 12 년 전 시장에 출시 된 어떤 제품보다 더 정확하고 포괄적 인 언어 인식 시스템을 개발하기 위해 야심 찬 프로그램을 구현했습니다.
이 회사는 원래 통계 언어 모델링과 반복적 인 신경망을 연구했으며 메모리 출력 시퀀스를 처리 할 수있는 기계 학습 모델을 개발했으며 2014 년에는 통계 언어 모델링 개발을 가속화하기 위해 기가 바이트 코퍼스를 사용했습니다. 그 이후로 첫 번째 단계가 수행되었습니다.
2017 년에는 카타르 컴퓨팅 연구소 (QCRI)와 협력하여 아랍어 전환 서비스를 개발 한 또 다른 이정표를 세웠습니다.
'우리는 우리가 음성 인식 시스템, 하나 개의 모드는, 모든 언어, 아니 악센트 문제에 적용 할 수있을 것입니다을 개발하는 데 필요한 것으로 나타났습니다 그것은 높은 억양의 정확성과 전사 스코틀랜드 악센트 호주 식별합니다.'Speechmatics 최고 경영자 베네딕트 폰 n겐 (Benedikt von Thüngen) 경관은 말했다.
월에 올해, 그들은 성공적으로 같은 음성 인식 시스템 글로벌 영어를 개발했다. 그것은 40 개 이상의 국가, 모든 영어 악센트 음성 데이터 수천 시간의 몇 백억 즉, 음성 - 텍스트 변환 기능이 있습니다.
또한, 글로벌 영어도 인식 패턴으로 알려져있는 언어를 사용하여 새로운 언어의 기초의 언어를 배울 수있는 인공 지능 프레임 워크입니다 Speechmatic 자동 언어 학자의 설립 분리 될 수 없다.
'당신이 한쪽으로한다고 가정하고, 미국인, 호주인 이야기도 교환의 다른면, 다음 음성 인식 시스템의 대부분은 다른 이것을 인식하기 어려울 것이다, 캐나다 악센트가있는 캐나다에 살고, 그렇게하는 데 사용되는 미국인 언어의 악센트하지만 우리의 음성 인식 시스템은이 문제에 대해 걱정 아무것도 아니다. '이안 퍼스,이 회사의 제품 Speechmatics 부사장은 인터뷰에서 말했다.
테스트에서 특정 악센트 클라우드 음성 API와 IBM의 클라우드를 식별보다 구글의 글로벌 영어 성능도 우수합니다. Thüngen 하이 엔드 분야에서, 그 정확성 비율은 55의 다른 제품에 23 %보다 더 높다고 %.
Speechmatics하지 유일한 회사는 악센트를 식별의 문제를 해결하려고합니다.
베를린에 본사를두고있는 매사추세츠 주 데이 톤 뉘앙스는 음성 인식 시스템은 거의 80 언어를 식별 할 수 있으며, 높은 정확도가 동일한 지 확인하기 위해 다양한 방법을 사용했다.
영국에서의 언어 모델에서, (롤로 특별히 지칭 같은 단어 '냉이'를 사용하는 등)와 발음. 따라서이 뉘앙스 각 고유 방언 단어를 포함하는 음성 및 텍스트 데이터 (20)의 특정 방언 영역을 수집 음성 인식 시스템은 '히드로 (Heathrow)'의 52 가지 표현을 인식합니다.
오늘, 뉘앙스 음성 인식 시스템은 새로운 개발이있다. 드래곤은 자동으로 사용자의 강세에 따라 여러 가지 방언의 기계 학습 모델을 전환 개발 사용자 정의 소프트웨어 포트폴리오를, 텍스트에 뉘앙스 음성의 업데이트 버전입니다.
이전 버전에 비해 더 방언 자동 전환 기능은 정확한 동남 영어를 식별하기 위해, 미국의 높은 16.5 %의 22.5 %의 인식 정확도 남부 방언에 스페인어 억양 영어의 정확성의 새 버전을 인식하는 음성 인식 시스템입니다 이 비율은 17.4 % 높습니다.
데이터가 많을수록
궁극적으로 인해 생성 된 데이터의 부족. 높은 코퍼스의 품질에 악센트 음성 인식 문제, 더 다양한 언어 모델, 다음, 적어도 이론적으로, 음성 인식 시스템의 정확도 높은.
워싱턴 포스트, 미국의 3 %의 서양 언어 인식 정확도 속도에 비해 미국의 남부 언어의 Google 홈 지능형 음성 보조 인식 정확도의 연구에서 아마존 에코 인식 정확도 중서부 언어는 2 % 낮은 것으로있다.
아마존 대변인은 워싱턴 포스트 지와의 인터뷰에서 알렉사의 음성 인식 능력은 계속해서 향상 될 것이라고 강조했다. Google Assistant의 음성 인식 기술을 지속적으로 개선합니다.
시장 조사 기관인 Canalys에 따르면 2019 년까지 전 세계적으로 약 1 억 개의 스마트 음성 시스템이 판매되고 있으며 2022 년까지는 음성 인식 시스템을 사용하는 사람들이 점점 늘어나고 있습니다. 미국 가정의 약 55 %는 지능형 음성 시스템을 가지고 있습니다.
현재의 기술 개발에 따르면 정확도가 가장 높고 전 세계 사용자에게 적합한 음성 인식 시스템을 개발할 수 없다고 믿음은 말했다. 이 음성 인식 시스템이 이들을 사용하는 사람들의 악센트를 정확하게 식별 할 수 있도록 보장하는 것입니다. '