از آنجایی که انتشار عروسکهای جاسوسی و عروسکهای جهانی Wonder از آی بی ام، تکنولوژی تشخیص گفتار به طور مداوم در حال تکامل است، تا پایان سال 2018، دستیار Google بیش از 30 زبان مختلف را پشتیبانی می کند.
کوالکام همچنین یک سیستم تشخیص گفتار را ایجاد کرده است که کلمات و عبارات را با 95٪ دقت مشخص می کند. علاوه بر این، سرویس صوتی هوشمند مایکروسافت دقیق تر و کارآمدتر از سرویس های تماس دستی است.
با این وجود، اگر چه آموزش ماشین باعث شده است تا پیشرفت تکنولوژی تشخیص گفتار افزایش یابد، این سیستم های تشخیص گفتار هنوز کامل نیستند. جدی ترین مشکل، تبعیض جغرافیایی است.
براساس یک مطالعه اخیر که توسط واشنگتن پست انجام شده، دستیاران محبوب هوشمند که توسط Google و آمازون توسعه یافته اند، لهجه های غیر محلی ایالات متحده را با دقت کمتر 30 درصد نسبت به لهجه های محلی ایالات متحده تشخیص می دهند.
شرکت هایی مانند آی بی ام و مایکروسافت از Corps Switchboard برای کاهش میزان خطای دستیارهای صوتی استفاده می کنند اما معلوم می شود که Corpus قادر به حل مشکل تشخیص لهجه صاحبان صدا نیست.
وی گفت: "این داده ها گیج کننده هستند، زیرا داده ها نشان دهنده ماهیت انسانی هستند،" رامان چوودوری، مدیر مسئول AI Global Accumer، گفت: "این الگوریتم است که در آن الگوریتم فوق العاده است: به دنبال الگوهای رفتاری انسان است."
تعصب الگوریتمی نشان دهنده درجه ای است که مدل های یادگیری ماشین ها بر خلاف داده ها و طراحی طراحی شده اند. بسیاری از گزارش های خبری بر سیستم های تشخیص چهره (به ویژه تشخیص تصویر Recognizing Amazon Web Services) ایجاد شده است.
علاوه بر این، انحراف الگوریتم در مناطق دیگر مانند الگوریتم پیش بینی اینکه آیا متهم سیستم اتوماسیون محتوا در جرم و جنایت آینده و برنامه های خبری گوگل در پشت توصیه می کنم ظاهر می شود.
رهبران صنعت مایکروسافت و AI از جمله IBM، کوالکام، از جمله فیس بوک و ابزارهای خودکار برای شناسایی و کاهش تعصب ناشی الگوریتم هوش مصنوعی است، اما تعداد کمی از مردم قادر به ایجاد راه حل های خاص مشکل شناسایی لهجه.
پیشنهاد راه حل های واقعی، تنها دو شرکت یکی Speechmatics است، یکی دیگر از نکات دقیق وظریف است.
حل شکاف لهجه را حل کن
Speechmetrics، یک شرکت فن آوری کمبریج متخصص در نرم افزار شناسایی گفتار شرکت، 12 سال پیش برنامه بلند پروازانه ای را برای توسعه یک سیستم به رسمیت شناختن دقیق تر و جامع زبان از هر محصول در بازار به کار گرفت.
این شرکت ابتدا مدلهای آماری زبان و شبکه های عصبی را مورد بررسی قرار داد و مدل یادگیری ماشین را توسعه داد که بتواند توالی های خروجی حافظه را مدیریت کند. در سال 2014، یک ساختار گیگابایتی برای سرعت بخشیدن به توسعه مدل زبان آماری آن استفاده شد. از آن زمان، اولین گام گرفته شده است.
در سال 2017، مرحله عطف دیگری به دست آورده است: خدمات تبدیل زبان عربی را با همکاری موسسه محاسبات قطر (QCRI) توسعه داده است.
"ما در بر داشت که ما نیاز به توسعه یک سیستم تشخیص صدا، تنها یک حالت خواهد بود قادر به اعمال به تمام زبان، بدون مشکل لهجه، و آن را شناسایی استرالیا دقت لهجه و رونویسی لهجه اسکاتلندی به عنوان بالا. Speechmatics مدیر اجرایی افسر Benedikt von Thüngen گفت.
در ماه ژوئیه سال جاری، آنها با موفقیت توسعه چنین سیستم تشخیص گفتار انگلیسی جهانی است. دارای بیش از 40 کشور، هزاران ساعت از داده های صوتی و چند ده میلیارد کلمات، تابع تبدیل صدای متن تمام انگلیسی لهجه.
علاوه بر این، انگلیسی جهانی است نیز جدا از استقرار Speechmatic خودکار زبان شناس، که یک چارچوب از هوش مصنوعی برای یادگیری زبان از پایه و اساس یک زبان جدید با استفاده از زبان شناخته شده در الگوهای قابل تشخیص است.
"فرض کنید شما می خواهید با آمریکایی ها در طرف دیگر صحبت کنید، و شما باید با استرالیا ها از طرف دیگر ارتباط برقرار کنید، و این آمریکایی ها در کانادا زندگی می کردند، بنابراین یک لهجه کانادایی وجود دارد، و بیشتر سیستم های تشخیص گفتار این زمان را به رسمیت می شناسند. زبان لهجه، اما سیستم تشخیص گفتار ما نباید نگران این مسئله باشد. ایان فریث، معاون رئیس جمهور محصولات Speechmatics در مصاحبه گفت.
در این تست، Global English بهتر از API Cloud Speech و Cloud IBM در تشخیص عالئم خاصی عمل کرد. Thüngen گفت: در حوزه بالایی، دقت آن 23٪ تا 55 بیشتر از سایر محصولات است. درصد
Speechmatics تنها شرکتی نیست که می خواهد مشکل شناسایی لهجه را حل کند.
مقر اصلی آن در برلین، ماساچوست دیتون نکات دقیق وظریف گفت: آن را از انواع روش اطمینان حاصل شود که سیستم تشخیص صدا می توانید تقریبا از 80 زبان را شناسایی، و دقت بالا یکسان هستند استفاده کنید.
در مدل زبانی خود را در بریتانیا، آن را جمع آوری صدا و متن داده 20 منطقه گویش خاص، از جمله هر کلمه لهجه منحصر به فرد (مانند استفاده از کلمه «بلال به رول به طور خاص اشاره) و تلفظ. بنابراین، این نکات دقیق وظریف سیستم تشخیص گفتار قادر به شناسایی 52 بیان های مختلف، هیترو از خواهد بود.
امروز، سیستم تشخیص گفتار نکات دقیق وظریف است توسعه های جدید. اژدها نسخه به روز شده از سخنرانی نکات دقیق وظریف به متن توسعه یافته نمونه کارها نرم افزار سفارشی، که به طور خودکار سوئیچ مدل یادگیری ماشین در چندین لهجه های مختلف با توجه به لهجه کاربر است.
در مقایسه با نسخه های قدیمی هیچ گویش تابع سوئیچینگ خودکار، سیستم تشخیص صدا به رسمیت شناختن نسخه جدید از دقت و صحت انگلیسی با لهجه اسپانیایی به 22.5٪ دقت تشخیص لهجه جنوبی در آمریکا بیشتر 16.5٪، برای شناسایی دقیق جنوب شرقی به زبان انگلیسی است این میزان 17.4٪ بالاتر است.
اطلاعات بیشتر، بهتر است
در نهایت، مشکلات لهجه تشخیص گفتار با توجه به عدم وجود اطلاعات تولید شده است. بالاتر از کیفیت لاشه، مدل زبانی متنوع تر، پس از آن حداقل در تئوری، بالاتر از دقت این سیستم تشخیص گفتار.
در این مطالعه از واشنگتن پست، صفحه اصلی Google هوشمند دستیار صوتی دقت تشخیص از زبان جنوبی ایالات متحده نسبت به در به رسمیت شناختن زبان میزان دقت غربی از 3 درصد از ایالات متحده، در حالی که دقت تشخیص آمازون اکو زبان غرب میانه به 2 درصد کمتر است.
یک سخنگوی آمازون به واشنگتن پست به خبرگزاری واشنگتن گفت که کاربران بیشتر در لهجه های مختلف صحبت می کنند، قابلیت های تشخیص گفتار الکسا همچنان بهبود خواهد یافت و گوگل در بیانیه ای گفت که آنها پایگاه های خود را گسترش می دهند. به طور مداوم تکنولوژی تشخیص گفتار Google Assistant را بهبود بخشد.
همانطور که کاربران بیشتر و بیشتر از سیستم های تشخیص صدا استفاده می کنند، عملکرد آنها بیشتر خواهد شد. طبق گزارش Canalys شرکت تحقیقات بازار، تا سال 2019 نزدیک به 100 میلیون سیستم صدای هوشمند در سراسر جهان فروخته می شود. حدود 55 درصد خانوارهای آمریکایی یک سیستم صوتی هوشمند دارند.
ایمان گفت: "با توجه به توسعه فن آوری فعلی، شما می توانید بالاترین دقت توسعه نیست و مناسب برای کاربران در سراسر جهان یک سیستم تشخیص صدا است هنوز برنامه ای برای حل این مشکل از لهجه انتظار نیست. بهترین کاری که شما می توانید آن را انجام دهید سیستم تشخیص گفتار است به اطمینان حاصل شود که می توانید با دقت شناسایی است که با استفاده لهجه خود از کاربر.