ديجياتو/ اصولاً يادگيري ماشيني به کمک سيستمهاي تشخيص گفتار مي آيد و موجب ميشود که چنين مکانيزم هايي با تجزيه لايههاي صداي انسان و تقليد جزء به جزء با استفاده از الگوريتمهاي رياضي بتوانند عملکرد مناسبي از خود بر جاي بگذارند.
البته بايد در نظر داشت که چنين سيستمي به سرورهاي قدرتمندي نياز دارد که بتواند حجم عظيمي از پردازش را انجام دهد تا نتايج دقيقي بدست آورد. حال پژوهشگران دانشگاه واترلو کانادا و استارتاپ DarwinAI مدعي شدهاند که استراتژي جالبي براي طراحي شبکههاي تشخيص گفتار توسعه داده که نه تنها دقت فوق العادهاي در تشخيص صداي افراد و کلمات مختلف دارد، بلکه به علت استفاده از مدلها پردازشي قديمي و ضعيف ميتوان آن را روي تلفنهاي هوشمند اقتصادي نيز اجرا نمود.
اين محققان مدعي شده اند که متد آنها بر اساس تلاشهاي تيم يادگيري ماشيني ديگر بوده است که مي توان به اين ۳ تيم اشاره نمود؛
۱- تيم يادگيري آلکساي آمازون موفق به طراحي سيستمي شده که ميتواند بدون اتصال به سخت افزاري قوي، جهت دهي، کنترل دما و پخش موسيقي را پردازش نمايد.
۲- کوالکام نيز ارديبهشت ماه مدعي شد که سيستم تشخيص گفتارش اکنون ميتواند با دقت ۹۵ درصدي فعاليت خود را به انجام رساند.
۳- استارتاپ ايرلندي Voysis در شهريور ماه، يک مدل تشخيص صداي آفلاين طراحي کرده که ميتواند روي تلفنهاي هوشمند اجرا شود.
حال پژوهشگران سيستم جديدي بر اساس يادگيري ماشيني طراحي کنند که سه ويژگي مکانيزيم تيمهاي قبلي را با يکديگر ترکيب کرده و عملکرد فوق العادهي از خود بر جاي ميگذارد. بدين ترتيب سيستم جديد هم ميتواند روي يک سخت افزار ضعيفتر اجرا شود، با دقت ۹۵ درصدي به تشخيص گفتار انسان بپردازد و نيازي به اتصال اينترنتي نداشته باشد.
اين تيم در ابتدا سعي کرد تا يک نمونهي اوليهاي براي تشخيص گفتار بر اساس لغت واژگان محدودي تهيه کند و پس از آن گسترهي سيستم خود را کم کم افزايش دهد.
بازار