آیا هوش مصنوعی، مترجمی و زبان اشاره را منسوخ میکند؟

ايسنا/ هوش مصنوعي در حال تغيير ديد ما از زبان و نحوه دسترسي به آن است و با پيشرفت آن در ساليان آتي شايد شاهد تحول در زمينه ترجمه زنده و صحيح اغلب زبانهاي دنيا از جانب هوش مصنوعي باشيم.
در عصر اينترنت، مردم به يکديگر نزديک و نزديکتر ميشوند. شما ميتوانيد با دوست خود در هر کجاي دنيا به صورت صوتي و تصويري تماس برقرار کنيد يا بسياري از کارهاي سنتي را که قبلا به ابزار و کاغذ و موارد ديگر نياز داشت، تنها با موبايل هوشمند خود در کمترين زمان ممکن انجام دهيد.
اما هرچه دنيا به هم نزديکتر ميشود، توجه ما بيشتر و بيشتر به سمت فضاي مجازي معطوف ميشود. ما ساعتها در طول روز به گردش در برنامههايي نظير اينستاگرام ميپردازيم و زمان کمتري را صرف تعامل مستقيم با يکديگر ميکنيم.

نقش هوش مصنوعي در دنياي امروز
هوش مصنوعي(AI) موضوعي است که جهان امروز ما را به شدت تحت تاثير قرار داده است و مانند بسياري از فناوريها، مزاياي فراوان و البته برخي معايب نيز دارد. اين فناوري هم اکنون به سرعت در حال پيشرفت و توسعه است و حتي برخي را نسبت به سلطه بر انسان طي سالهاي آينده نگران کرده است.
اما آيا هوش مصنوعي در آينده نزديک جايگزين مترجمان و زبان اشاره خواهد شد؟

سرشاخ شدن گوگل با مترجمان
شرکت گوگل در مارس ۲۰۲۱ از ويژگي "Live Captions" به معناي "زيرنويس يا عنوان زنده" خود در مرورگرهاي کروم(Chrome) رونمايي کرد. اين ويژگي از فناوري يادگيري ماشيني استفاده ميکند تا بلافاصله زيرنويسها را روي هر کليپ تصويري يا صوتي ايجاد کند و به افراد ناشنوا و کم شنوا دسترسي بيشتري به محتواي اينترنت بدهد.
در گذشته و امروز نيز از زيرنويسهاي از قبل تهيه شده براي قالبهاي ويدئويي استفاده ميشود و يا اينکه يک تندنويس، تقريباً فوري و در لحظه مطالب را تايپ ميکرد تا به عنوان زيرنويس پخش شود. با اين حال، در جاهايي که زيرنويس معمول و رايج نيست، مانند برنامههايي مانند اينستاگرام يا تيکتاک، يافتن زيرنويسها تقريباً غيرممکن است.
اکنون ويژگي "زيرنويس زنده" اين موضوع را تغيير ميدهد و هر کاربري با چند کليک روي نمايشگر ميتواند زيرنويسهاي آني و دقيقي در اختيار داشته باشد که محتواهاي صوتي و تصويري را در برميگيرد.

ويژگي "زيرنويس زنده" شرکت گوگل نوعي "NLP" يا "پردازش زبان طبيعي" است. "NLP" نوعي هوش مصنوعي است که با استفاده از الگوريتمها، برقراري تعامل ميان مردم و ماشينها را تسهيل ميکند. "NLP" به ما کمک ميکند تا زبانهاي انساني را به زبانهاي ماشيني و برعکس ترجمه کنيم.

"آلن تورينگ" پدر هوش مصنوعي
براي درک تاريخچه "NLP" بايد به سراغ يکي از باهوشترين دانشمندان عصر مدرن به نام "آلن تورينگ" برويم. وي در سال ۱۹۵۰ مقاله " ماشين آلات رايانشي و هوش" را منتشر کرد که در مورد مفهوم رايانههاي متفکر و داراي درک بحث ميکرد.
وي در اين مقاله ادعا کرد که هيچ استدلال قانع کنندهاي عليه اين ايده که ماشينها ميتوانند مانند انسان فکر کنند، وجود ندارد و آزمون "بازي تقليد"(imitation game) را که اکنون به عنوان "آزمون تورينگ" شناخته ميشود، ارائه کرد. "تورينگ" راهي براي سنجش اينکه آيا هوش مصنوعي ميتواند به تنهايي فکر کند يا نه پيشنهاد کرد و گفت که اگر هوش مصنوعي بتواند انساني را فريب دهد تا آن انسان باور کند که هوش مصنوعي احتمالا يک انسان است، ميتوان آن را هوشمند دانست.
"جوزف وايزنباوم" دانشمند آلماني از سال ۱۹۶۴ تا ۱۹۶۶ يک الگوريتم "NLP" نوشت که معروف به "اليزا"(ELIZA) است. "اليزا" از تکنيکهاي تطبيق الگو براي ايجاد مکالمه استفاده کرده است. به عنوان مثال در يک مکالمه مربوط به مراجعه بيمار به پزشک، اگر بيمار به رايانه بگويد "سر من درد ميکند"، اين عبارت با عبارتي شبيه به "چرا سرت درد ميکند؟" پاسخ داده ميشود. "اليزا" در حال حاضر به عنوان يکي از قديميترين رباتهاي گفتگو و يکي از اولين الگوريتمهايي است که به نوعي در "آزمايش تورينگ" ميتواند انسان را فريب دهد.
دهه ۱۹۸۰ نقطه عطف بزرگي در توليد "NLP" بود. در گذشته سيستمهاي "NLP" مانند "اليزا" با تکيه بر مجموعهاي پيچيده از قوانين، مکالمات را شکل ميدادند و هوش مصنوعي نميتوانست براي خودش فکر کند. بلکه از پاسخهاي از پيش آماده متناسب با موضوع گفتگو استفاده ميکرد و وقتي يک انسان چيزي را به آن ميگفت که پاسخي براي آن نداشت، با پاسخي نظير "درباره اين موضوع بيشتر به من بگوييد" مواجه ميشد.
"NLP" در اواخر دهه ۱۹۸۰ در عوض بر روي مدلهاي آماري متمرکز شد که به آن کمک ميکرد مکالمات را بر اساس احتمال شکل دهد.
تشخيص گفتار مدرن "NLP" شامل چند اصل مشترک مانند تشخيص گفتار، تشخيص صدا، شناسايي زبان و خلاصهسازي است که ميتواند بين سخنرانان تفاوت قائل شود.

سيستم "زيرنويس زنده" گوگل از سه مدل يادگيري عميق براي تشکيل زيرنويسها استفاده ميکند: يک شبکه عصبي بازگشتي(RNN) براي تشخيص گفتار، يک RNN مبتني بر متن براي تشخيص علائم نگارشي و يک شبکه عصبي حلقوي(CNN) براي طبقهبندي رويدادهاي صوتي. اين سه مدل، سيگنالهايي را ارسال ميکنند که با هم ترکيب ميشوند و زيرنويس را تشکيل ميدهند.
وقتي گفتار در قالب صوت يا تصوير تشخيص داده ميشود، شبکه عصبي بازگشتي تشخيص خودکار گفتار(ASR RNN) فعال ميشود و به دستگاه اجازه ميدهد کلمات را به شکل متن درآورد. وقتي اين گفتار متوقف ميشود، به عنوان مثال وقتي موسيقي به جاي آن پخش ميشود، فعاليت تشخيص خودکار گفتار براي صرفهجويي در باتري موبايل با نمايش برچسب "موسيقي" در زيرنويس، متوقف ميشود.
همانطور که متن گفتار به صورت زيرنويس تنظيم ميشود، علائم نگارشي روي جمله کامل شکل ميگيرد. علائم نگارشي به طور مداوم تنظيم ميشوند تا زماني که نتايج تشخيص خودکار گفتار با معني جمله تداخل نداشته باشد.
در حال حاضر، ويژگي "زيرنويس زنده" تنها ميتواند زيرنويس را براي متون و گفتارها به زبان انگليسي ايجاد کند، اما دائماً در حال بهبود است و در آينده نزديک به زبانهاي ديگر نيز گسترش مييابد. هم اکنون نسخههاي اوليه زيرنويسهاي اسپانيايي، آلماني و پرتغالي در دسترس هستند.

"پروژه يوفونيا"
NLPهاي دسترسي محور فقط به ايجاد زيرنويس محدود نميشوند. يکي ديگر از پروژههاي گوگل، "پروژه يوفونيا"(Project Euphonia) است که با استفاده از NLP به افراد داراي اختلال گفتاري کمک ميکند تا توسط نرمافزار تشخيص گفتار بهتر شنيده و درک شوند.
"پروژه يوفونيا" ۳۰۰ تا ۱۵۰۰ عبارت صوتي را از داوطلبان داراي اختلال گفتاري جمعآوري ميکند. سپس ميتوان اين نمونههاي صوتي را به مدلهاي تشخيص گفتار داده و براي آموزش انواع نقص گفتار تغذيه کرد. علاوه بر اين، اين برنامه سيستمهاي صوتي ساده شدهاي ايجاد ميکند که ميتوانند با استفاده از رديابي صورت يا صداهاي ساده اعمال مختلفي مانند روشن کردن چراغ يا پخش يک آهنگ خاص را انجام دهند.
يکي از جديدترين شبکههاي عصبي بازگشتي تشخيص خودکار گفتار گوگل در تلاش است تا نحوه تعامل ما با ديگران را تغيير دهد و دامنه ارتباط را گسترش دهد. حالت "مترجم گوگل"(Google Interpreter) براي شناسايي آنچه شما ميگوييد از تشخيص خودکار گفتار استفاده ميکند و ترجمه دقيق آن را به زبان ديگري پخش ميکند و به طور موثر مکالمهاي را بين افراد داراي زبانهاي متفاوت ايجاد ميکند و موانع زباني را از بين ميبرد.
هنوز چند مشکل در سيستم تشخيص خودکار گفتار(ASR) وجود دارد. ماشينها در مشکلي که اغلب "شکاف لهجه هوش مصنوعي" ناميده ميشوند، گاهي اوقات در درک افراد با لهجهها يا گويشهاي غليظ مشکل دارند. در حال حاضر اين مشکل به شکل مورد به مورد حل ميشود.
دانشمندان تمايل دارند از يک مدل "لهجه واحد" استفاده کنند که در آن الگوريتمهاي مختلف براي گويشها يا لهجههاي مختلف طراحي شده است. به عنوان مثال، برخي از شرکتها با استفاده از سيستمهاي جداگانه تشخيص خودکار گفتار براي تشخيص گويشهاي مکزيکي-اسپانيايي در مقابل گويشهاي اسپانيايي-اسپانيايي آزمايش کردهاند.
در نهايت، بسياري از اين سيستمهاي تشخيص خودکار گفتار نشان دهنده درجهاي از سوگيري و تعصب ضمني است. در ايالات متحده، گويش انگليسي بومي آفريقايي-آمريکايي که به آن "AAVE" نيز گفته ميشود، گويشي کاملاً رايج از انگليسي سنتي است که معمولاً توسط آمريکاييهاي آفريقاييتبار صحبت ميشود. با اين حال، مطالعات متعدد اختلافات نژادي قابل توجهي را در ميزان خطاي سيستمهاي مختلف تشخيص خودکار گفتار پيدا کرده است. به عنوان مثال يک مطالعه که نشان ميدهد که ميانگين خطا براي سياهپوستان در برنامههاي تشخيص خودکار گفتار شرکتهاي آمازون، اپل، گوگل، آيبيام و مايکروسافت تقريبا دو برابر سفيدپوستان است.
ايجاد آموزش متنوعتر براي هوش مصنوعي که شامل لهجههاي محلي، گويشهاي مختلف و عاميانه است ميتواند به کاهش اختلاف در دقت تشخيص خودکار گفتار براي نژادها و قوميتهاي مختلف کمک کند.
اين فناوري پتانسيلي باورنکردني براي گردهم آوردن مردم دارد، اما وقتي دچار تعصب و جهتگيري ميشود، ميتواند يک نيروي تفرقه افکن و منزوي کننده باشد. ما به لطف فناوري پردازش زبان طبيعي(NLP) در حال شروع به پر کردن اين شکاف براي ايجاد آيندهاي بهتر هستيم.


















