جذاب ترین ها

آیا هوش مصنوعی، مترجمی و زبان اشاره را منسوخ می‌کند؟

ايسنا

بروزرسانی 1400/04/05 - 10:00

آیا هوش مصنوعی، مترجمی و زبان اشاره را منسوخ می‌کند؟

ايسنا/ هوش مصنوعي در حال تغيير ديد ما از زبان و نحوه دسترسي به آن است و با پيشرفت آن در ساليان آتي شايد شاهد تحول در زمينه ترجمه زنده و صحيح اغلب زبان‌هاي دنيا از جانب هوش مصنوعي باشيم.

در عصر اينترنت، مردم به يکديگر نزديک و نزديک‌تر مي‌شوند. شما مي‌توانيد با دوست خود در هر کجاي دنيا به صورت صوتي و تصويري تماس برقرار کنيد يا بسياري از کارهاي سنتي را که قبلا به ابزار و کاغذ و موارد ديگر نياز داشت، تنها با موبايل هوشمند خود در کمترين زمان ممکن انجام دهيد.

اما هرچه دنيا به هم نزديکتر مي‌شود، توجه ما بيشتر و بيشتر به سمت فضاي مجازي معطوف مي‌شود. ما ساعت‌ها در طول روز به گردش در برنامه‌هايي نظير اينستاگرام مي‌پردازيم و زمان کمتري را صرف تعامل مستقيم با يکديگر مي‌کنيم.

نقش هوش مصنوعي در دنياي امروز

هوش مصنوعي(AI) موضوعي است که جهان امروز ما را به شدت تحت تاثير قرار داده است و مانند بسياري از فناوري‌ها، مزاياي فراوان و البته برخي معايب نيز دارد. اين فناوري هم اکنون به سرعت در حال پيشرفت و توسعه است و حتي برخي را نسبت به سلطه بر انسان طي سال‌هاي آينده نگران کرده است.

اما آيا هوش مصنوعي در آينده نزديک جايگزين مترجمان و زبان اشاره خواهد شد؟

سرشاخ شدن گوگل با مترجمان

شرکت گوگل در مارس ۲۰۲۱ از ويژگي "Live Captions" به معناي "زيرنويس يا عنوان زنده" خود در مرورگرهاي کروم(Chrome) رونمايي کرد. اين ويژگي از فناوري يادگيري ماشيني استفاده مي‌کند تا بلافاصله زيرنويس‌ها را روي هر کليپ تصويري يا صوتي ايجاد کند و به افراد ناشنوا و کم شنوا دسترسي بيشتري به محتواي اينترنت بدهد.

در گذشته و امروز نيز از زيرنويس‌هاي از قبل تهيه شده براي قالب‌هاي ويدئويي استفاده مي‌شود و يا اينکه يک تندنويس، تقريباً فوري و در لحظه مطالب را تايپ مي‌کرد تا به عنوان زيرنويس پخش شود. با اين حال، در جاهايي که زيرنويس معمول و رايج نيست، مانند برنامه‌هايي مانند اينستاگرام يا تيک‌تاک، يافتن زيرنويس‌ها تقريباً غيرممکن است.

اکنون ويژگي "زيرنويس زنده" اين موضوع را تغيير مي‌دهد و هر کاربري با چند کليک روي نمايشگر مي‌تواند زيرنويس‌هاي آني و دقيقي در اختيار داشته باشد که محتواهاي صوتي و تصويري را در برمي‌گيرد.

ويژگي "زيرنويس زنده" شرکت گوگل نوعي "NLP" يا "پردازش زبان طبيعي" است. "NLP" نوعي هوش مصنوعي است که با استفاده از الگوريتم‌ها، برقراري تعامل ميان مردم و ماشين‌ها را تسهيل مي‌کند. "NLP" به ما کمک مي‌کند تا زبان‌هاي انساني را به زبان‌هاي ماشيني و برعکس ترجمه کنيم.

"آلن تورينگ" پدر هوش مصنوعي

براي درک تاريخچه "NLP" بايد به سراغ يکي از باهوش‌ترين دانشمندان عصر مدرن به نام "آلن تورينگ" برويم. وي در سال ۱۹۵۰ مقاله " ماشين آلات رايانشي و هوش" را منتشر کرد که در مورد مفهوم رايانه‌هاي متفکر و داراي درک بحث مي‌کرد.

وي در اين مقاله ادعا کرد که هيچ استدلال قانع کننده‌اي عليه اين ايده که ماشين‌ها مي‌توانند مانند انسان فکر کنند، وجود ندارد و آزمون "بازي تقليد"(imitation game) را که اکنون به عنوان "آزمون تورينگ" شناخته مي‌شود، ارائه کرد. "تورينگ" راهي براي سنجش اينکه آيا هوش مصنوعي مي‌تواند به تنهايي فکر کند يا نه پيشنهاد کرد و گفت که اگر هوش مصنوعي بتواند انساني را فريب دهد تا آن انسان باور کند که هوش مصنوعي احتمالا يک انسان است، مي‌توان آن را هوشمند دانست.

"جوزف وايزنباوم" دانشمند آلماني از سال ۱۹۶۴ تا ۱۹۶۶ يک الگوريتم "NLP" نوشت که معروف به "اليزا"(ELIZA) است. "اليزا" از تکنيک‌هاي تطبيق الگو براي ايجاد مکالمه استفاده کرده است. به عنوان مثال در يک مکالمه مربوط به مراجعه بيمار به پزشک، اگر بيمار به رايانه بگويد "سر من درد مي‌کند"، اين عبارت با عبارتي شبيه به "چرا سرت درد مي‌کند؟" پاسخ داده مي‌شود. "اليزا" در حال حاضر به عنوان يکي از قديمي‌ترين ربات‌هاي گفتگو و يکي از اولين الگوريتم‌هايي است که به نوعي در "آزمايش تورينگ" مي‌تواند انسان را فريب دهد.

دهه ۱۹۸۰ نقطه عطف بزرگي در توليد "NLP" بود. در گذشته سيستم‌هاي "NLP" مانند "اليزا" با تکيه بر مجموعه‌اي پيچيده از قوانين، مکالمات را شکل مي‌دادند و هوش مصنوعي نمي‌توانست براي خودش فکر کند. بلکه از پاسخ‌هاي از پيش آماده متناسب با موضوع گفتگو استفاده مي‌کرد و وقتي يک انسان چيزي را به آن مي‌گفت که پاسخي براي آن نداشت، با پاسخي نظير "درباره اين موضوع بيشتر به من بگوييد" مواجه مي‌شد.

"NLP" در اواخر دهه ۱۹۸۰ در عوض بر روي مدل‌هاي آماري متمرکز شد که به آن کمک مي‌کرد مکالمات را بر اساس احتمال شکل دهد.

تشخيص گفتار مدرن "NLP" شامل چند اصل مشترک مانند تشخيص گفتار، تشخيص صدا، شناسايي زبان و خلاصه‌سازي است که مي‌تواند بين سخنرانان تفاوت قائل شود.

سيستم "زيرنويس زنده" گوگل از سه مدل يادگيري عميق براي تشکيل زيرنويس‌ها استفاده مي‌کند: يک شبکه عصبي بازگشتي(RNN) براي تشخيص گفتار، يک RNN مبتني بر متن براي تشخيص علائم نگارشي و يک شبکه عصبي حلقوي(CNN) براي طبقه‌بندي رويدادهاي صوتي. اين سه مدل، سيگنال‌هايي را ارسال مي‌کنند که با هم ترکيب مي‌شوند و زيرنويس را تشکيل مي‌دهند.

وقتي گفتار در قالب صوت يا تصوير تشخيص داده مي‌شود، شبکه عصبي بازگشتي تشخيص خودکار گفتار(ASR RNN) فعال مي‌شود و به دستگاه اجازه مي‌دهد کلمات را به شکل متن درآورد. وقتي اين گفتار متوقف مي‌شود، به عنوان مثال وقتي موسيقي به جاي آن پخش مي‌شود، فعاليت تشخيص خودکار گفتار براي صرفه‌جويي در باتري موبايل با نمايش برچسب "موسيقي" در زيرنويس، متوقف مي‌شود.

همانطور که متن گفتار به صورت زيرنويس تنظيم مي‌شود، علائم نگارشي روي جمله کامل شکل مي‌گيرد. علائم نگارشي به طور مداوم تنظيم مي‌شوند تا زماني که نتايج تشخيص خودکار گفتار با معني جمله تداخل نداشته باشد.

در حال حاضر، ويژگي "زيرنويس زنده" تنها مي‌تواند زيرنويس را براي متون و گفتارها به زبان انگليسي ايجاد کند، اما دائماً در حال بهبود است و در آينده نزديک به زبان‌هاي ديگر نيز گسترش مي‌يابد. هم اکنون نسخه‌هاي اوليه زيرنويس‌هاي اسپانيايي، آلماني و پرتغالي در دسترس هستند.

"پروژه يوفونيا"

NLPهاي دسترسي محور فقط به ايجاد زيرنويس محدود نمي‌شوند. يکي ديگر از پروژه‌هاي گوگل، "پروژه يوفونيا"(Project Euphonia) است که با استفاده از NLP به افراد داراي اختلال گفتاري کمک مي‌کند تا توسط نرم‌افزار تشخيص گفتار بهتر شنيده و درک شوند.

"پروژه يوفونيا" ۳۰۰ تا ۱۵۰۰ عبارت صوتي را از داوطلبان داراي اختلال گفتاري جمع‌آوري مي‌کند. سپس مي‌توان اين نمونه‌هاي صوتي را به مدل‌هاي تشخيص گفتار داده و براي آموزش انواع نقص گفتار تغذيه کرد. علاوه بر اين، اين برنامه سيستم‌هاي صوتي ساده شده‌اي ايجاد مي‌کند که مي‌توانند با استفاده از رديابي صورت يا صداهاي ساده اعمال مختلفي مانند روشن کردن چراغ يا پخش يک آهنگ خاص را انجام دهند.

يکي از جديدترين شبکه‌هاي عصبي بازگشتي تشخيص خودکار گفتار گوگل در تلاش است تا نحوه تعامل ما با ديگران را تغيير دهد و دامنه ارتباط را گسترش دهد. حالت "مترجم گوگل"(Google Interpreter) براي شناسايي آنچه شما مي‌گوييد از تشخيص خودکار گفتار استفاده مي‌کند و ترجمه دقيق آن را به زبان ديگري پخش مي‌کند و به طور موثر مکالمه‌اي را بين افراد داراي زبان‌هاي متفاوت ايجاد مي‌کند و موانع زباني را از بين مي‌برد.

هنوز چند مشکل در سيستم تشخيص خودکار گفتار(ASR) وجود دارد. ماشين‌ها در مشکلي که اغلب "شکاف لهجه هوش مصنوعي" ناميده مي‌شوند، گاهي اوقات در درک افراد با لهجه‌ها يا گويش‌هاي غليظ مشکل دارند. در حال حاضر اين مشکل به شکل مورد به مورد حل مي‌شود.

دانشمندان تمايل دارند از يک مدل "لهجه واحد" استفاده کنند که در آن الگوريتم‌هاي مختلف براي گويش‌ها يا لهجه‌هاي مختلف طراحي شده است. به عنوان مثال، برخي از شرکت‌ها با استفاده از سيستم‌هاي جداگانه تشخيص خودکار گفتار براي تشخيص گويش‌هاي مکزيکي-اسپانيايي در مقابل گويش‌هاي اسپانيايي-اسپانيايي آزمايش کرده‌اند.

در نهايت، بسياري از اين سيستم‌هاي تشخيص خودکار گفتار نشان دهنده درجه‌اي از سوگيري و تعصب ضمني است. در ايالات متحده، گويش انگليسي بومي آفريقايي-آمريکايي که به آن "AAVE" نيز گفته مي‌شود، گويشي کاملاً رايج از انگليسي سنتي است که معمولاً توسط آمريکايي‌هاي آفريقايي‌تبار صحبت مي‌شود. با اين حال، مطالعات متعدد اختلافات نژادي قابل توجهي را در ميزان خطاي سيستم‌هاي مختلف تشخيص خودکار گفتار پيدا کرده است. به عنوان مثال يک مطالعه که نشان مي‌دهد که ميانگين خطا براي سياه‌پوستان در برنامه‌هاي تشخيص خودکار گفتار شرکت‌هاي آمازون، اپل، گوگل، آي‌بي‌ام و مايکروسافت تقريبا دو برابر سفيدپوستان است.

ايجاد آموزش متنوع‌تر براي هوش مصنوعي که شامل لهجه‌هاي محلي، گويش‌هاي مختلف و عاميانه است مي‌تواند به کاهش اختلاف در دقت تشخيص خودکار گفتار براي نژادها و قوميت‌هاي مختلف کمک کند.

اين فناوري پتانسيلي باورنکردني براي گردهم آوردن مردم دارد، اما وقتي دچار تعصب و جهت‌گيري مي‌شود، مي‌تواند يک نيروي تفرقه افکن و منزوي کننده باشد. ما به لطف فناوري پردازش زبان طبيعي(NLP) در حال شروع به پر کردن اين شکاف براي ايجاد آينده‌اي بهتر هستيم.

به پيج اينستاگرامي «آخرين خبر» بپيونديد
instagram.com/akharinkhabar