DeepSeek مچ آمریکاییها را میخواباند؟
فرهیختگان/متن پیش رو در فرهیختگان منتشر شده و بازنشرش در آخرین خبر به معنای تاییدش نیست
ندا اظهری-مترجم| نخستین «مدل استدلالی» جهان که شکل پیشرفتهای از هوش مصنوعی را ارائه میدهد، در ماه سپتامبر از سوی OpenAI منتشر شد. در این مدل که به O1 شناخته میشود، از یک زنجیره فکری برای پاسخ به سؤالات دشوار در علوم و ریاضیات استفاده میشود به طوری که مسائل را به مراحل تشکیلدهنده آنها تقسیم کرده و پیش از ارائه نتیجه به کاربر، رویکردهای مختلفی را در پشت صحنه آزمایش میکند. رونمایی از آن، رقابتی را برای کپیبرداری از این روش به راه انداخت. گوگل در ماه دسامبر یک مدل استدلالی موسوم به «تفکر Gemini Flash» را ارائه کرد. OpenAI چند روز بعد با O3 که نسخه بهروزرسانی O1 است، پاسخ داد. اما گوگل با تمام منابع خود، نخستین شرکتی نبود که از OpenAI تقلید کرد. کمتر از سه ماه پس از راهاندازی مدل O1، شرکت علی بابا که غول چینی تجارت الکترونیک در دنیا محسوب میشود، نسخه جدیدی از چت بات Qwen موسوم به QwQ را با همان قابلیتهای استدلالی منتشر کرد. یک شرکت چینی دیگر به نام DeepSeek، یک هفته پیش از آن، یک پیشنمایش از یک مدل استدلالی به نام R1 منتشر کرده بود.
تلاش آمریکا برای دور نگه داشتن چین از هوش مصنوعی
به رغم تلاشهای دولت آمریکا برای عقب نگه داشتن صنعت هوش مصنوعی چین، دو شرکت چینی پیشتاز، برتری فناورانه همتایان آمریکایی خود را در حوزه فناوری کاهش دادهاند. البته شرکتهای چینی تنها به واسطه مدلهای استدلالی در صنعت هوش مصنوعی پیشتاز نیستند؛ در ماه دسامبر، شرکت DeepSeek یک مدل زبانی بزرگ جدید (LLM) منتشر کرد که نوعی از هوش مصنوعی برای تجزیه و تحلیل و تولید متن به شمار میرود. V3 تقریباً 700 گیگابایت و بسیار بزرگتر از چیزی بود که روی هر چیزی جز سختافزار تخصصی اجرا شود و از 685 میلیارد پارامتر برخوردار بوده و از ترکیب قوانین فردی و شبکه عصبی این مدل تشکیل شده بود. Llama 3.1 پرچمدار LLM شرکت «متا»، شرکت مادر فیسبوک بود که در ماه جولای منتشر شد و 405 میلیارد پارامتر دارد. LLM شرکت DeepSeek نه تنها از بسیاری از همتایان غربی خود بزرگتر است، بلکه بهتر بوده و تنها با مدلهای اختصاصی گوگل و OpenAI مطابقت دارد. «پل گاتیر» بنیانگذار Aider، پلتفرم کدنویسی هوش مصنوعی، مدل جدید DeepSeek را از طریق کدنویسی خود اجرا کرد و متوجه شد که از تمام رقبای خود به غیر از O1 پیشی گرفته است. Lmsys، یک رتبهبندی جمعی از چت باتها که دوره هفتم آن انجام شده، بالاتر از هر مدل منبع باز دیگر و بالاترین رتبه تولید شده توسط شرکتی غیر از گوگل یا OpenAI است.
رقابت چین و آمریکا به حد هشدار رسید
هوش مصنوعی چینی اکنون از نظر کیفیت به رقبای آمریکایی خود به قدری نزدیک شده است که «سم آلتمن»، رئیس OpenAI خود را موظف کرده در مورد کاهش شکاف بین شرکتهای چینی و آمریکایی هشدار دهد. مدت کوتاهی پس از انتشار نسخه DeepSeek V3، آلتمن در توییتی با لحن عصبانی نوشت: «کپی کردن چیزی که میدانید کار میکند، کار آسانی است. در مقابل، انجام کاری جدید، پرخطر و دشوار، زمانی که از کار کردن آن مطمئن نیستید، کار دشواری است.» صنعت هوش مصنوعی چین در ابتدا درجه دوم به نظر میرسید که دلیل اصلی آن هم رقابت تنگاتنگ و مقابله با آمریکا بوده است. در سال 2022، آمریکا صادرات تراشههای پیشرفته به چین را ممنوع کرد. انویدیا، یکی از تولیدکنندگان پیشرو در عرصه تراشه در دنیا مجبور شده با کاهش ارزشهای خاص، محصولات خود را برای بازار چین طراحی کند. آمریکا همچنین، با ممنوع کردن صادرات تجهیزات لازم و تهدید به اعمال جریمههایی برای شرکتهای غیرآمریکایی کمککننده، به دنبال جلوگیری از توسعه ظرفیت چین برای تولید تراشههای برتر در داخل کشور، در این صنعت رشد کرده است. شرکتهای چینی تا حدی به دلیل نگرانیهای نظارتی، دیرتر به سمت فناوری LLM کشیده شدند. شرکت «بایدو» به عنوان یک غول فناوری جستوجوگر، سالها با مدلهای داخلی LLM آزمایش کرده و ERNIE را تولید کرده بود اما در انتشار عمومی آن مردد بود. حتی زمانی که موفقیت ChatGPT، این شرکت را وادار به تجدیدنظر کرد، در ابتدا اجازه دسترسی به چت بات ERNIE را تنها با دعوتنامه داد. درنهایت، مقامات چینی مقرراتی را برای تقویت صنعت هوش مصنوعی صادر کردند. اگرچه آنها از مدلسازان هوش مصنوعی خواستند بر محتوای سالم تأکید کرده و به ارزش سوسیالیستی پایبند باشند، اما متعهد شدند که توسعه نوآورانه هوش مصنوعی مولد را در پیش گیرند.
ادامه رقابت جهانی در تولید مدلی ارزانتر و مؤثرتر
چین به دنبال رقابت در سطح جهانی است. «علی بابا» یکی از اولین شرکتهایی بود که روی موج هوش مصنوعی سوار شد و خود را با محیط وفق داد و LMM خود را راهاندازی کرد که در ابتدا به Tongyi Qianwen معروف شده بود و سپس به اختصار به آن Qwen گفته شد. این شرکت در یک بازه یک یا چند ساله، مدل دندانگیری تولید نکرد اما در سال 2024، زمانی که علی بابا نسخههای متوالی Qwen را منتشر کرد، کیفیت مدلهای این شرکت هم بهبود یافت. «جک کلارک» از شرکت «آنتروپیک» که یک آزمایشگاه هوش مصنوعی غربی است، یک سال پیش زمانی که علی بابا نسخهای از Qwen را منتشر کرد که قادر به تجزیه و تحلیل تصاویر نیز بود، اظهار داشت: «به نظر میرسد این مدلها با مدلهای بسیار قدرتمندی که توسط آزمایشگاههای پیشرو در غرب تولید شدهاند، قابل رقابت هستند. دیگر غولهای اینترنتی چین، از جمله «تنسنت» و «هوآوی» در حال ساخت مدلهای هوش مصنوعی خود هستند اما DeepSeek ریشههای متفاوتی دارد به طوری که حتی زمانی که علی بابا اولین مدل Qwen را عرضه کرد، خبری از این شرکت نبود. این شرکت از صندوق پوشش سرمایه High-Flyer نشأت گرفت که در سال 2015 برای استفاده از هوش مصنوعی برای به دست آوردن برتری در معاملات سهام راهاندازی شد. انجام تحقیقات بنیادی به این صندوق کمک کرد تا به یکی از بزرگترین صندوقهای مالی در کشور تبدیل شود. مؤسس این صندوق معتقد است هدف از راهاندازی این صندوق، صرفاً تجاری نبوده است. اولین حامیان OpenAI به دنبال بازگشت نبودند، بلکه انگیزه آنها پیگیری مأموریت بود. در همان ماهی که Qwen را در سال 2023 راهاندازی کرد، صندوق High-Flyer اعلام کرد که این شرکت نیز در حال ورود به رقابت برای ایجاد هوش مصنوعی در سطح انسانی و گسترش واحد پژوهشی هوش مصنوعی خود مانند DeepSeek است. برخلاف OpenAI که مجبور به جستوجوی بودجه خصوصی برای پوشش هزینههای آموزشی خود بود، DeepSeek همواره به ذخایر عظیم قدرت محاسباتی این صندوق دسترسی داشته است که به موجب آن، مدل از دادههایی تغذیه میکند که از آن پارامترهای خود را استنباط میکند. به عنوان مثال، فرایند آموزش اغلب از گردن کردن برای آسانتر کردن محاسبات استفاده میکرد، اما در صورت لزوم، اعداد را دقیق نگه میداشتند.
مزرعه سرور مجدداً پیکربندی شد تا به تراشههای جداگانه اجازه دهد به طور مؤثرتری با یکدیگر در تعامل باشند. به لطف این نوآوریها و سایر نوآوریها، تولید میلیاردها پارامتر V3 با هزینه تخمینی کمتر از 6 میلیون دلار کمتر از 3 میلیون تراشه امکانپذیر شده است که حدود یکدهم توان محاسباتی و هزینهای است که صرف ساخت مدل Llama 3.1 شده است. V3 تنها به 2000 تراشه نیاز دارد در حالی که در فرایند ساخت مدل Llama 3.1 از 16000 تراشه استفاده شده است. به دلیل تحریمهای آمریکا، تراشههای V3 به کار رفته جزو قدرتمندترین تراشهها نبودند و به نظر میرسد شرکتهای غربی برای ساخت تراشهها هزینههای گزافی صرف کردهاند. «متا» قصد دارد با استفاده از 350 هزار تراشه، یک مزرعه سرور راهاندازی کند. رئیس سابق هوش مصنوعی «تسلا» معتقدند است آموزش یک مدل جدید با هزینه پایینتر و ساخت آسانتر را امکانپذیر کرده است. DeepSeek در مقایسه به رقبای خود در این عرصه، کارهای مختلفی را به طور جداگانه روی چند نمونه تراشه انجام داده و قرار است گام بعدی برای انجام این فرایند را پیش از به پایان رسیدن فرایند قبلی آغاز کند. این امر به مقامات این شرکت اجازه میدهد خدماتی را ایجاد کنند که از V3 استفاده کرده و کمتر از یکدهم مبلغی را دریافت کنند که «آنتروپیک» برای استفاده از LLM خود انجام میدهد.
تفاوت شرکتها در ارائه فرایند مدلهای هوش مصنوعی
یکی از کارشناسان هوش مصنوعی معتقد است اگر مدلهای هوش مصنوعی واقعاً از کیفیتی معادل برخوردار باشند، این به معنای یک چرخش جدید و چشمگیر در جنگهای قیمتگذاری LLM خواهد بود. حتی زمانی که مدل R1 به طور کامل منتشر شد، مجموعهای از انواع کوچکتر، ارزانتر و سریعتر نیز منتشر شدند که به اندازه مدل بزرگتر قدرتمند بوده و نسخههای مشابه علیبابا و «متا» را تقلید کرده و بار دیگر ثابت کرد میتواند با بزرگترین نامهای این تجارت رقابت کند. علیبابا و DeepSeek پیشرفتهترین آزمایشگاههای غربی را به روش دیگری نیز به چالش میکشند. برخلاف OpenAI و گوگل، آزمایشگاههای چینی از «متا» پیروی میکنند و سیستمهای خود را تحت یک مجوز منبع باز در دسترس قرار میدهند. برای دانلود یک هوش مصنوعی مدل Qwen و برنامهنویسی شخصی، هیچ مجوزی نیاز نیست. این سهلانگاری در عدم کسب مجوز، با منبع باز بودن دادهها مطابقت دارد بهطوریکه این دو شرکت هرزمانی که مدلهای جدیدی را ارائه میدهند، مقالاتی را منتشر میکنند که جزئیات زیادی را در مورد تکنیکهای مورد استفاده برای بهبود عملکردشان ارائه میدهد.
زمانی که علیبابا، مدل QwQ را منتشر کرد، به عنوان نخستین شرکتی در دنیا شناخته شد که چنین مدلی را تحت یک مجوز باز منتشر کرد و به همه افراد اجازه میداد فایل کامل 20 گیگابایتی را دانلود کرده و آن را روی سیستم خود اجرا کند. این یک رویکرد کاملاً متفاوت از OpenAI است که عملکرد داخلی O1 را مخفی نگه میدارد. در ابعاد گسترده، هر دو مدل از آنچه به عنوان محاسبه زمان تست شناخته میشود، استفاده میکنند و به جای تمرکز بر استفاده از قدرت محاسباتی در طول آموزش، از مدلهای بیشتری برای پاسخ به نسل قبلی مدلهای LLM بهره میبرند. این یک نسخه دیجیتالی از «نوع دوم» مدل هوش مصنوعی است که کندتر و تحلیلیتر از «نوع یک» با سرعت بالاتر است و نتایج امیدوارکنندهای در رشتههایی مانند ریاضیات و برنامهنویسی به همراه داشته است. اگر از شما سؤال سادهای بپرسند که به عنوان مثال، پایتخت فرانسه را نام ببرید، احتمالاً با اولین کلمهای که به ذهنتان میرسد، پاسخ درستی خواهید داد. یک چتبات هوش مصنوعی معمولی هم تقریباً به همین روش عمل میکند بهطوریکه اگر نمایش آماری آن از زبان به طور عمده پاسخ را ارائه دهد، جمله را مطابق با آن کامل میکند. اما اگر سؤال پیچیدهتری از شما پرسیده شود، تمایل دارید به روشی ساختارمندتر در مورد آن فکر کنید؛ کاری که مدلهای پیچیدهتر هوش مصنوعی مانند O1 و سایر مدلها انجام میدهند، به گونهای که یک مدل LLM را وادار میکنند تا به همان شکل تفکر ساختاریافتهای را دنبال کنند و به جای محو کردن معقولترین پاسخی که به ذهن میرسد، سیستم در عوض، مشکل را جدا کرده و قدم به قدم راه خود را برای رسیدن به پاسخ پیش میبرد. اما در مدل O1، افکار به طور ساختارمندی حفظ میشود و تنها خلاصهای از فرایند و نتیجه نهایی به کاربر نشان داده میشود.
تمایل چینیها به عرضه مدلهای منبع باز
OpenAI دلایلی را نیز برای این نوع برنامهریزی ذکر کرده است. به عنوان مثال، گاهی مدل در مورد استفاده از کلمات توهینآمیز یا افشای اطلاعات خطرناک فکر میکند، اما سپس تصمیم میگیرد این کار را انجام ندهد. اگر استدلال کامل آن آشکار شود، تمام موارد به کار رفته در این فرایند نیز نمایان خواهد شد، اما این مدل به گونهای برنامهریزی شده که مکانیسم دقیق استدلال را از کپیکنندگان احتمالی پنهان نگه میدارد و درواقع، سیستمی امنیتی برای جلوگیری از کپیبرداری مدل به شمار میرود. اما در QwQ که مدل هوش مصنوعی علیباباست، در صورت پرسیدن یک سؤال، تمام فرایند پیچیدهای که برای پاسخ دادن به آن طی میکند را به تفصیل شرح میدهد و رویکردهای مختلفی را نیز دنبال میکند. یکی از بنیانگذاران شرکت پرتغالی Poolside که تولیدکننده ابزار هوش مصنوعی برای کدنویسهاست، معتقد است آزمایشگاههای چینی درگیر نبردی برای استعدادهایی مشابه استعدادهای دیگر صنعت هستند. اگر مهندسان شرکتهای چینی، اولین کسانی نباشند که یک تکنیک را کشف میکنند، اما میتوان آنها را جزء نخستین کسانی در نظر گرفت که آن را منتشر خواهند کرد. اگر به دنبال مشاهده تکنیکهای مخفی هستید، محققان چینی تمایل زیادی به ارائه مدلهایی با منابع باز دارند. آنها همهچیز را منتشر میکنند و در این زمینه، کارهای شگفتانگیزی هم انجام میدهند. تلاش دولت آمریکا برای توقف جریان فناوری پیشرفته به چین نیز زندگی را برای محققان چینی در آمریکا دشوارتر کرده است. البته مشکل تنها بار اداری تحمیل شده توسط قوانین جدید نیست، بلکه هدف آن مخفی نگه داشتن آخرین نوآوریهاست. علاوه براین، اغلب یک فضای مبهم از سوءظن وجود دارد و اتهامات جاسوسی حتی در رویدادهای اجتماعی نیز مطرح میشود.
چین به دنبال راهاندازی اکوسیستم هوش مصنوعی
کار کردن در چین هم معایب خودش را دارد. به عنوان مثال، اگر از DeepSeek V3 در مورد تایوان سؤالی بپرسید، مدل شروع به توضیح میکند که این جزیره در شرق آسیاست و به جمهوری چین شناخته میشود. اما بعد از کمی توضیح در این رابطه، ارائه پاسخ را متوقف کرده، پاسخ اولیه را حذف و درعوض، به طور خلاصه پیشنهادی را ارائه میکند مبنی بر اینکه «بیایید در مورد چیز دیگری صحبت کنیم.» آزمایشگاههای چینی شفافتر از دولت این کشور عمل میکنند؛ چراکه به دنبال ایجاد اکوسیستمی از شرکتهاییاند که روی حوزه هوش مصنوعی متمرکز شدهاند. این مقوله تا اندازهای از ارزش تجاری برخوردار است زیرا شرکتهایی که براساس مدلهای منبع باز بنا میشوند، ممکن است درنهایت متقاعد شوند محصولات یا خدمات را از سازندگان خود خریداری کنند. همچنین یک مزیت استراتژی نیز برای چین به ارمغان میآورد؛ چراکه در درگیری با آمریکا بر سر هوش مصنوعی، متحدانی ایجاد میکند. شرکتهای چینی طبیعتاً ترجیح میدهند مدلهای چینی را بسازند زیرا در این صورت دیگر نگران این موضوع نیستند که ممنوعیتها یا محدودیتهای جدید، ارتباط آنها را از پلتفرم اصلی قطع کند. یکی از سرمایهگذاران فناوری مستقر در شانگهای اظهار کرده برای شرکتهایی مانند اپل و سامسونگ تمایل دارند ابزارهای هوش مصنوعی را در دستگاههایی استفاده کنند که به چین و شرکای بومی میفروشند. حتی برخی از شرکتهای خارج از کشور نیز دلایل خاصی برای استفاده از مدلهای چینی دارند. به عنوان مثال، Qwen به طور عمد با تسلط بر زبانهایی با منابع محدود مانند اردو و بنگالی، آغشته شده، درحالیکه مدلهای آمریکایی با استفاده از دادههای عموماً انگلیسی آموزش میبینند. همچنین هزینههای جاری پایینتر مدلهای چینی، از جذابیت بالاتری برخوردار است. این لزوماً به این معنی نیست که مدلهای چینی، جهان را فرا میگیرند. هوش مصنوعی آمریکایی هنوز قابلیتهایی دارد که رقبای چینی هنوز نتوانستهاند با آنها مقابله کنند. یک برنامه پژوهشی متعلق به گوگل، مرورگر وب کاربر را به چتبات Gemini خود میسپارد و احتمال تعامل «عوامل» هوش مصنوعی با وب را افزایش میدهد. چتباتهای آنتروپیک و OpenAI نهتنها به شما در کدنویسی کمک میکنند، بلکه آن را برای شما نیز اجرا میکنند. مدل زبانی «کلود»، کل برنامه را ساخته و میزبانی میکند. استدلال گام به گام، تنها راه حل مسائل پیچیده نیست. از نسخه معمولی ChatGPT یک پرسش ریاضی بپرسید، او یک برنامه ساده برای یافتن پاسخ ارائه میدهد. انتظار میرود «آلتمن» به زودی اعلام کند OpenAI، ابرعاملهایی را در سطح دکترا ساخته که به اندازه متخصصان انسانی در طیف وسیعی از وظایف فکری دارای توانایی بوده و از این رو، شواهد نشان میدهد نوآوریهای بیشتری در راه است. رقابت بر سر پاشنهآشیل هوش مصنوعی آمریکا ممکن است آن را به موارد بزرگتری سوق دهد.