نماد آخرین خبر
  1. برگزیده
تحلیل ها

DeepSeek مچ آمریکایی‌ها را می‌خواباند؟

منبع
فرهيختگان
بروزرسانی
DeepSeek مچ آمریکایی‌ها را می‌خواباند؟

فرهیختگان/متن پیش رو در فرهیختگان منتشر شده و بازنشرش در آخرین خبر به معنای تاییدش نیست

ندا اظهری-مترجم| نخستین «مدل استدلالی» جهان که شکل پیشرفته‌ای از هوش مصنوعی را ارائه می‌دهد، در ماه سپتامبر از سوی OpenAI منتشر شد. در این مدل که به O1 شناخته می‌شود، از یک زنجیره فکری برای پاسخ به سؤالات دشوار در علوم و ریاضیات استفاده می‌شود به طوری که مسائل را به مراحل تشکیل‌دهنده آن‌ها تقسیم کرده و پیش از ارائه نتیجه به کاربر، رویکرد‌های مختلفی را در پشت صحنه آزمایش می‌کند. رونمایی از آن، رقابتی را برای کپی‌برداری از این روش به راه انداخت. گوگل در ماه دسامبر یک مدل استدلالی موسوم به «تفکر Gemini Flash» را ارائه کرد. OpenAI چند روز بعد با O3 که نسخه به‌روزرسانی O1 است، پاسخ داد. اما گوگل با تمام منابع خود، نخستین شرکتی نبود که از OpenAI تقلید کرد. کمتر از سه ماه پس از راه‌اندازی مدل O1، شرکت علی بابا که غول چینی تجارت الکترونیک در دنیا محسوب می‌شود، نسخه جدیدی از چت بات Qwen موسوم به QwQ را با همان قابلیت‌های استدلالی منتشر کرد. یک شرکت چینی دیگر به نام DeepSeek، یک هفته پیش از آن، یک پیش‌نمایش از یک مدل استدلالی به نام R1 منتشر کرده بود. 

تلاش آمریکا برای دور نگه داشتن چین از هوش مصنوعی
به رغم تلاش‌های دولت آمریکا برای عقب نگه داشتن صنعت هوش مصنوعی چین، دو شرکت چینی پیشتاز، برتری فناورانه همتایان آمریکایی خود را در حوزه فناوری کاهش داده‌اند. البته شرکت‌های چینی تنها به واسطه مدل‌های استدلالی در صنعت هوش مصنوعی پیشتاز نیستند؛ در ماه دسامبر، شرکت DeepSeek یک مدل زبانی بزرگ جدید (LLM) منتشر کرد که نوعی از هوش مصنوعی برای تجزیه و تحلیل و تولید متن به شمار می‌رود. V3 تقریباً 700 گیگابایت و بسیار بزرگ‌تر از چیزی بود که روی هر چیزی جز سخت‌افزار تخصصی اجرا شود و از 685 میلیارد پارامتر برخوردار بوده و از ترکیب قوانین فردی و شبکه عصبی این مدل تشکیل شده بود. Llama 3.1 پرچمدار LLM شرکت «متا»، شرکت مادر فیسبوک بود که در ماه جولای منتشر شد و 405 میلیارد پارامتر دارد. LLM شرکت DeepSeek نه تنها از بسیاری از همتایان غربی خود بزرگ‌تر است، بلکه بهتر بوده و تنها با مدل‌های اختصاصی گوگل و OpenAI مطابقت دارد. «پل گاتیر» بنیان‌گذار Aider، پلتفرم کدنویسی هوش مصنوعی، مدل جدید DeepSeek را از طریق کدنویسی خود اجرا کرد و متوجه شد که از تمام رقبای خود به غیر از O1 پیشی گرفته است. Lmsys، یک رتبه‌بندی جمعی از چت بات‌ها که دوره هفتم آن انجام شده، بالاتر از هر مدل منبع باز دیگر و بالاترین رتبه تولید شده توسط شرکتی غیر از گوگل یا OpenAI است. 

رقابت چین و آمریکا به حد هشدار رسید
هوش مصنوعی چینی اکنون از نظر کیفیت به رقبای آمریکایی خود به قدری نزدیک شده است که «سم آلتمن»، رئیس OpenAI خود را موظف کرده در مورد کاهش شکاف بین شرکت‌های چینی و آمریکایی هشدار دهد. مدت کوتاهی پس از انتشار نسخه DeepSeek V3، آلتمن در توییتی با لحن عصبانی نوشت: «کپی کردن چیزی که می‌دانید کار می‌کند، کار آسانی است. در مقابل، انجام کاری جدید، پرخطر و دشوار، زمانی که از کار کردن آن مطمئن نیستید، کار دشواری است.» صنعت هوش مصنوعی چین در ابتدا درجه دوم به نظر می‌رسید که دلیل اصلی آن هم رقابت تنگاتنگ و مقابله با آمریکا بوده است. در سال 2022، آمریکا صادرات تراشه‌های پیشرفته به چین را ممنوع کرد. انویدیا، یکی از تولیدکنندگان پیشرو در عرصه تراشه در دنیا مجبور شده با کاهش ارزش‌های خاص، محصولات خود را برای بازار چین طراحی کند. آمریکا همچنین، با ممنوع کردن صادرات تجهیزات لازم و تهدید به اعمال جریمه‌هایی برای شرکت‌های غیرآمریکایی کمک‌کننده، به دنبال جلوگیری از توسعه ظرفیت چین برای تولید تراشه‌های برتر در داخل کشور، در این صنعت رشد کرده است. شرکت‌های چینی تا حدی به دلیل نگرانی‌های نظارتی، دیرتر به سمت فناوری LLM کشیده شدند. شرکت «بایدو» به عنوان یک غول فناوری جست‌وجوگر، سال‌ها با مدل‌های داخلی LLM آزمایش کرده و ERNIE را تولید کرده بود اما در انتشار عمومی آن مردد بود. حتی زمانی که موفقیت ChatGPT، این شرکت را وادار به تجدیدنظر کرد، در ابتدا اجازه دسترسی به چت بات ERNIE را تنها با دعوت‌نامه داد. درنهایت، مقامات چینی مقرراتی را برای تقویت صنعت هوش مصنوعی صادر کردند. اگرچه آن‌ها از مدل‌سازان هوش مصنوعی خواستند بر محتوای سالم تأکید کرده و به ارزش سوسیالیستی پایبند باشند، اما متعهد شدند که توسعه نوآورانه هوش مصنوعی مولد را در پیش گیرند. 

ادامه رقابت جهانی در تولید مدلی ارزان‌تر و مؤثرتر
چین به دنبال رقابت در سطح جهانی است. «علی بابا» یکی از اولین شرکت‌هایی بود که روی موج هوش مصنوعی سوار شد و خود را با محیط وفق داد و LMM خود را راه‌اندازی کرد که در ابتدا به Tongyi Qianwen معروف شده بود و سپس به اختصار به آن Qwen گفته شد. این شرکت در یک بازه یک یا چند ساله، مدل دندان‌گیری تولید نکرد اما در سال 2024، زمانی که علی بابا نسخه‌های متوالی Qwen را منتشر کرد، کیفیت مدل‌های این شرکت هم بهبود یافت. «جک کلارک» از شرکت «آنتروپیک» که یک آزمایشگاه هوش مصنوعی غربی است، یک سال پیش زمانی که علی بابا نسخه‌ای از Qwen را منتشر کرد که قادر به تجزیه و تحلیل تصاویر نیز بود، اظهار داشت: «به نظر می‌رسد این مدل‌ها با مدل‌های بسیار قدرتمندی که توسط آزمایشگاه‌های پیشرو در غرب تولید شده‌اند، قابل رقابت هستند. دیگر غول‌های اینترنتی چین، از جمله «تنسنت» و «هوآوی» در حال ساخت مدل‌های هوش مصنوعی خود هستند اما DeepSeek ریشه‌های متفاوتی دارد به طوری که حتی زمانی که علی بابا اولین مدل Qwen را عرضه کرد، خبری از این شرکت نبود. این شرکت از صندوق پوشش سرمایه High-Flyer نشأت گرفت که در سال 2015 برای استفاده از هوش مصنوعی برای به دست آوردن برتری در معاملات سهام راه‌اندازی شد. انجام تحقیقات بنیادی به این صندوق کمک کرد تا به یکی از بزرگ‌ترین صندوق‌های مالی در کشور تبدیل شود. مؤسس این صندوق معتقد است هدف از راه‌اندازی این صندوق، صرفاً تجاری نبوده است. اولین حامیان OpenAI به دنبال بازگشت نبودند، بلکه انگیزه آن‌ها پیگیری مأموریت بود. در همان ماهی که Qwen را در سال 2023 راه‌اندازی کرد، صندوق High-Flyer اعلام کرد که این شرکت نیز در حال ورود به رقابت برای ایجاد هوش مصنوعی در سطح انسانی و گسترش واحد پژوهشی هوش مصنوعی خود مانند DeepSeek است. برخلاف OpenAI که مجبور به جست‌وجوی بودجه خصوصی برای پوشش هزینه‌های آموزشی خود بود، DeepSeek همواره به ذخایر عظیم قدرت محاسباتی این صندوق دسترسی داشته است که به موجب آن، مدل از داده‌هایی تغذیه می‌کند که از آن پارامتر‌های خود را استنباط می‌کند. به عنوان مثال، فرایند آموزش اغلب از گردن کردن برای آسان‌تر کردن محاسبات استفاده می‌کرد، اما در صورت لزوم، اعداد را دقیق نگه می‌داشتند. 
مزرعه سرور مجدداً پیکربندی شد تا به تراشه‌های جداگانه اجازه دهد به طور مؤثرتری با یکدیگر در تعامل باشند. به لطف این نوآوری‌ها و سایر نوآوری‌ها، تولید میلیارد‌ها پارامتر V3 با هزینه تخمینی کمتر از 6 میلیون دلار کمتر از 3 میلیون تراشه امکان‌پذیر شده است که حدود یک‌دهم توان محاسباتی و هزینه‌ای است که صرف ساخت مدل Llama 3.1 شده است. V3 تنها به 2000 تراشه نیاز دارد در حالی که در فرایند ساخت مدل Llama 3.1 از 16000 تراشه استفاده شده است. به دلیل تحریم‌های آمریکا، تراشه‌های V3 به کار رفته جزو قدرتمندترین تراشه‌ها نبودند و به نظر می‌رسد شرکت‌های غربی برای ساخت تراشه‌ها هزینه‌های گزافی صرف کرده‌اند. «متا» قصد دارد با استفاده از 350 هزار تراشه، یک مزرعه سرور راه‌اندازی کند. رئیس سابق هوش مصنوعی «تسلا» معتقدند است آموزش یک مدل جدید با هزینه پایین‌تر و ساخت آسان‌تر را امکان‌پذیر کرده است. DeepSeek در مقایسه به رقبای خود در این عرصه، کار‌های مختلفی را به طور جداگانه روی چند نمونه تراشه انجام داده و قرار است گام بعدی برای انجام این فرایند را پیش از به پایان رسیدن فرایند قبلی آغاز کند. این امر به مقامات این شرکت اجازه می‌دهد خدماتی را ایجاد کنند که از V3 استفاده کرده و کمتر از یک‌دهم مبلغی را دریافت کنند که «آنتروپیک» برای استفاده از LLM خود انجام می‌دهد. 

تفاوت شرکت‌ها در ارائه فرایند مدل‌های هوش مصنوعی
یکی از کارشناسان هوش مصنوعی معتقد است اگر مدل‌های هوش مصنوعی واقعاً از کیفیتی معادل برخوردار باشند، این به معنای یک چرخش جدید و چشمگیر در جنگ‌های قیمت‌گذاری LLM خواهد بود. حتی زمانی که مدل R1 به طور کامل منتشر شد، مجموعه‌ای از انواع کوچک‌تر، ارزان‌تر و سریع‌تر نیز منتشر شدند که به اندازه مدل بزرگ‌تر قدرتمند بوده و نسخه‌های مشابه علی‌بابا و «متا» را تقلید کرده و بار دیگر ثابت کرد می‌تواند با بزرگ‌ترین نام‌های این تجارت رقابت کند. علی‌بابا و DeepSeek پیشرفته‌ترین آزمایشگاه‌های غربی را به روش دیگری نیز به چالش می‌کشند. برخلاف OpenAI و گوگل، آزمایشگاه‌های چینی از «متا» پیروی می‌کنند و سیستم‌های خود را تحت یک مجوز منبع باز در دسترس قرار می‌دهند. برای دانلود یک هوش مصنوعی مدل Qwen و برنامه‌نویسی شخصی، هیچ مجوزی نیاز نیست. این سهل‌انگاری در عدم کسب مجوز، با منبع باز بودن داده‌ها مطابقت دارد به‌طوری‌که این دو شرکت هرزمانی که مدل‌های جدیدی را ارائه می‌دهند، مقالاتی را منتشر می‌کنند که جزئیات زیادی را در مورد تکنیک‌های مورد استفاده برای بهبود عملکردشان ارائه می‌دهد. 
زمانی که علی‌بابا، مدل QwQ را منتشر کرد، به عنوان نخستین شرکتی در دنیا شناخته شد که چنین مدلی را تحت یک مجوز باز منتشر کرد و به همه افراد اجازه می‌داد فایل کامل 20 گیگابایتی را دانلود کرده و آن را روی سیستم خود اجرا کند. این یک رویکرد کاملاً متفاوت از OpenAI است که عملکرد داخلی O1 را مخفی نگه می‌دارد. در ابعاد گسترده، هر دو مدل از آنچه به عنوان محاسبه زمان تست شناخته می‌شود، استفاده می‌کنند و به جای تمرکز بر استفاده از قدرت محاسباتی در طول آموزش، از مدل‌های بیشتری برای پاسخ به نسل قبلی مدل‌های LLM بهره می‌برند. این یک نسخه دیجیتالی از «نوع دوم» مدل هوش مصنوعی است که کندتر و تحلیلی‌تر از «نوع یک» با سرعت بالاتر است و نتایج امیدوارکننده‌ای در رشته‌هایی مانند ریاضیات و برنامه‌نویسی به همراه داشته است. اگر از شما سؤال ساده‌ای بپرسند که به عنوان مثال، پایتخت فرانسه را نام ببرید، احتمالاً با اولین کلمه‌ای که به ذهنتان می‌رسد، پاسخ درستی خواهید داد. یک چت‌بات هوش مصنوعی معمولی هم تقریباً به همین روش عمل می‌کند به‌طوری‌که اگر نمایش آماری آن از زبان به طور عمده پاسخ را ارائه دهد، جمله را مطابق با آن کامل می‌کند. اما اگر سؤال پیچیده‌تری از شما پرسیده شود، تمایل دارید به روشی ساختارمندتر در مورد آن فکر کنید؛ کاری که مدل‌های پیچیده‌تر هوش مصنوعی مانند O1 و سایر مدل‌ها انجام می‌دهند، به گونه‌ای که یک مدل LLM را وادار می‌کنند تا به همان شکل تفکر ساختاریافته‌ای را دنبال کنند و به جای محو کردن معقول‌ترین پاسخی که به ذهن می‌رسد، سیستم در عوض، مشکل را جدا کرده و قدم به قدم راه خود را برای رسیدن به پاسخ پیش می‌برد. اما در مدل O1، افکار به طور ساختارمندی حفظ می‌شود و تنها خلاصه‌ای از فرایند و نتیجه نهایی به کاربر نشان داده می‌شود. 

تمایل چینی‌ها به عرضه مدل‌های منبع باز
OpenAI دلایلی را نیز برای این نوع برنامه‌ریزی ذکر کرده است. به عنوان مثال، گاهی مدل در مورد استفاده از کلمات توهین‌آمیز یا افشای اطلاعات خطرناک فکر می‌کند، اما سپس تصمیم می‌گیرد این کار را انجام ندهد. اگر استدلال کامل آن آشکار شود، تمام موارد به کار رفته در این فرایند نیز نمایان خواهد شد، اما این مدل به گونه‌ای برنامه‌ریزی شده که مکانیسم دقیق استدلال را از کپی‌کنندگان احتمالی پنهان نگه می‌دارد و درواقع، سیستمی امنیتی برای جلوگیری از کپی‌برداری مدل به شمار می‌رود. اما در QwQ که مدل هوش مصنوعی علی‌باباست، در صورت پرسیدن یک سؤال، تمام فرایند پیچیده‌ای که برای پاسخ دادن به آن طی می‌کند را به تفصیل شرح می‌دهد و رویکرد‌های مختلفی را نیز دنبال می‌کند. یکی از بنیانگذاران شرکت پرتغالی Poolside که تولیدکننده ابزار هوش مصنوعی برای کدنویس‌هاست، معتقد است آزمایشگاه‌های چینی درگیر نبردی برای استعداد‌هایی مشابه استعداد‌های دیگر صنعت هستند. اگر مهندسان شرکت‌های چینی، اولین کسانی نباشند که یک تکنیک را کشف می‌کنند، اما می‌توان آن‌ها را جزء نخستین کسانی در نظر گرفت که آن را منتشر خواهند کرد. اگر به دنبال مشاهده تکنیک‌های مخفی هستید، محققان چینی تمایل زیادی به ارائه مدل‌هایی با منابع باز دارند. آن‌ها همه‌چیز را منتشر می‌کنند و در این زمینه، کار‌های شگفت‌انگیزی هم انجام می‌دهند. تلاش دولت آمریکا برای توقف جریان فناوری پیشرفته به چین نیز زندگی را برای محققان چینی در آمریکا دشوارتر کرده است. البته مشکل تنها بار اداری تحمیل شده توسط قوانین جدید نیست، بلکه هدف آن مخفی نگه داشتن آخرین نوآوری‌هاست. علاوه براین، اغلب یک فضای مبهم از سوءظن وجود دارد و اتهامات جاسوسی حتی در رویداد‌های اجتماعی نیز مطرح می‌شود.


چین به دنبال راه‌اندازی اکوسیستم هوش مصنوعی 
کار کردن در چین هم معایب خودش را دارد. به عنوان مثال، اگر از DeepSeek V3 در مورد تایوان سؤالی بپرسید، مدل شروع به توضیح می‌کند که این جزیره در شرق آسیاست و به جمهوری چین شناخته می‌شود. اما بعد از کمی توضیح در این رابطه، ارائه پاسخ را متوقف کرده، پاسخ اولیه را حذف و درعوض، به طور خلاصه پیشنهادی را ارائه می‌کند مبنی بر اینکه «بیایید در مورد چیز دیگری صحبت کنیم.» آزمایشگاه‌های چینی شفاف‌تر از دولت این کشور عمل می‌کنند؛ چراکه به دنبال ایجاد اکوسیستمی از شرکت‌هایی‌اند که روی حوزه هوش مصنوعی متمرکز شده‌اند. این مقوله تا اندازه‌ای از ارزش تجاری برخوردار است زیرا شرکت‌هایی که براساس مدل‌های منبع باز بنا می‌شوند، ممکن است درنهایت متقاعد شوند محصولات یا خدمات را از سازندگان خود خریداری کنند. همچنین یک مزیت استراتژی نیز برای چین به ارمغان می‌آورد؛ چراکه در درگیری با آمریکا بر سر هوش مصنوعی، متحدانی ایجاد می‌کند. شرکت‌های چینی طبیعتاً ترجیح می‌دهند مدل‌های چینی را بسازند زیرا در این صورت دیگر نگران این موضوع نیستند که ممنوعیت‌ها یا محدودیت‌های جدید، ارتباط آن‌ها را از پلتفرم اصلی قطع کند. یکی از سرمایه‌گذاران فناوری مستقر در شانگهای اظهار کرده برای شرکت‌هایی مانند اپل و سامسونگ تمایل دارند ابزار‌های هوش مصنوعی را در دستگاه‌هایی استفاده کنند که به چین و شرکای بومی می‌فروشند. حتی برخی از شرکت‌های خارج از کشور نیز دلایل خاصی برای استفاده از مدل‌های چینی دارند. به عنوان مثال، Qwen به طور عمد با تسلط بر زبان‌هایی با منابع محدود مانند اردو و بنگالی، آغشته شده، در‌حالی‌که مدل‌های آمریکایی با استفاده از داده‌های عموماً انگلیسی آموزش می‌بینند. همچنین هزینه‌های جاری پایین‌تر مدل‌های چینی، از جذابیت بالاتری برخوردار است. این لزوماً به این معنی نیست که مدل‌های چینی، جهان را فرا می‌گیرند. هوش مصنوعی آمریکایی هنوز قابلیت‌هایی دارد که رقبای چینی هنوز نتوانسته‌اند با آن‌ها مقابله کنند. یک برنامه پژوهشی متعلق به گوگل، مرورگر وب کاربر را به چت‌بات Gemini خود می‌سپارد و احتمال تعامل «عوامل» هوش مصنوعی با وب را افزایش می‌دهد. چت‌بات‌های آنتروپیک و OpenAI نه‌تنها به شما در کدنویسی کمک می‌کنند، بلکه آن را برای شما نیز اجرا می‌کنند. مدل زبانی «کلود»، کل برنامه را ساخته و میزبانی می‌کند. استدلال گام به گام، تنها راه حل مسائل پیچیده نیست. از نسخه معمولی ChatGPT یک پرسش ریاضی بپرسید، او یک برنامه ساده برای یافتن پاسخ ارائه می‌دهد. انتظار می‌رود «آلتمن» به زودی اعلام کند OpenAI، ابرعامل‌هایی را در سطح دکترا ساخته که به اندازه متخصصان انسانی در طیف وسیعی از وظایف فکری دارای توانایی بوده و از این رو، شواهد نشان می‌دهد نوآوری‌های بیشتری در راه است. رقابت بر سر پاشنه‌آشیل هوش مصنوعی آمریکا ممکن است آن را به موارد بزرگ‌تری سوق دهد. 
 
 
 

به پیج اینستاگرامی «آخرین خبر» بپیوندید
instagram.com/akharinkhabar

00:00/00:00

DeepSeek مچ آمریکایی‌ها را می‌خواباند؟

DeepSeek مچ آمریکایی‌ها را می‌خواباند؟
00:00
00:00
DeepSeek مچ آمریکایی‌ها را می‌خواباند؟
1 / 1
DeepSeek مچ آمریکایی‌ها را می‌خواباند؟
00:00
00:00
0 MB
اخبار بیشتر درباره

اخبار بیشتر درباره