آپدیت ۲۰۲۵ دیپ سیک؛ هوش مصنوعی جنجالی چینی قدرتمندتر و بهینهتر شد

زومیت/ دیپسیک نسخهی بهبودیافتهی مدل زبانی بزرگ V3 را تحت مجوز متنباز MIT و با قدرت بیشتر از نسخهی قبلی منتشر کرد.
دیپسیک، استارتاپ پرحاشیهی چینی، نسخهی بهبودیافتهی مدل زبانی بزرگ DeepSeek-V3 را تحت مجوز متنباز (اوپنسورس) MIT منتشر کرد.
نسخهی جدید در سکوت خبری منتشر شده و دیپسیک هیچ بیانیهای را در دسترس رسانهها قرار نداده است. بهعلاوه، فایل Readme مدل جدید، فعلاً خالی است (این فایل معمولاً شامل مخازنی از کد و توضیحات مربوط به تغییرات مدل میشود).
دیپسیک V3، مدل زبانی بزرگ متنباز، زمستان سال گذشته در دسترس قرار گرفت و قلب تپندهی دیپسیک R1 بهحساب میآید (R1 مدلی استدلالی است که دیپسیک را بر سر زبانها انداخت و حواشی گستردهای را ایجاد کرد).
دیپسیک V3 مدلی همهمنظوره است که بهطور خاص برای وظایف استدلالی بهینه نشده است، بااینحال میتواند مسائل ریاضی را حل کند و کد بنویسد.
تا به امروز، مدل V3 تحت یک مجوز سفارشی متنباز در دسترس بود؛ بااینحال بهلطف تغییرات جدید، مدل قدرتمند دیپسیک از این پس تحت مجوز MIT ارائه میشود. بدین ترتیب توسعهدهندگان میتوانند بدون هیچ محدودیتی، از این مدل هوش مصنوعی در پروژههای تجاری استفاده کنند و حتی سراغ اصلاحکردنش بروند.
کارشناسان میگویند مدل جدید دیپسیک قدرتمندتر از نمونهی قبلی شده است و منابع سختافزاری کمتری را درگیر میکند.
اکثر مدلهای زبانی بزرگ و پیشرفته، صرفاً با کارتهای گرافیک کلاس دیتاسنتر پتانسیل اصلی خودشان را بهنمایش میگذارند. اونی هانون، دانشمند تحقیقاتی تیم یادگیری ماشین اپل، میگوید که نسخهی جدید دیپسیک V3 را روی مک استودیو اجرا کرده و این مدل توانسته است در هر ثانیه تقریباً ۲۰ توکن خروجی ارائه دهد که بسیار قابل توجه به نظر میرسد.
مک استودیو مورد استفاده، قویترین نمونهی آن کامپیوتر بود و درحالحاضر حدود ۹٬۵۰۰ دلار قیمت دارد. دانشمند اپل میگوید اجرای دیپسیک روی مک استودیو نیازمند یکسری تکنیک خاص ازجمله کوانتش چهار بیتی بود. این تکنیک که برای بهینهسازی مدلهای زبانی بزرگ استفاده میشود، میزان درگیرشدن حافظه را کم میکند و تأخیر را پایین میآورد، اما بهای استفاده از آن، کاهش دقت خروجی است.
ظاهراً نسخهی جدید دیپسیک V3 در زمینهی کدنویسی عملکرد بهتری نسبت به مدل قبلی دارد. بر اساس یک تست غیررسمی و مستقل، دیپسیک V3 جدید به امتیاز ۶۰ درصد در بنچمارک دست پیدا کرد که چند درصد بهتر از نسخهی قبلی است. البته دیپسیک V3 جدید ضعیفتر از مدل استدلالی Qwen-32B ظاهر شد. V3 با وجود تمامی بهبودهایش همچنان در پشت سر مدل پرچمدار R1 قرار میگیرد.
مدل زبانی دیپسیک V3 شامل ۶۷۱ میلیارد پارامتر است، اما به هنگام پاسخ به پرسشها تنها ۳۷ میلیارد از آنها را استفاده میکند. این ساختار غیرمنتظره، به دیپسیک V3 امکان میدهد که عملکرد مناسب را با منابع سختافزاری کمتر از سایر مدلهای زبانی ارائه دهد (مدلهای دیگر معمولاً تمامی پارامترهایشان را فعال میکنند).
دیپسیک میگوید V3 بهینهتر از R1 است و هزینههای نهایی سازمانها را پایینتر میآورد. نسخهی اولیهی دیپسیک V3 بر پایهی دیتاستی از ۱۴٫۸ تریلیون توکن آموزش داده شد.