جذاب ترین ها
برگزیده

هکرها از هوش مصنوعی گوگل علیه خودش استفاده می‌کنند

زوميت

بروزرسانی 1404/01/09 - 10:51

هکرها از هوش مصنوعی گوگل علیه خودش استفاده می‌کنند

زومیت/ حتی پیشرفته‌ترین مدل‌های هوش مصنوعی امروزی از حملات هکری در امان نیستند و می‌توان از قابلیت‌های این مدل‌ها علیه خودشان استفاده کرد.

می‌گویند برای شکار یک دزد باید مثل دزد فکر کرد. شاید همین موضوع در مورد هک مدل‌های زبانی بزرگ (LLM) هم صدق کند. محققان دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین راهی پیدا کرده‌اند تا مدل‌های هوش مصنوعی جمینای گوگل را در برابر حملات هکری آسیب‌پذیرتر کنند و جالب اینکه این‌کار را با استفاده از ابزارهای گوگل انجام داده‌اند.

به نوشته‌ی Arstechnica، تکنیک Fun-Tuning میزان موفقیت حملات تزریق پرامپت (Prompt Injection) را به طرز چشمگیری افزایش می‌دهد. در این حملات، دستورهای مخفی در متن جاسازی می‌شوند تا مدل هوش مصنوعی را فریب دهند.

نکته‌ی جالب درمورد روش Fun-Tuning اینکه از ویژگی تنظیم دقیق (Fine-Tuning) مدل جمینای سؤاستفاده می‌کند. این قابلیت معمولاً برای آموزش مدل روی مجموعه داده‌های سفارشی کسب‌وکارها طراحی شده است، اما محققان از آن برای بهینه‌سازی خودکار حملات تزریق پرامپت استفاده کردند. به‌بیان دیگر، محققان به جمینای یاد دادند که چطور خودش را فریب دهد.
محققان دریافتند که افزودن پیشوندها و پسوندهای نامتعارف به پرامپت معمولی، شانس موفقیت آن را به شدت افزایش می‌دهد. به‌عنوان مثال، پرامپتی که به‌تنهایی شکست می‌خورد در صورت اضافه‌شدن عباراتی مانند «wandel ! ! ! !" یا "formatted ! ASAP !» به حمله‌ی موفق تبدیل خواهد شد.

نتایج آزمایش‌ها نشان می‌دهد تأثیر چشمگیر روش Fun-Tuning را روی مدل‌های مختلف جمینای نشان می‌دهد:

در مدل Gemini 1.5 Flash میزان موفقیت حمله ۶۵ درصد بود
در مدل Gemini 1.0 Pro این میزان به ۸۲ رسید؛ بیش از دو برابر نرخ موفقیت حملات معمولی بدون Fun-Tuning
حملات Fun-Tuning بین مدل‌های مختلف قابل انتقال بودند، یعنی تزریق پرامپتی که روی یک نسخه کار می‌کرد، اغلب روی نسخه‌های دیگر هم مؤثر بود
ضعف امنیتی که در روش Fun-Tuning مورد استفاده قرار می‌گیرد از نحوه‌ی کارکرد تنظیم دقیق (Fine-Tuning) ناشی می‌شود. مدل‌های هوش مصنوعی برای ارزیابی میزان خطای خود هنگام آموزش، از سیستمی به نام Loss Score استفاده می‌کنند. هکرها می‌توانند از همین مکانیزم بازخوردی برای بهینه‌سازی حملات خود بهره ببرند و روش موفقی برای فریب سیستم بیابند.

گوگل هنوز واکنش مستقیمی به روش جدید Fun-Tuning نشان نداده است، اما سخنگوی این شرکت در بیانیه‌ای اعلام کرد مقابله با این نوع حملات همواره یکی از اولویت‌ها به‌حساب می‌آید و مدل‌های جمینای به‌طور مداوم در برابر حملات تزریق پرامپت و سایر تهدیدها آزمایش می‌شوند.

محققان باور دارند جلوگیری از Fun-Tuning آسان نخواهد بود زیرا بازخوردی که استفاده از این روش را ممکن می‌کند، بخش مهم و اساسی فرایند تنظیم دقیق مدل‌ها است. در نتیجه، مسدودکردن این نوع حمله می‌تواند به قیمت کاهش کارایی کلی Fine-Tuning تمام شود.

در کانال آی‌تی و ™CanaleIT هم کلی عکس و ویدئوی دسته اول و جذاب داریم