چتباتهای هوش مصنوعی میتوانند دروغهای قانعکنندهای به شما ارائه دهند

دیجیاتو/شرکت آنتروپیک که عمده شهرتش را مدیون چتبات کلود است، بررسی کرده که آیا مدلهای استدلالگر حقیقت را درباره چگونگی رسیدن به پاسخها میگویند یا اینکه بیسروصدا اسرار خود را حفظ میکنند. نتایج این آزمایش میتواند حیرتانگیر باشد.
محققان برای آزمایش «وفاداری» در عملکرد، آزمایشهای متعددی روی مدلهای زنجیره تفکر کلود ٣.٧ Sonnet و دیپسیک R1 انجام دادند. این مدلها میتوانند مشکلات پیچیده را به بخشهای کوچکتر تقسیم کرده و حین تولید پاسخ، جزئیات آنها را شرح دهند. این آزمایشها شامل دادن سرنخهای کوچک به مدلها قبل از طرح سؤالات و بررسی این بوده است که این مدلها به استفاده از این سرنخها در پاسخهای خود اعتراف کردهاند یا خیر.
بیشتر اوقات، هر ۲ مدل طوری عمل کردند که انگار مستقل و با استفاده از زنجیره تفکر خود به پاسخ رسیدهاند و هیچ نشانهای از دریافت سرنخ نداشتند. همچنین در آزمایش دیگری مشخص شد مدل کلود 3.7 Sonnet در ۴۱ درصد مواقع اعتراف کرده سرنخهایی دریافت کرده اما نرخ صداقت مدل دیپسیک R1 فقط ۱۹ درصد بوده است.