وقتی چتباتها در تشخیص از پزشکان پیشی میگیرند

ایسنا/چتباتهای ارزان هوش مصنوعی، تشخیص پزشکی را در مناطق کمبرخوردار متحول کردند.
مطالعاتی در رواندا و پاکستان نشان میدهند که چتباتهای مبتنی بر هوش مصنوعی (LLM) در کلینیکهای کممنابع میتوانند مفید باشند و این فقط در آزمایشهای کنترلشده صادق نیست.
به نقل از نیچر، مدلهای زبانی بزرگ (LLM) میتوانند در آزمونهای پزشکی پس از فارغالتحصیلی نمره بگیرند و به پزشکان در تشخیص دستکم در شرایط کنترلشده کمک کنند. اما آیا در محیط واقعی که پزشکان کافی برای بررسی پاسخها وجود ندارند و لیست بیماران طولانی و منابع محدود است، مفید خواهند بود؟ دو مطالعه منتشرشده در مجله نیچر نشان میدهند که مدلهای زبانی بزرگ کمهزینه قادر به افزایش نرخ موفقیت تشخیصی هستند و حتی در برخی موارد از پزشکان آموزش دیده پیشی میگیرند.
چتباتها بهتر از پزشکان محلی در رواندا
در رواندا، پاسخهای چتباتها در همه معیارهای ارزیابی از پزشکان محلی پیشی گرفت. در این مطالعه، حدود ۱۰۰ بهورز بیش از ۵۶۰۰ پرسش بالینی که از بیماران دریافت میکردند را جمعآوری کردند.
پژوهشگران پاسخ پنج مدل زبانی بزرگ را به حدود ۵۰۰ پرسش با پاسخهای پزشکان محلی مقایسه کردند. ارزیابیها روی مقیاس پنج نمرهای نشان داد که تمام مدلهای زبانی بزرگ در ۱۱ معیار، از جمله تطابق با توافق پزشکی، درک پرسش و احتمال ایجاد آسیب، از پزشکان بهتر عمل کردند.
چتباتها همچنین توانستند حدود ۱۰۰ پرسش را به زبان ملی رواندا، پاسخ دهند.
مزیت دیگر مدلهای زبانی بزرگ این است که به صورت ۲۴ ساعته در دسترس بهورزهای جامعه هستند، چیزی که برای پزشکان ممکن نیست. علاوه بر این، پاسخهای مدلهای زبانی بزرگ حدود ۵۰۰ برابر ارزانتر از پاسخ پزشکان است؛ هزینه پاسخ پزشکان به طور متوسط ۵.۴۳ دلار برای پزشکان و ۳.۸۰ دلار برای پرستاران بود، در حالی که پاسخ مدلهای زبانی بزرگ تنها حدود ۰.۰۰۳۵ دلار به انگلیسی و ۰.۰۰۴۴ دلار به زبان رواندا بود.
این مطالعه نشان میدهد که مدلهای زبانی تجاری میتوانند پاسخهای پزشکی و فرهنگی مناسبی به پرسشهای رایج ارائه دهند.
با این حال، پژوهشگران هشدار میدهند که مقایسه مستقیم عملکرد مدلهای زبانی بزرگ با انسانها محدودیتهایی دارد؛ چون سنجش پاسخهای مکتوب معیار مناسبی برای ارزیابی مدلهاست، اما لزوماً بازتاب دقیقی از عملکرد واقعی انسانها نیست.
در پاکستان، گروه پژوهشی به سرپرستی احسان قاضی، دانشمند رایانه دانشگاه مدیریت علوم لاهور (Lahore University of Management Sciences)، نشان دادند که مدلهای زبانی بزرگ میتوانند دقت تشخیص در سیستمهای کممنابع را افزایش دهد. کمبود متخصص و حجم بالای بیماران باعث تعداد زیاد خطاهای تشخیصی میشود.
در یک مطالعه کنترلشده تصادفی، ۵۸ پزشک مجاز، ۲۰ ساعت آموزش برای استفاده از مدلهای زبانی بزرگ در تشخیص علائم بیماران دریافت کردند و با خطر خطاهای احتمالی مدلها آشنا شدند.
پزشکانی که به مدل زبانی بزرگ GPT-۴o دسترسی داشتند، امتیاز دقت تشخیصی به طور میانگین ۷۱ درصد گرفتند، در حالی که آنهایی که فقط از PubMed و جستجوی اینترنتی استفاده کردند، به ۴۳ درصد دست یافتند. یک تحلیل تکمیلی نشان داد مدلهای زبانی بزرگ به تنهایی در مجموع بهتر از پزشکانی عمل کردند که از این مدلها کمک میگرفتند؛ با این حال، در ۳۱ درصد موارد پزشکان عملکرد بهتری داشتند. این موارد عمدتا شامل نشانههای هشداردهنده و عوامل زمینهای بود که مدلهای زبانی بزرگ از آنها غفلت کرده بودند. قاضی معتقد است نتایج او قابل تعمیم به کشورهای دیگر است، اما باید با سایر چتباتها نیز تکرار شود. او میگوید: این کار مسیرهای جدیدی باز میکند که میتواند منجر به ادغام ایمنتر و مؤثرتر هوش مصنوعی و مراقبتهای بهداشتی شود.
استفاده با احتیاط
کارولین گرین، مدیر تحقیقات در مؤسسه اخلاق در هوش مصنوعی دانشگاه آکسفورد، میگوید: این مطالعات اهمیت آموزش پزشکان در استفاده از هوش مصنوعی بر اساس تخصصشان را نشان میدهد.
با این حال، او هشدار میدهد که مدلهای زبانی بزرگ مشکلاتی مانند سوگیری و حفظ حریم دادههای بیماران دارند. نباید تصور کنیم که تمام مراقبتهای بهداشتی را مدلهای زبانی بزرگ میتوانند بر عهده بگیرند.
















