یکی از مشکلات رایج در مدلهای زبان بزرگ (LLM) تمایل آنها به تولید اطلاعات نادرست و بهاصطلاح «هذیان» گفتن است. درحالیکه تحقیقات زیادی بر روی تجزیهوتحلیل این خطاها از دیدگاه کاربر انجام شده است، اما یک تحقیق جدید نشان میدهد که این مدلها درک بسیار عمیقتری از صداقت نسبت به آنچه قبلاً تصور میشد دارند.
این تحقیق توسط محققانی از Technion، مرکز گوگل ریسرچ و اپل انجام شده است و به بررسی عملکرد درونی مدلهای زبانی بزرگ میپردازد. هذیان گفتن یک تعریف واحد جهانی ندارد و عموماً به طیف وسیعی از خطاهای LLM گفته میشود. برای انجام این تحقیق، محققان یک تعریف مشخص از هذیان گفتن ارائه دادند که شامل خطاهایی مانند عدم دقت، سوگیریها، شکستهای استدلال عقل سلیم و سایر خطاهای دنیای واقعی میشود.
مدلهای زبانی بزرگ در سنجش عملکرد خود بسیار باهوش هستند
بیشتر تحقیقات قبلی در مورد توهمات بر تجزیهوتحلیل رفتار خارجی LLM و بررسی نحوه درک کاربران از این خطاها متمرکز شده است. اما چنین روشی بینش محدودی در مورد نحوه کدگذاری و پردازش خطاها در خود مدلها ارائه میدهد.
مطالعه جدید اما رویکرد متفاوتی دارد. محققان بهجای نگاهکردن به خروجی نهایی، «نشانههای پاسخ دقیق» را تجزیهوتحلیل میکنند. یعنی نشانههای پاسخی که اگر اصلاح شوند میتوانند صحت پاسخ را تغییر دهند. محققان آزمایش خود را روی چهار مدل Mistral 7B و Llama 2 و در ۱۰ مجموعه داده انجام دادند که وظایف مختلفی مانند پاسخ به سؤال، استنتاج زبان طبیعی، حل مسئله ریاضی و تجزیهوتحلیل احساسات را در بر میگرفت.
محققان همچنین به مدلها اجازه دادند تا پاسخهای نامحدودی را برای شبیهسازی استفاده در دنیای واقعی ایجاد کنند. یافتههای آنها نشان میدهد که صحت اطلاعات در نشانههای پاسخ دقیق متمرکز است.
برای پیشبینی هذیانها، محققان مدلهای طبقهبندیکننده را آموزش دادند که آنها را «طبقهبندیکنندههای کاوشگر» مینامند تا ویژگیهای مربوط به صحت خروجیهای تولید شده بر اساس فعالسازیهای داخلی LLM را پیشبینی کنند. محققان دریافتند که آموزش طبقهبندیکنندهها بر روی نشانههای پاسخ دقیق میتواند به میزان قابلتوجهی تشخیص خطا را بهبود میبخشد.
در نهایت، آنها نتیجهگیری کردند که مدلهای زبانی بزرگ میتوانند اطلاعات مربوط به حقیقت خود را رمزگذاری کنند.