محققان دولت بریتانیا ادعا میکنند چتباتهای هوش مصنوعی بسیار آسیبپذیر هستند و میتوان از راههای مختلف، امنیت آنها را بهخطر انداخت و سیستمهای امنیتی بهکار گرفتهشده برای مدلهای مختلف هوش مصنوعی را دور زد.
بهگزارش گاردین، محققان دولتی متوجه شدند همه مدلهای آزمایششده در برابر تلاش برای ارائه پاسخهای ضربهزننده، بسیار آسیبپذیر هستند.
مؤسسه ایمنی هوش مصنوعی بریتانیا (AISI) میگوید سیستمهایی را آزمایش کرده و متوجه شده است که چتباتهای مبتنی بر هوش مصنوعی در برابر جیلبریک «بسیار آسیبپذیر» هستند. این مؤسسه اضافه میکند هر پنج مدل زبان بزرگ (LLM) موجود را آزمایش کرده است. محققان میگویند فناوری زیربنای چتباتها ایمن نیست و سیستمهای محافظتی آنها را با سهولت نسبی و بدون تلاش زیاد، میتوان دور زد.
مدلهای مختلف هوش مصنوعی تا چه اندازه ایمن هستند؟
مؤسسه ایمنی هوش مصنوعی بریتانیا (AISI) میگوید: «همه LLMهای آزمایششده بهشدت در برابر جیلبریک آسیبپذیر هستند و برخی از آنها حتی بدون تلاش شدید و نیاز به روشهای تخصصی، بهراحتی غیرایمن میشوند.»
این مؤسسه میگوید میتوان با حملات «نسبتاً ساده»، حفاظتها دور زد. بهعنوان مثال، به سیستم دستور داد تا پاسخ خود را با عباراتی مانند «مطمئناً، خوشحالم که کمک میکنم» آغاز کند.
تیم AISI موضوعات مختلفی را مورد بررسی قرار داده است. در بررسیهای انجامشده از چتباتها خواسته شد تا مطلبی درباره موضوعات مختلف، از متقاعدکردن یک نفر برای خودکشی تا موضوعاتی مانند تهیه متن ایمیل درخواست نامشروع از همکار خانم، بنویسد.
همانطور که گفته شد در آزمایشها، همه مدلهای آزمایششده در برابر تلاش برای ارائه پاسخهای ضربهزننده، بسیار آسیبپذیر بودند. این درحالی است که توسعهدهنده مدل GPT-4 گفته است که اجازه نمیدهد از این فناوری برای تولید محتوای نفرتانگیز، آزاردهنده، خشونتآمیز و ضربهزننده استفاده شود.