به راحتی آب خوردن میتوان محدودیتهای چتباتهای هوش مصنوعی را دور زد!
به گزارش کارگروه فناوری اطلاعات سایبربان ؛ محققان موسسه ایمنی هوش مصنوعی بریتانیا در تازهترین گزارش خود به کشف باگهای امنیتی در سیستمهای محدودکننده اغلب چتباتهای هوش مصنوعی محبوب اشاره کردهاند. به گفته آنها، تقریباً تمام مدلهای زبانی بزرگ (LLMها) در برابر جیلبریک آسیبپذیر هستند و میتوانید چتبات را مجبور به هر کاری کنید.
از آنجا که ابزارهای مبتنی بر هوش مصنوعی از جمله چتباتها میتوانند نقش یک شمشیر دو لبه را برعهده داشته و علاوه بر مزایای بیشمار، تبدیل به یک وسیله برای خرابکاری شوند، شرکتهای توسعهدهنده چتباتهای هوشمند از چیزی به نام گاردریل (Guardrails) استفاده میکنند.
گاردریلها در واقع نوعی سیستم امنیتی محسوب میشوند که چتباتهای هوش مصنوعی را از ایجاد پاسخهای غیرقانونی، صریح و یا خطرناک منع میکند. به عنوان مثال، ایجاد تصاویر خطرناک یا نوشتن کدهای یک ویروس اینترنتی از مواردی هستند که به لطف گاردریلها امکان ساخت آنها به کمک AI وجود ندارد.
هیچ محدودیتی برای کار با چتباتهای هوش مصنوعی وجود ندارد!
با این حال، براساس تحقیقات موسسه ایمنی هوش مصنوعی بریتانیا (AISI)، کاربران به راحتی میتوانند تمام سیستمهای امنیتی گاردریل چتباتهای هوشمند مصنوعی را دور بزنند.
به گزارش Techstory، پژوهشگران AISI دریافتهاند که پنج مدل زبانی بزرگ (که نام آنها فاش نشده)، به شدت در مقابل جیلبریک آسیبپذیر هستند. این بدان معناست که کاربر میتواند با درخواستهای خاصی از هوش مصنوعی و ارائه ورودیهای پیچیده، چتبات هوشمند مصنوعی را وادار به تولید محتوای خارج از چهارچوب و گاردریل کند.
در گزارش مرتبط با این موضوع گفته شده که حتی میتوان این مدلها را با کمترین تلاش دور زد، موضوعی که باعث ایجاد نگرانیهای امنیتی مرتبط با هوش مصنوعی مولد شده است. در بخشهایی از گزارش مورد بحث آمده است:
تمام مدلهای زبانی بزرگ (LLMها) مورد آزمایش به شدت در برابر جیلبریک آسیبپذیر بودند و برخی از آنها حتی بدون کوچکترین تلاش یا استفاده از روشهای تخصصی، به راحتی غیر ایمن میشوند.
به گفته پژوهشگران موسسه AISI، با حملات نسبتاً سادهای میتوان سیستمهای حفاظتی مورد نظر توسعهدهندگان را دور زد. در تستهای انجام شده از چتباتهای مشهور و محبوب خواسته شد تا در رابطه با موضوعهای مختلف مانند متقاعد کردن یک شخص به خودکشتی یا نوشتن متن ایمیل برای درخواست نامشروع، متن مناسب بنویسند.
همانطور که گفته شد، این چتباتها در برابر روشهای ساده پژوهشگران آسیبپذیر بودند و به راحتی پاسخهای نامناسب و تکاندهندهای را در اختیار آنها قرار دادهاند.