دور زدن قوانین ایمنی مدلهای هوش مصنوعی
به گزارش کارگروه فناوری اطلاعات سایبربان،محققان اعلام کردند که راههای بالقوه نامحدودی برای شکستن گاردریل های ایمنی در چت بات های بزرگ مبتنی بر هوش مصنوعی OpenAI، گوگل و آنتروپ یافته اند.
مدلهای زبانی بزرگی مانند آنهایی که به ChatGPT، Bard و آنتروپی کلود قدرت میدهند، به طور گسترده توسط شرکتهای فناوری تعدیل میشوند. این مدلها به گاردریلهای گسترده ای مجهز شده اند تا اطمینان حاصل شود که نمیتوان از آنها برای ابزارهای شرورانه مانند آموزش نحوه ساخت بمب یا نوشتن صفحات نفرت پراکنی استفاده کرد.
در گزارشی که منتشر شد، محققان دانشگاه کارنگی ملون در پیتزبورگ و مرکز ایمنی A.I در سان فرانسیسکو اعلام کردند که راههایی برای دور زدن این گاردریلها یافته اند.
محققان دریافتند که میتوانند از بلاک چین هایی که برای سیستم های متن باز توسعه داده اند، برای هدف قرار دادن سیستم های هوش مصنوعی جریان اصلی و بسته استفاده کنند.
این مقاله نشان داد که حملات خصمانه خودکار، که عمدتاً با اضافه کردن کاراکترها به انتهای سوالات کاربر انجام میشوند، میتوانند برای غلبه بر قوانین ایمنی و تحریک چت بات ها به تولید محتوای مضر، اطلاعات نادرست یا نفرت پراکنی استفاده شوند.
برخلاف دیگر حملات هکی، هک های این محققان به صورت کاملا خودکار ساخته شده اند که به گفته آنها امکان ایجاد تعداد تقریبا نامحدود از حملات مشابه را فراهم میکند.
محققان روش های خود را در اختیار گوگل، انویدیا و OpenAI قرار دادند. یکی از سخنگویان گوگل به اینفورمیشن گفت: در حالی که این یک مساله در سراسر LLM ها است، ما گاردریل های مهمی را در Bard ساخته ایم مانند گاردریل هایی که این تحقیق فرض کرده است و ما به بهبود این گاردریل ها در طول زمان ادامه خواهیم داد.
نمایندگان آنتروپ نیز اعلام کردند که کارهای بیشتری باید انجام شود. سخنگوی این شرکت گفت: ما در حال آزمایش راههایی برای تقویت گاردریل های مدل پایه هستیم تا آنها را بی خطر کنیم، در حالی که در حال بررسی لایه های دفاعی اضافی نیز هستیم.
نمایندگان OpenAI برای اظهارنظر در خارج از ساعات کاری پاسخ ندادند.