شناسایی هوشهای مصنوعی فریب خورده
به گزارش کارگروه فناوری اطلاعات سایبربان؛ به نقل از «nextgov»؛ سازمان ایآرپا (IARPA) با انتشار برگه درخواستی به نام «TrojAI BAA» به دنبال ایدههایی میگردد که چگونگی حملات تروجانها به هوش مصنوعی را شناسایی کند.
در سادهترین سطح، هوشهای مصنوعی تشخیص چهرهی مدرن، با توجه به حجم عظیمی از تصاویر که به عنوان ورودی به آنها داده میشود، آموزش میبینند. برای مثال اگر فردی قصد دارد الگوریتمی توسعه بدهد که علائم کنار جاده را تشخیص بدهد باید حجم عظیمی از علائم مختلف را که از زوایای مختلف در تصویر دیده میشوند، به سامانه وارد کنند. در نتیجه الگوریتم، روابط بین پیکسلهای عکسها را آموخته و تفاوت میان تابلوهای سرعت و توقف را درک میکند.
با وجود این ممکن است در هنگام آموزش هوش مصنوعی، یک مهاجم چند تصویر اضافی را به بخش تشخیصدهنده علائم سرعت وارد کند که تابلوی ایستی را همراه با یادداشتی روی آن به نمایش میگذارد. از این پس هرگاه مهاجم اراده کند، سامانهی آموزش دیده شده، در جهان واقعی علائم توقف را سرعت تصور میکند و این کار تنها با یک نوشتهی کوچک انجام شده است. چنین دستکاری سادهای میتواند در فناوری خودروهای بی راننده به یک کابوس تبدیل شود.
ایآرپا قصد دارد ابزارهایی را به وجود آورد که قادر هستند هرگونه مشکل یا ناهنجاری به وجود آمده در الگوریتمها را پس از پایان آموزش آنها شناسایی کنند.
مثال یادشده تنها نوع حملهی امکانپذیر به هوشهای مصنوعی به حساب نمیآید. پژوهشگران هشدار دادهاند که این دستاوردها در حوزهی درک جهان پیرامون خود از معایب ذاتی برخوردار هستند. برای مثال میتوان از طریق روشی به نام «نمونههای خصمانه» (adversarial examples)، اشیای فیزیکی مانند تابلوی توقف را به عنوان یک ابزار دیگر معرفی کرد. در این روش با دستکاری پیکسلها به گونهای که برای انسان قابلتشخیص نباشد، هوش مصنوعی ممکن است تصویر یک خرس قطبی را به عنوان هواپیما شناسایی کند.
هیچیک از حملات تروجانی یا نمونههای خصمانه یادشده تاکنون در جهان واقعی مورد استفاده قرار نگرفتهاند؛ با وجود این پژوهشگران معتقدند احتمال به کارگیری چنین روشهایی روزبهروز در حال افزایش است. به همین منظور از هماکنون باید راهکارهایی را برای مقابله با آنها شناسایی کرد.