چرا هوش مصنوعی نمیتواند از پس سوالات تاریخی بربیاید؟
به گزارش کارگروه فناوری اطلاعات سایبربان ؛ گروهی از پژوهشگران یک معیار جدید به نام Hist-LLM طراحی کردهاند تا عملکرد سه مدل زبانی بزرگ برتر (LLM) را روی سوالات تاریخی آزمایش کنند: GPT-4 از OpenAI، Llama از متا، و جمینای از گوگل. معیار Hist-LLM، صحت پاسخها را بر اساس بانک اطلاعات تاریخ جهانی Seshat، پایگاه داده وسیعی از دانش تاریخی به نام الهه خرد مصر باستان، آزمایش میکند.
طبق گفته پژوهشگران وابسته به موسسه تحقیقاتی Complexity Science Hub (CSH) در اتریش، نتایجی که ماه گذشته در کنفرانس برجسته هوش مصنوعی NeurIPS ارائه شد، ناامیدکننده بود. بهترین عملکرد متعلق به GPT-4 Turbo بود که تنها حدود 46 درصد دقت داشت، یعنی کمی بیشتر از حدسزدن تصادفی.
نکته اصلی مطالعه این است که LLMها در عین درخشش، هنوز فاقد عمق درک لازم برای تاریخچه پیشرفته هستند. ماریا دل ریو-چانونا، یکی از نویسندگان مقاله و استادیار علوم کامپیوتر در دانشگاه کالج لندن گفت: این مدلها در ارائه حقایق ساده عالیاند، اما وقتی صحبت از سوالات پیچیده و پیشرفته تاریخی در سطح دکتری میشود، هنوز به این سطح نرسیدهاند.
پژوهشگران نمونههایی از سوالات تاریخی را که مدلهای زبانی نتوانستند به درستی پاسخ دهند، با وبسایت TechCrunch به اشتراک گذاشتند. برای مثال، از GPT-4 Turbo پرسیده شد که آیا زره فلسدار (scale armor) در دورهای خاص در مصر باستان وجود داشته است یا خیر. این مدل پاسخ مثبت داد، در حالی که این فناوری 1500 سال بعد در مصر ظاهر شد.
چرا مدلهای هوش مصنوعی در پاسخدهی به سوالات تاریخی پیشرفته ضعیف هستند؟
همانطور که میبینید، مدلهای هوش مصنوعی میتوانند به سوالات بسیار پیچیده درباره موضوعاتی مانند کدنویسی پاسخ دهند، اما در تاریخ ضعیف عمل میکنند. حالا چرا؟ در این زمینه، دل ریو-چانونا معتقد است این مدلهای زبانی از دادههای تاریخی برجسته و رایج استفاده میکنند و در بازیابی اطلاعات تاریخی کمترشناختهشده دچار مشکل میشوند.
برای مثال، پژوهشگران از GPT-4 پرسیدند که آیا مصر باستان در یک دوره خاص تاریخی، ارتش دائمی حرفهای داشته است یا خیر. پاسخ درست «خیر» است، اما مدل زبانی به اشتباه پاسخ مثبت داد. دلیل آن هم این است که اطلاعات عمومی زیادی درباره سایر امپراتوریهای باستانی مانند ایران، که ارتش دائمی داشتند، وجود دارد.
دل ریو-چانونا توضیح داد: اگر A و B را 100 بار بشنوید و C را تنها یک بار و سپس سوالی درباره C از شما پرسیده شود، ممکن است فقط A و B را به یاد بیاورید و سعی کنید از آنها نتیجهگیری کنید.
پژوهشگران همچنین به حقایق دیگری از جمله اینکه مدلهای OpenAI و Llama در مورد برخی مناطق مانند آفریقای جنوب صحرای بزرگ عملکرد بدتری داشتند، پی بردند. این امز احتمالاً نشاندهنده سوگیری در دادههای آموزشی آنها است.
پیتر تورچین، که رهبری این مطالعه را بر عهده داشت و یکی از اعضای هیئت علمی CSH است، گفت که این نتایج نشان میدهد مدلهای زبانی بزرگ هنوز هم در برخی حوزهها جایگزین انسانها نیستند.
با این حال، پژوهشگران امیدوارند که مدلهای زبانی بتوانند در آینده به مورخان کمک کنند. آنها با اضافهکردن دادههای بیشتر از مناطق کمترنمایانشده و طراحی سوالات پیچیدهتر، در حال کار بر روی بهبود این مورد هستند.