آموزش دید 3 بعدی به هوش مصنوعی
به گزارش کارگروه فناوری اطلاعات سایبربان؛ رایانهها در زمینه درک چشمانداز، تقارن و فیزیک، توانایی ذاتی ندارند و برای دستیابی به این خصیصهها باید آموزش ببینند. به طور معمول، سامانهها با حجم عظیمی از دادهها تغذیه میشوند تا امکان طبقهبندی اشیا را به دست آورند؛ اما اقدامی فراتر از آن را نمیتوانند انجام دهند. برای مثال اگر سیستمی با صندلی آموزش دیده ولی روی میز آزمایش شود، نتیجهی مطلوبی به دست نخواهد آمد.
پژوهشگران آزمایشگاه علوم رایانه و هوش مصنوعی امآیتی (CSAIL)، در حال طراحی روش تازهای هستند که امکان مشاهدهی اشیا را مشابه با انسان به آنها میدهد. این کار از طریق توسعه الگوریتمی که میتواند تصاویر 2 بعدی را به 3 بعدی تبدیل کند صورت میگیرد.
محققان شرح دادند، فناوری یاد شده احتمالاً در آینده به بهبود ناوبری و تشخیص محیط اطراف خودروهای بی راننده کمک خواهد کرد. همچنین به ابزارهایی که در خط تولید هستند نیز کمک میکند.
دانشمندان به منظور آزمایش الگوریتم خود از تصاویر خودرو، هواپیما و صندلی استفاده کردند تا امکان بازسازی یک میز را تنها از طریق یک تصویر 2 بعدی فراهم کنند. عملکرد این الگوریتم تنها زمانهایی که در کلاسی مشابه از محتوا فعالیت میکرد، از سامانههای دیگر بهتر بود.
جیاجون جون (Jiajun Wu)، مدیر پروژه یاد شده گفت:
هدف نهایی ما، ایجاد مدلهایی انعطافپذیر است که میتواند به انسانها در انجام دادن تنظیمات با سطح بالایی از اطمینان کمک کند.
درک کامل یک شی 3 بعدی از روی تصویری 2 بعدی، مشکلی اساسی به حساب میآید؛ زیرا در عکسها، بعد سوم حذف شده است. برای رفع این مسئله محققان شروع به جمعآوری دادهها از حالت 2.5 بعدی کردند. برخلاف تصاویر 2 بعدی، در نمونههای 2.5 بعدی امکان استخراج اطلاعات بیشتری مانند عمق آن نیز وجود دارد.
در طول آزمایش یادشده، تنها از خودرو، صندلی و هواپیما برای آموزش بهره گرفته شد. پس از آموزش، هوش مصنوعی میتوانست اشیایی را که ندیده است مانند نیمکت یا حتی انسان نیز شناسایی کند. با وجود این، نوآوری یادشده در زمانی که دید مناسبی وجود نداشته باشد، به خوبی عمل نمیکند. برای مثال میتوان به عکسهایی اشاره کرد که بخشی از شیء در محتوا قابل مشاهده نبوده از کنار تصاویر بیرون زده است.
پژوهشگران امیدوارند سامانهی آنها در آینده بتواند اطلاعات بیشتری را از تصاویر استخراج کند؛ زیرا در حال حاضر تنها تصاویر بدون رنگ یا ویژگی خاص را تشخیص میدهد. ابزار فعلی از تصاویر CGI استفاده میکند که باعث سادگی کار میشود؛ اما جهان واقعی بسیار پیچیدهتر است.