تجهیز تلفن های هوشمند به دید رایانه ای
به گزارش کارگروه فناوری اطلاعات سایبربان؛ بینایی رایانهای و شناسایی هویت از طریق آن به الگوریتمهای یادگیری عمیق قدرتمند نیاز دارد. از این فناوری به منظور تحلیل تصاویر پزشکی، تولید خودروهای بی راننده، تشخیص چهره و بسیاری موارد دیگر بهره گرفته میشود؛ اما آموزش مدلها به منظور شناسایی اهداف و فعالیتها در ویدئوها بهصورت روزافزون هزینهبرتر میشود. این مشکل نگرانیهایی را در زمینه میزان مصرف انرژی و عدم امکان بهرهمندی از آن در بسترهای دارای محدودیت مانند تلفنهای همراه، به وجود میآورد.
پژوهشگران آزمایشگاه هوش مصنوعی واتسون «MIT-IBM»، به تازگی روش جدیدی را به منظور آموزش مدلهای بینایی رایانهای به وجود آوردهاند که امکان به کارگیری آنها را در تلفنهای هوشمند یا دیگر ابزارهای دارای محدودیت پردازشی فراهم میکند.
به طور معمول الگوریتمهای پردازش ویدئو، ابتدا آن را به مجموعهای از تصاویر جدا از هم تقسیم کرده، سپس الگوریتمهای تشخیص را روی هرکدام اجرا میکند. سپس با مشاهده نحوه تغییر اشیا، محیط یا افراد در هر عکس، محتوای ویدئو را به یکدیگر مرتبط میسازد. در این روش الگوریتمها باید محتوای هر فریم و ترتیب آنها را به صورت کامل به خاطر بسپارند. همین موضوع باعث ناکارآمد شدن روشهای فعلی میشود.
در رویکرد جدید؛ طرحهای اولیه اشیا در هر قاب استخراج شده و روی یکدیگر قرار میگیرند. همچنین به جای به خاطر سپردن همهی اتفاقاتی که رخ داده است، توانایی درک نحوه گذر زمان و ترتیب در تصاویر را به واسطه تشخیص نحوه جابهجایی اجسام دارد.
در زمان آزمایش مشخص شد که رویکرد جدید، نسبت به گذشته 3 برابر سریعتر آموزش میبیند. همچنین قادر بود حرکات سریع دست، یک رایانه و دوربین کوچک را به سرعت طبقهبندی کند و برای این کار به انرژی بسیار کمی، معادل با چراغ یک دوچرخه نیاز بود.
روش یادشده به کاهش هزینههای محاسباتی برنامههای تجاری دید رایانهای کمک خواهد کرد. برای مثال یک خودروی بی راننده سریعتر از گذشته، موانع را تشخیص داده و واکنش نشان میدهد. بهعلاوه میتوان با استفاده از رویکرد یاد شده، تلفنهای هوشمند را نیز به دید رایانهای مجهز کرد. در نتیجه تشخیص بیماری و تحلیلت تصاویر پزشکی بهتر انجام میگیرد.