تفسیر تصاویر برای افراد کمبینا با استفاده از هوش مصنوعی
به گزارش کارگروه فناوری سایبربان، فیسبوک از پیشرفتهای جدید هوش مصنوعی خود خبر داد که عکسهای پست شده در این شبکه اجتماعی را برای کاربران کمبینا توصیف میکند.
این فناوری که (AAT) نام دارد برای اولین بار توسط فیسبوک در سال 2016 ارائه شد تا کاربران کمبینا راحتتر بتوانند از این برنامه استفاده کنند. تا آن زمان کاربران کمبینا زمانی که فیسبوک خود را چک میکردند و با تصویری روبرو میشدند، فقط کلمه عکس و نام فرستنده آن را میشنیدند.
با فناوری AAT کاربران کمبینا میتوانند جملههای مختلفی را بشنوند مانند؛ این عکس سه انسان خندان بیرون از منزل را به تصویر میکشد.
فیسبوک گفت با آخرین نسخه AAT، این شرکت تعداد مفاهیمی که فناوری هوش مصنوعی قادر است در عکس تشخیص دهد و شناسایی کند را گسترش داده است و همچنین توضیحات دقیقتری را برای فعالیتها، نشانهها، انواع مواد غذایی و حیوانات ارائه خواهد داد. مثلاً بهجای عبارت عکس دونفره میتواند عبارت سلفی دونفره در فضای باز کنار برج پیزا را اعلام کند.
این شرکت توضیح داد تعداد مفاهیمی که این فناوری میتواند تشخیص دهد از ۱۰۰ مورد به ۱۲۰۰ مورد افزایشیافته است. این امر از طریق آموزش هفتگی مدل با استفاده از نمونههایی که به ادعای این شرکت هم دقیقتر هستند و هم شامل موارد فرهنگی و جمعیتی میشوند، امکانپذیر شده است.
فیسبوک افزود که بهمنظور ارائه اطلاعات بیشتر در مورد موقعیت و تعداد ، توصیفکننده اشیاء دومرحلهای خود را با استفاده از یک پلتفرم توسعهیافته توسط گروه تحقیقات هوش مصنوعی فیسبوک آموزش داده است.
این شرکت اعلام کرد؛ ما مدلها را برای پیشبینی مکانها و تشخیص اشیاء درون تصویر آموزش دادیم. تکنیکهای آموزش چندطبقهای یا تکنیک مجموعه دادهها به ما کمک میکند تا مدل خود را با استفاده از فضای طبقهبندیشده بزرگتر قابلاعتمادتر سازیم.
تلاشهای مشابهی درگذشته توسط شرکتهای فناوری دیگر انجامشده بود تا استفاده کاربران کمبینا را بهبود بخشد.
سال گذشته گوگل کیبورد بریل TalkBack خود را رونمایی کرد تا کاربران بتوانند مستقیماً و بدون نیاز به اتصال به یک کیبورد بریل فیزیکی درگوشیهای هوشمند خود تایپ کنند. قبل از این اتفاق، این شرکت برنامه Lookout خود را راهاندازی کرده بود که با استفاده از هوش مصنوعی به کاربران کمک میکرد تا با گرفتن تلفن خود به سمت اشیاء، بازخورد صوتی آن را دریافت کنند.
قبل از آن، آمازون ویژگی Show and Tell را به اکو شو معرفی کرد تا بتواند اقلام مختلف را تشخیص دهد. کاربران بهسادگی آیتم موردنظر را در مقابل صفحهنمایش نگه میداشتند و میپرسیدند: الکسا من چه چیزی در دست دارم؟