الزام درک مفاهیم، ازسوی دوربین های نظارتی
به گزارش کارگروه فناوری اطلاعات سایبربان؛ فناوری دید رایانه ای امروزی می تواند هم تراز با دقت انسان، خوروها، چهره و بسیاری موارد دیگر را تشخیص دهد. به علاوه اگر حجم داده ها تا حد زیادی افزایش پیدا کند، حتی عملکرد بهتری از اپراتورها به نمایش گذاشته شود؛ اما این دستاورد محدودیت های گوناگونی دارد.
با وجود همه ی پیشرفت های صورت گرفته، رایانه ها همچنان برای شناسایی یک فرد، یا عمل، به زمان بیشتری نسبت به انسان ها نیاز دارند. همچنین این ابزارها نمی توانند هدف، یا شیء مورد نظر را بین دوربین های مختلف دنبال کنند. به علاوه به سادگی نیز فریب می خورند. از طرفی قادر نیستند مفهوم چیزی را که مشاهده می کنند، تشخیص دهند. این مشکلات، محدودیت هایی هستند که مهندسان در زمان ساخت دوربین ها و افزایش کارایی آنها در شهرهای هوشمند پیشِ رو، باید بر آنها غلبه کنند.
دوربین های امروزی می توانند با استفاده از الگوریتم های مختلف، تصاویر دریافتی را بر پایه مدل های از پیش تعریف شده، با نرخ 30 فریم در ثانیه، تجزیه و تحلیل کرده، نتیجه گیری کنند. سرعت انجام گرفتن این عمل، با توجه به پیچیدگی الگوریتم بینش رایانه ای متفاوت است.
همه ی استنتاج ها به طور مستقیم به رابطه ی میان هزینه، سرعت عمل، حافظه و دقت وابسته هستند. یک دوربین می تواند در ازای دستیابی سریع به نتیجه، دقت را قربانی کند. یا ممکن است به حافظه ی بیشتری نیاز داشته باشد و به منظور افزایش دقت، هزینه ها نیز به شدت بالا بروند.
سوفی لبرکت (Sophie Lebrecht)، مدیر عملیات های «Xnor.ai»، شرکتی آمریکایی که در زمینه تولید نرم افزار به منظور بهبود دید رایانه ای فعالیت می کند، توضیح داد: نرخ بهروزرسانی 30 تصویر در ثانیه برای شناسایی یک چهره در میان انبوهی از جمعیت کافی به نظر می رسد. با وجود این، زمانی که وظایف پیچیدتری مانند تشخیص خطا در فرآیند تولید، مطرح می شود، رایانه باید به قابلیت های خود سرعت ببخشد، یا خطر کاهش خط تولید به وجود آید. هدف این شرکت، دست یابی به نرخ فریم 60 تصویر در ثانیه است.
افزایش نرخ فریم در فناوری دید رایانه ای به منظور پردازش تصاویر اولین قدم است. در گام بعدی، نرم افزاری ایجاد خواهد شد که بتواند هدف مورد نظر را بین شبکه ای از دوربین ها ردیابی کند. برای مثال، اگر شخصی ازسوی یکی از دوربین های نظارتی شناسایی شود، همه ی شبکه، امکان تعقیب وی را در مکان های مختلف به صورت کاملا خودکار و در زمان واقعی به دست می آورند.
شرکت یادشده به منظور دستیابی به هدف بالا، به مدل های پیچیده ای از پردازش سریع تصویر و نرم افزار نیاز دارد که بتوانند در سراسر شبکه دوربین ها، تصاویر را گزینش کنند. هدف از این پروژه، یافتن راهی برای ایجاد شبکه ای یکپارچه است که به ارسال داده در بسترهای ابری نیازی نداشته باشد. این الگوریتم ها، نیاز به شناسایی فرد و ردیابی وی در مکان های فیزیکی دارند. به علاوه احتمالا به پشتیبانی نرم افزاری از دوربین ها و پروتکل های ارتباطی جدید احتیاج می شود.
دوربین ها همچنین باید از حملات خصمانه جلوگیری به عمل آورند که خود زمینه تحقیقاتی جدید به حساب می آید. همان گونه که انسان ها به علت خطای دید فریب می خورند، یک الگوریتم رایانه ای نیز ممکن است با استفاده از روش های مختلف، مفهوم تصویری را اشتباه برداشت و نتیجه ای نادرست را اعلام کند.
احتمالا سخت ترین بخش این پروژه، ایجاد نرم افزاری است که به رایانه اجازه می دهد تا مفهوم مشاهدات خود را درک کنند. این ویژگی باعث می شود بتوان قصد اصلی یک فرد را متوجه شد. برای مثال می توان تشخیص داد که آیا فردی نیاز به کمک دارد، یا سعی می کند از شناسایی شدن توسط دستگاه های نظارتی خودداری نماید.
محققان شرکت الفبت نیز سرگرم اجرای تحقیقاتی مشابه هستند تا این امکان را فراهم آورند که رایانه ها بتوانند مفهوم اقدامات و دیدارهای خود را درک کنند.