بهبود عملکرد سرویس تبدیل متن به گفتار مایکروسافت
به گزارش کارگروه بینالملل سایبربان؛ سرویسهای تبدیل متن به گفتار توسعه یافتهاند و بسیار هوشمندانه عمل میکنند، اما هنوز یک مشکل وجود دارد. توسعه این سرویسها نیازمند وقت و منابع آموزشی بسیار زیاد برای تولید خروجی بهصورت صدای طبیعی و آموزش در مدتزمان طولانی هستند.
مایکروسافت با همکاری پژوهشگران چینی روش مؤثری برای حل این مشکل ارائه کردند. آنها موفق به ساخت هوش مصنوعی تبدیل متن به گفتاری شدند که میتواند گفتار واقعی را با چیزی نزدیک به ۲۰۰ نمونه صوتی (معادل با مدتزمان ۲۰ دقیقه) تولید کند؛ همچنین میتواند نمونههای صوتی را با متن نوشتهها تطبیق دهد.
این سیستم برمبنای معماری ترنسفورمرها (Transformers) یا شبکههای عصبی عمیق است که تقریباً شباهت زیادی به سیستم نورونها در مغز دارند. ترنسفورمرها مانند لینکهای سیناپسی برای اطلاعات ورودی و خروجی عمل میکنند و به آنها کمک میکنند تا دنبالههای طولانیتر مانند جملاتی را که دارای ساختار پیچیدهای هستند، بهراحتی پردازش کنند. ادغام این سیستم با هوش مصنوعی و بخش کدگذار حذف نویز میتواند با ورودی اندک، خروجی چشمگیری داشته باشد.
نتایج حاصلشده، اگرچه از نظر کیفیت صدا تا حدی شبیه به صدای رباتیکی است، اما میزان دقت و قابلیت تشخیص بسیار بالایی در کلمات دارد که به ۹۹.۸۴ درصد میرسد. مهمتر از همه، این فناوری میتواند باعث سهولت دسترسی سرویسهای تبدیل متن به گفتار شود. ازاینپس، بهراحتی دسترسی به این فناوری برای تمامی شرکتهای کوچک و حتی علاقهمندان غیرحرفهای بدون صرف زمان و تلاش زیاد امکانپذیر است. پژوهشگران امیدوارند تا بتوانند این فناوری را با دادههای غیرهمسان آموزش دهند تا با تلاش کمتر دستیابی به گفتگویی واقعی امکانپذیر شود.