انتشار شده در تاریخ 1398/03/07 - 10:25

بهبود عملکرد سرویس تبدیل متن به گفتار مایکروسافت

هوش مصنوعی مایکروسافت، مشکل سرویس‌های تبدیل متن به گفتار را حل کرد. سیستم جدید تبدیل متن به گفتار مانند سیستم عصبی مغز انسان عمل می‌کند.

به گزارش کارگروه بین‌الملل سایبربان؛ سرویس‌های تبدیل متن به گفتار توسعه یافته‌اند و بسیار هوشمندانه عمل می‌کنند، اما هنوز یک مشکل وجود دارد. توسعه این سرویس‌ها نیازمند وقت و منابع آموزشی بسیار زیاد برای تولید خروجی به‌صورت صدای طبیعی و آموزش در مدت‌زمان طولانی هستند.

مایکروسافت با همکاری پژوهشگران چینی روش مؤثری برای حل این مشکل ارائه کردند. آن‌ها موفق به ساخت هوش مصنوعی تبدیل متن به گفتاری شدند که می‌تواند گفتار واقعی را با چیزی نزدیک به ۲۰۰ نمونه صوتی (معادل با مدت‌زمان ۲۰ دقیقه) تولید کند؛ همچنین می‌تواند نمونه‌های صوتی را با متن نوشته‌ها تطبیق دهد.

این سیستم برمبنای معماری ترنسفورمرها (Transformers) یا شبکه‌های عصبی عمیق است که تقریباً شباهت زیادی به سیستم نورون‌ها در مغز دارند. ترنسفورمرها مانند لینک‌های سیناپسی برای اطلاعات ورودی و خروجی عمل می‌کنند و به آن‌ها کمک می‌کنند تا دنباله‌های طولانی‌تر مانند جملاتی را که دارای ساختار پیچیده‌ای هستند، به‌راحتی پردازش کنند. ادغام این سیستم با هوش مصنوعی و بخش کدگذار حذف نویز می‌تواند با ورودی اندک، خروجی چشمگیری داشته باشد.

نتایج حاصل‌شده، اگرچه از نظر کیفیت صدا تا حدی شبیه به صدای رباتیکی است، اما میزان دقت و قابلیت تشخیص بسیار بالایی در کلمات دارد که به ۹۹.۸۴ درصد می‌رسد. مهم‌تر از همه، این فناوری می‌تواند باعث سهولت دسترسی سرویس‌های تبدیل متن به گفتار شود. ازاین‌پس، به‌راحتی دسترسی به این فناوری برای تمامی شرکت‌های کوچک و حتی علاقه‌مندان غیرحرفه‌ای بدون صرف زمان و تلاش زیاد امکان‌پذیر است. پژوهشگران امیدوارند تا بتوانند این فناوری را با داده‌های غیرهمسان آموزش دهند تا با تلاش کمتر دستیابی به گفتگویی واقعی امکان‌پذیر شود.