پیشرفت خوب سیستم تشخیص گفتار مایکروسافت
محققان مایکروسافت طی ۲۵ سال توانستند نقطه عطفی در سیستم تشخیص گفتار به وجود بیاورند. این سیستم برای اولین بار می تواند در مکالمات حرفه ای شرکت کرده و در نهایت با درصد خطای تنها ۵/۱ درصد توانایی بر قرار کردن ارتباط با مخاطب حرفه ای را داشته باشد.
یک سال پیش، گروه تحقیق گفتار و گفت و گو مایکروسافت سیستم خود را برای رسیدن به میزان خطای کلمه ۵/۹ درصد بهبود بخشید. این میزان برابر با میانگین خطای انسانی می باشد، اما تحقیقات جدید این کارکنان نشان داد که درصد خطای این سیستم تا ۵/۱ درصد هم رسیده که می تواند مورد مقایسه با سخنوران حرفه ای باشد.
محققان مایکروسافت برای بهبود این سیستم بیش از ۲۰ سال، مجموعه ای از مکالمات تلفنی ضبط شده به نام Switchboard را مورد استفاده قرار دادند تا سیستم تشخیص گفتار بتواند به دقت کنونی دست یابد. این کار توسط انسان یا دستگاه انجام می شود تا مکالمات تلفنی ثبت شده بین افراد در موضوعاتی نظیر سیاست و ورزش را بازنویسی کند.
برای کاهش میزان خطای سیستم که چیزی حدود ۱۲ درصد از نتایج معیارهای سال گذشته را منجر می شود، این گروه برای پیشرفت این سیستم تعداد واژگان زیادی در حدود ۳۰۰۰۰ تا ۱۶۵۰۰۰ را در مدل های صوتی و زبان مبتنی بر شبکه عصبی تهیه به این سیستم اضافه کردند.
مهمتر از همه، محققان آنچه را که “حافظه طولانی مدت مبتنی بر محاوره گفتاری کوتاه مدت” نامیده می شود را نیز تعویض کردند. به عبارت ساده، در مدل زبان جدید به سیستم اجازه می دهد تا از کل مکالمه پیشین به عنوان حافظه تاریخی در برای مشخص کردن عبارات خاص استفاده کند. این امر به سیستم اجازه می دهد تا در صورت صحبت کردن در مورد یک موضوع خاص مانند ورزش، بتواند از اطلاعات قبلی خود در مورد این موضوع استفاده کند.
البته این تیم یادآور می شود که در زمینه شناسایی گفتار هنوز کارهای زیادی باید انجام شود که برای پیشرفت آن باید کارهای پیچیده تری انجام شود، مانند تشخیص گفتار در محیط های با صدای بلند و یا رمزگشایی سخنرانی با لحن تند.
سیستم های تشخیص گفتار مایکروسافت در حال حاضر در سرویس هایی مانند Cortana و Speech Translator استفاده می شود و مقاله ای که در مورد آخرین نسخه این سیستم منتشر شده را می توانید در اینجا مشاهده کنید. (PDF).
منبع: Microsoft Research