هوش مصنوعی مشکلات گفتاری را شناسایی می کند

ربات کشاورز: با کمک هوش مصنوعی ابزاری توسعه داده شده تا مشکلات گفتار و زبان در خردسالان زودتر امکان پذیر شود.
به گزارش ربات کشاورز به نقل از فیز، از قابلیت تبدیل صدا به متن در موبایل گرفته تا زیرنویس هایی که ویدئوها را قابل دسترس تر می کنند، تبدیل گفتار به نوشتار در زندگی روزمره جا افتاده است. در پشت صحنه، هوش مصنوعی کارهای سنگین را انجام می دهد و کلام گفتاری را با سرعت و دقتی که زمانی نا ممکن به نظر می رسید، به متن تبدیل میکند. در این راستا سوپرکامپیوتر Lonestar۶ در مرکز رایانش پیشرفته تگزاس به پژوهشگران گفتارشناسی دانشگاه تگزاس در دالاس امکان داد مرزهای شناسایی خودکار زبان(ASR) برای خردسالان را ارتقا دهند. محققان با ابداع انتزاعات ریاضی به نام «واحدهای گفتاری گسسته» از صدا بعنوان نوعی رمزگذاری ناشناس، می توانند مشکلات گفتار و زبان را در خردسالان خردسال شناسایی و مداخل پزشکی سریع تری را جهت کمک به آنها فراهم آورند. ساتویک داتا، دانشجوی دکترای مدرسه مهندسی و علوم کامپیوتر اریک جانسون و بورسیه تحصیلات تکمیلی یوجین مک درموت در دانشگاه تگزاس در دالاس می گوید: هدف ما این است که بتوانیم نحوه صحبت کردن خردسالان را درک و تحلیل نماییم. وی در این زمینه می افزاید: طی سال ها، توسعه چنین سیستم هایی به ویژه برای خردسالان بسیار چالش برانگیز بوده است. برای اینکه خردسالان به ویژه کمتر از هشته سال سن هنوز درحال یادگیری مهارت های گفتاری و صوتی خود هستند و دانش شان از دستور زبان هم کامل نیست. گفتار آنها تفاوت زیادی با داده های گفتاری بزرگسالان دارد که اغلب برای آموزش سیستم های ASR متن باز استفاده می شود و این موجب می شود عملکرد مدلها در تشخیص گفتار خردسالان ضعیف باشد. این پروژه با همکاری چند محقق دیگر انجام شد. وقتی پروژه در دوران محدودیت های در ارتباط با کووید-۱۹ شروع شد، محققان تنها به مجموعه داده های موجود از بالاتر از هزار کودک دسترسی داشتند که بوسیله هدست ها در جلسات آموزشی مجازی ضبط شده بود. بعد از کاهش محدودیت ها، آنها توانستند داده های جدیدی را در محیط های واقعی جمع آوری کند و خردسالان پیش دبستانی را در محیط های پرسر و صدای مراکز مراقبت روزانه با استفاده از دستگاه ضبط کوچکی به نام «لنا» ثبت کنند. این دستگاه بطور مخفیانه در جیب تی شرت سفارشی آنها قرار گرفته بود. مطالعه مذکور وجهه ای جدید از تشخیص گفتار خودکار با استفاده از واحدهای گسسته گفتار را بررسی می کند، که می توان آنها را بعنوان نمایش های انتزاعی ریاضی از گفتار درنظر گرفت. نکته کلیدی این است که تولید توالی خروجی از واحدهای گسسته گفتار، در عمل امکان بازگشت به عقب و بازسازی موج اصلی گفتار را نا ممکن و درنتیجه درجه ای از حفاظت حریم خصوصی را فراهم می آورد. بگفته داتا بمحض این که گفتار بارگذاری شود، می توان آنرا به واحدهای گسسته گفتار تبدیل کرد، و در این حالت دیگر نگرانی از بابت نقض حریم خصوصی وجود ندارد، برای اینکه گفتار اصلی دیگر وجود ندارد و امکان تولید آن مجدداً وجود ندارد. پروسه تبدیل به واحدهای گسسته گفتار، لایه های افزونگی داده ای را حذف کرده و نیازهای کلی آموزش و محاسباتی مدل تشخیص گفتار خودکار (ASR) را کم می کند.
بطور خلاصه وی دراین خصوص می افزاید: طی سال ها، توسعه چنین سیستم هایی خصوصاً برای خردسالان بسیار چالش برانگیز بوده است. بگفته داتا به محض اینکه گفتار بارگذاری شود، می توان آن را به واحدهای گسسته گفتار تبدیل کرد، و در این حالت دیگر نگرانی از بابت نقض حریم خصوصی وجود ندارد، به جهت اینکه گفتار اصلی دیگر وجود ندارد و امکان تولید آن مجدداً وجود ندارد.