هوش مصنوعی صدا را به یک فرد لال برگرداند!

دوشنبه 4 تیر 1397

زمان تقریبی مطالعه 5 دقیقه

هوش مصنوعی صدا را به یک فرد لال برگرداند!

موبنا – یکی از خبرنگاران رادیویی آمریکا که حدود دو سال قبل صدای خود را به طور کامل از دست داده بود و طی این دوره زمانی قدرت تکلم نداشت، به کمک هوش مصنوعی به زودی صدای خود را پس می‌گیرد و بار دیگر می‌تواند با تن صدای قبلی با مردم صحبت کند.

«جِیم دوپری» ۵۴ ساله که در «گروه رسانه‌ای کوکس» خبرنگار رادیو سیاسی محسوب می‌شود و در دوران کاری خود شهرت فراوان داشته است، به دلیل ابتلا به یک عارضه عصبی نادر قدرت تکلم خود را به طور کامل از دست داده است و قادر به صحبت کردن نیست.

سیستم «سیِرپراک» با تعریف یک پروژه منحصر به فرد شبکه عصبی ویژه‌ای را به کمک هوش مصنوعی طراحی کرده است که نشان می‌دهد آقای دورپری چگونه می‌تواند بار دیگر با صدای اصلی خود صحبت کند. سیستم مذکور در این روش از صداهای اصلی دورپری که پیش‌تر ضبط شده بود نمونه‌برداری کرده است و آنها را به دقت تحلیل می‌کند تا بار دیگر بتواند از رزونانس‌های به دست آمده، برای این خبرنگار صدای واقعی بسازد.

دورپری در این خصوص گفت: «این اتفاق فناورانه و منحصر به فرد باعث شد شغل خود را از دست ندهم تا من و خانواده‌ام از مشکلات اقتصادی پس از بیکاری در امان بمانیم».

در حالت کلی گفته می‌شود که برای ایجاد صدای یک شخص می‌بایست فرد مورد نظر یک متن مشخص را به مدت ۳۰ ساعت قرایت کند تا سیستم هوشمند داده‌های مورد نیاز خود را از این طریق به دست آورد. سپس از هوش مصنوعی وارد کار می‌شود و تمامی کلمات را به صورت جداگانه از فایل صوتی استخراج می‌کند و پس از تحلیل جزء به جزء، بار دیگر آنها را متصل می‌کند و در کنار یکدیگر قرار می‌دهد. این فناوری به منظور پیش‌بینی و تقلید الگوهای گفتاری افراد بیمار مورد استفاده قرار می‌گیرد. به کارگیری این روش ده‌ها هزار دلار هزینه دارد و بنابراین به عنوان یک روش معمول بین عموم مردم مورد استفاده قرار نمی‌گیرد. همچنین باید توجه داشت تولید، تحلیل و بازیابی صدا از این طریق چندین ماه به طول می‌انجامد.

مرکز «سیِرپراک» به منظور توسعه این فرآیند و ارایه روش‌های مقرونه به صرفه در درمان بیماران مبتلا به اختلالات تکلم در سال ۲۰۰۶ میلادی برای نخستین بار پلتفرم هوشمند خود را ارایه کرد که این سیستم مبتنی بر شبکه‌های عصبی ویژه آن فعالیت می‌کرد.

امروزه سیستم هوش مصنوعی به گونه‌ای توسعه یافته است که می تواند تحلیل و بازیابی یک صدای به خصوص را ظرف چند روز با هزینه بالغ بر ۵۰۰ پوند انجام دهد و افراد فقط نیازمند آن هستند تا یک متن کوتاه را روی سایت اینترنتی مربوطه با صدای بلند بخوانند تا سیستم هوشمند تمام فعالیت‌های لازم را به تنهایی انجام دهد.

شبکه‌های عصبی که هر کدام از آنها بین ۶ تا ۱۰ لایه مجزا را شامل می‌شوند، کار خود را از طریق برش صدای یک کلمه و تبدیل آن به فونتیک‌های کوچک دنبال می‌کنند. سیستم هوش مصنوعی در این زمینه هر کلمه‌ای که به صورت صوتی خوانده شده است را به ۱۰۰ بخش کوچک تقسیم می‌کند و این اتفاق برای تمام کلمات معمول که فرد از آنها استفاده می‌کند، تکرار می‌شود تا در نهایت فونتیک‌های پایه در سیستم صوتی فرد شناسایی شود و هوش مصنوعی بتواند کوچک‌ترین اجزا در فرآیند ادای صوتی یک کلمه را به دست آورد.

شبکه عصبی قادر است صداهای خود را تولید کند و پیش‌بینی کند که فرد مورد نظر کلماتی که پیش‌تر مورد تحلیل قرار نگرفته‌اند را در یک گفتگوی رسمی یا سمینار چگونه و با چه صوتی ادا می‌کند. بسیاری از محققان علوم رایانه در سراسر جهان تلاش می‌کنند با آموزش شبکه‌های عصبی در راستای شناخت بهتر تصاویر، فرآیندهای مغزی برای تولید صدا توسط انسان را تکثیر کنند. ولی سیستم «سیِرپراک» به گونه‌ای ساخته شده است که بسیار ساده‌تر عمل می‌کند و بر اساس آن هوش مصنوع می‌تواند به راحتی نحوه ادا کردن تمام کلمات توسط فرد را پیش‌بینی کند.

«کریس پیدکاک» مدیر فنی مرکز «سیِرپراک» و یکی از بنیانگذاران این مرکز گفت: «تکنیک‌های هوش مصنوعی نشان داده‌اند که در مورد مسایل کوچک و تحلیل‌های موشکافانه بسیار خوب عمل می‌کنند و یادگیری مدل گفتاری نکته‌ای است که شبکه‌های عصبی عمیق می‌توانند به خوبی آن را انجام دهند».

آقای دورپری طی ۳۵ سال گذشته تمام اخبار سیاسی مربوط به کاخ سفید و کنگره آمریکا را پوشش داده است. او به عنوان یکی از مشهورترین تولیدکنندگان محتوای خبری در شش شبکه رادیویی فعالیت داشته است و صدای او مهم‌ترین ابزار برای ادامه فعالیت‌هایش محسوب می‌شود. او از سال ۲۰۱۶ به بعد متوجه شد در حال از دست دادن صدای خود است و بررسی‌های پزشکی نشان داد در حالی که تارهای صوتی در حنجره وی مشکلی ندارد، وی به دلیل ابتلا به نوعی اختلال عصبی نادر به زودی به طور کامل لال می‌شود.

با این تشخیص او دچار نگرانی فراوان شد و از پزشکان متخص در بیمارستان‌های گوناگون سراسر آمریکا کمک گرفت. در نهایت آقای دورپری متوجه شد به اختلالی موسوم به «پیشروی دیستونی زبان» مبتلا شده است. این مسئله در اصل یک بیماری عصبی بسیار نادر است که باعث رشد زبان و بیرون زدگی آن از دهان می‌شود و هر زمان که شخص می‌خواهد صحبت کند، این کار را برای او غیرممکن می‌سازد تا وی نتواند بیشتر از دو یا سه کلمه حرف بزند.

آقای دورپری به جای آنکه شغل خود را کنار بگذارد طی دو سال گذشته همچنان سعی کرد با سیاستمداران آمریکایی مصاحبه بگیرد و از طریق یک دستگاه رایانه لوحی سوالات خود را به آنها اعلام کند. او در این مدت پاسخ‌های داده شده را ضبط کرد و با حضور در مجلس سنا و سناتورها، از این طریق به فعالیت های خود ادامه داد تا شغلش را از دست ندهد. اگرچه او همچنان به نوشتن مقالات سیاسی و متن‌های خبری ادامه می‌دهد، ولی از زمانی که قابلیت تکلم را از دست داده است نمی‌تواند گزارش‌های صوتی خود را برای مردم قرایت کند و تقریبا شغل اصلی خود را کنار گذاشته است.

به هر حال، دسامبر گذشته او با یکی از اعضای کنگره آمریکا در مجلس نمایندگان این کشور صحبت می‌کرد و این فرد سیاسی که ارتباط نزدیکی با دورپری داشت تصمیم گرفت به او کمک کند تا بار دیگر به چرخه طبیعی زندگی خود برگردد و پس از گذشت ۳۰ سال بار دیگر بتواند از طریق رادیو بین مردم باشد. همین مسئله باعث شد که سناتور مذکور دورپری را به یکی از سیستم‌های پزشکی نوین معرفی کند.

با گذشت شش ماه از زمان آغاز درمان‌های جدید دورپری، او سرانجام از هفته جاری توانست به کمک شبیه‌سازی‌های صوتی صورت گرفته و صداسازی‌های رایانه‌ای سیستم «سیِرپراک» بار دیگر از طریق شبکه صوتی «دبلیو.اس.بی آتلانتا» با مردم حرف بزند و گروه شبکه‌های رسانه‌ای کاکس در اورلاندو، جکسونویل، دیتون و تولسا صدای او را به گوش مردم برساند.

دورپری با صدای جدید خود می‌تواند مثل گذشته متن‌های خبری را بنویسد و سپس از نرم‌افزار هوشمند تبدیل متن به صورت موسوم به «بالابولکا» روی لپ‌تاپ خود استفاده کند تا صدای وی به راحتی ضبط شود. اگر یک کلمه یا عبارت هنگام ضبط صوتی مناسب ادا نشده باشد، او می‌تواند هماهنگی‌های جزئی و ویژه انجام دهد تا کلمه مذکور دوباره اا شود و از این طریق داستان مربوطه به صورت کامل با صدای واقعی در رادیو پخش شود. این صدا و سیستم نرم‌افزاری به صورت ویژه برای دورپری طراحی شده است و او صدای مذکور را به صورت اختصاصی برای خود می‌داند.

دوشنبه 4 تیر 1397

زمان تقریبی مطالعه 5 دقیقه

هوش مصنوعی صدا را به یک فرد لال برگرداند!

درخواست تایرسازان برای اصلاح قیمت لاستیک

توسعه پوشش ارتباطی ایرانسل در چهارمحال و بختیاری

چگونه از جهش قیمت نفت در بورس سود ببریم؟ معرفی صندوق سینرژی

بیش از ۶۰۰۰ عملیات فنی ایرانسل برای پایداری ارتباطات در تشییع رهبر شهید

ریزش قیمت طلا؛ آرامش موقت یا آغاز سقوط آزاد؟

مکالمه رایگان ایرانسل به مناسبت روز یزد

شمارش معکوس برای معرفی سری جدید Google Pixel 11

رکود سنگین در کمین بازار ملک؛ آیا آرامش قبل از طوفان است؟

وزیر ارتباطات صربستان از ایرانسل بازدید کرد

ایرانسل، میزبان عزاداران مراسم تشییع رهبر شهید ایران

نقد و بررسی Motorola Razr Fold: پادشاه جدید تاشوهای کتابی

مکالمه رایگان ایرانسل به مناسبت روز ایلام

معرفی انواع صندوق‌های اهرمی و تفاوت‌های آن‌ها

چرا انتخاب مصرف‌کننده در بازار خودرو محدود مانده است؟

همدان، میزبان پروژه‌های جدید توسعه شبکه ایرانسل شد

سرمایه‌گذاری ویستا در مدریک

از ژاپن تا قطر، روایت ۲۴ میلیارد دلار دارایی مسدود شده!

نرخ سود بانکی در آستانه بازبینی؛ سپرده‌گذاران منتظر افزایش باشند یا کاهش؟

چطور صندوق اکسیر، ارزش دلاری دارایی را ۴ برابر کرد؟

سبقت عجیب قیمت خودرو از تورم!

ارائه بسته‌‌ تخفیفی رومینگ ایرانسل ویژه ایام محرم

ثبت‌نام کارگاه‌های جامع پایتون آکادمی ایرانسل آغاز شد

فصل تازه تجربه تماشای ورزش در «آی‌اسپورت» ایرانسل

پیش‌بینی قیمت طلا پس از مذاکرات ایران و آمریکا

خودروی جدید شیائومی با برد ۱۵۰۰ کیلومتر می‌آید

عکس یادگاری پدر و پسری فریبرز و سام قریبیان (عکس)

فاطمه گودرزی به همراه مریم امیرجلالی و ستاره اسکندری در یک هتل مجلل (عکس)

نوشته های مشابه

دل قدرتمندترین گوشی ویندوزی جهان را می‌سازد (+عکس)

تصاویری از پوشش و استایل متفاوت بازیگران زن ایرانی در فستیوال فیلم کن (عکس)

عکس: کوچه چتری؛ این بار در شیراز

سام درخشانی در اکران فیلم تگزاس (عکس)