هوش مصنوعی صدا را به یک فرد لال برگرداند!
موبنا – یکی از خبرنگاران رادیویی آمریکا که حدود دو سال قبل صدای خود را به طور کامل از دست داده بود و طی این دوره زمانی قدرت تکلم نداشت، به کمک هوش مصنوعی به زودی صدای خود را پس میگیرد و بار دیگر میتواند با تن صدای قبلی با مردم صحبت کند.
«جِیم دوپری» ۵۴ ساله که در «گروه رسانهای کوکس» خبرنگار رادیو سیاسی محسوب میشود و در دوران کاری خود شهرت فراوان داشته است، به دلیل ابتلا به یک عارضه عصبی نادر قدرت تکلم خود را به طور کامل از دست داده است و قادر به صحبت کردن نیست.
سیستم «سیِرپراک» با تعریف یک پروژه منحصر به فرد شبکه عصبی ویژهای را به کمک هوش مصنوعی طراحی کرده است که نشان میدهد آقای دورپری چگونه میتواند بار دیگر با صدای اصلی خود صحبت کند. سیستم مذکور در این روش از صداهای اصلی دورپری که پیشتر ضبط شده بود نمونهبرداری کرده است و آنها را به دقت تحلیل میکند تا بار دیگر بتواند از رزونانسهای به دست آمده، برای این خبرنگار صدای واقعی بسازد.
دورپری در این خصوص گفت: «این اتفاق فناورانه و منحصر به فرد باعث شد شغل خود را از دست ندهم تا من و خانوادهام از مشکلات اقتصادی پس از بیکاری در امان بمانیم».
در حالت کلی گفته میشود که برای ایجاد صدای یک شخص میبایست فرد مورد نظر یک متن مشخص را به مدت ۳۰ ساعت قرایت کند تا سیستم هوشمند دادههای مورد نیاز خود را از این طریق به دست آورد. سپس از هوش مصنوعی وارد کار میشود و تمامی کلمات را به صورت جداگانه از فایل صوتی استخراج میکند و پس از تحلیل جزء به جزء، بار دیگر آنها را متصل میکند و در کنار یکدیگر قرار میدهد. این فناوری به منظور پیشبینی و تقلید الگوهای گفتاری افراد بیمار مورد استفاده قرار میگیرد. به کارگیری این روش دهها هزار دلار هزینه دارد و بنابراین به عنوان یک روش معمول بین عموم مردم مورد استفاده قرار نمیگیرد. همچنین باید توجه داشت تولید، تحلیل و بازیابی صدا از این طریق چندین ماه به طول میانجامد.
مرکز «سیِرپراک» به منظور توسعه این فرآیند و ارایه روشهای مقرونه به صرفه در درمان بیماران مبتلا به اختلالات تکلم در سال ۲۰۰۶ میلادی برای نخستین بار پلتفرم هوشمند خود را ارایه کرد که این سیستم مبتنی بر شبکههای عصبی ویژه آن فعالیت میکرد.
امروزه سیستم هوش مصنوعی به گونهای توسعه یافته است که می تواند تحلیل و بازیابی یک صدای به خصوص را ظرف چند روز با هزینه بالغ بر ۵۰۰ پوند انجام دهد و افراد فقط نیازمند آن هستند تا یک متن کوتاه را روی سایت اینترنتی مربوطه با صدای بلند بخوانند تا سیستم هوشمند تمام فعالیتهای لازم را به تنهایی انجام دهد.
شبکههای عصبی که هر کدام از آنها بین ۶ تا ۱۰ لایه مجزا را شامل میشوند، کار خود را از طریق برش صدای یک کلمه و تبدیل آن به فونتیکهای کوچک دنبال میکنند. سیستم هوش مصنوعی در این زمینه هر کلمهای که به صورت صوتی خوانده شده است را به ۱۰۰ بخش کوچک تقسیم میکند و این اتفاق برای تمام کلمات معمول که فرد از آنها استفاده میکند، تکرار میشود تا در نهایت فونتیکهای پایه در سیستم صوتی فرد شناسایی شود و هوش مصنوعی بتواند کوچکترین اجزا در فرآیند ادای صوتی یک کلمه را به دست آورد.
شبکه عصبی قادر است صداهای خود را تولید کند و پیشبینی کند که فرد مورد نظر کلماتی که پیشتر مورد تحلیل قرار نگرفتهاند را در یک گفتگوی رسمی یا سمینار چگونه و با چه صوتی ادا میکند. بسیاری از محققان علوم رایانه در سراسر جهان تلاش میکنند با آموزش شبکههای عصبی در راستای شناخت بهتر تصاویر، فرآیندهای مغزی برای تولید صدا توسط انسان را تکثیر کنند. ولی سیستم «سیِرپراک» به گونهای ساخته شده است که بسیار سادهتر عمل میکند و بر اساس آن هوش مصنوع میتواند به راحتی نحوه ادا کردن تمام کلمات توسط فرد را پیشبینی کند.
«کریس پیدکاک» مدیر فنی مرکز «سیِرپراک» و یکی از بنیانگذاران این مرکز گفت: «تکنیکهای هوش مصنوعی نشان دادهاند که در مورد مسایل کوچک و تحلیلهای موشکافانه بسیار خوب عمل میکنند و یادگیری مدل گفتاری نکتهای است که شبکههای عصبی عمیق میتوانند به خوبی آن را انجام دهند».
آقای دورپری طی ۳۵ سال گذشته تمام اخبار سیاسی مربوط به کاخ سفید و کنگره آمریکا را پوشش داده است. او به عنوان یکی از مشهورترین تولیدکنندگان محتوای خبری در شش شبکه رادیویی فعالیت داشته است و صدای او مهمترین ابزار برای ادامه فعالیتهایش محسوب میشود. او از سال ۲۰۱۶ به بعد متوجه شد در حال از دست دادن صدای خود است و بررسیهای پزشکی نشان داد در حالی که تارهای صوتی در حنجره وی مشکلی ندارد، وی به دلیل ابتلا به نوعی اختلال عصبی نادر به زودی به طور کامل لال میشود.
با این تشخیص او دچار نگرانی فراوان شد و از پزشکان متخص در بیمارستانهای گوناگون سراسر آمریکا کمک گرفت. در نهایت آقای دورپری متوجه شد به اختلالی موسوم به «پیشروی دیستونی زبان» مبتلا شده است. این مسئله در اصل یک بیماری عصبی بسیار نادر است که باعث رشد زبان و بیرون زدگی آن از دهان میشود و هر زمان که شخص میخواهد صحبت کند، این کار را برای او غیرممکن میسازد تا وی نتواند بیشتر از دو یا سه کلمه حرف بزند.
آقای دورپری به جای آنکه شغل خود را کنار بگذارد طی دو سال گذشته همچنان سعی کرد با سیاستمداران آمریکایی مصاحبه بگیرد و از طریق یک دستگاه رایانه لوحی سوالات خود را به آنها اعلام کند. او در این مدت پاسخهای داده شده را ضبط کرد و با حضور در مجلس سنا و سناتورها، از این طریق به فعالیت های خود ادامه داد تا شغلش را از دست ندهد. اگرچه او همچنان به نوشتن مقالات سیاسی و متنهای خبری ادامه میدهد، ولی از زمانی که قابلیت تکلم را از دست داده است نمیتواند گزارشهای صوتی خود را برای مردم قرایت کند و تقریبا شغل اصلی خود را کنار گذاشته است.
به هر حال، دسامبر گذشته او با یکی از اعضای کنگره آمریکا در مجلس نمایندگان این کشور صحبت میکرد و این فرد سیاسی که ارتباط نزدیکی با دورپری داشت تصمیم گرفت به او کمک کند تا بار دیگر به چرخه طبیعی زندگی خود برگردد و پس از گذشت ۳۰ سال بار دیگر بتواند از طریق رادیو بین مردم باشد. همین مسئله باعث شد که سناتور مذکور دورپری را به یکی از سیستمهای پزشکی نوین معرفی کند.
با گذشت شش ماه از زمان آغاز درمانهای جدید دورپری، او سرانجام از هفته جاری توانست به کمک شبیهسازیهای صوتی صورت گرفته و صداسازیهای رایانهای سیستم «سیِرپراک» بار دیگر از طریق شبکه صوتی «دبلیو.اس.بی آتلانتا» با مردم حرف بزند و گروه شبکههای رسانهای کاکس در اورلاندو، جکسونویل، دیتون و تولسا صدای او را به گوش مردم برساند.
دورپری با صدای جدید خود میتواند مثل گذشته متنهای خبری را بنویسد و سپس از نرمافزار هوشمند تبدیل متن به صورت موسوم به «بالابولکا» روی لپتاپ خود استفاده کند تا صدای وی به راحتی ضبط شود. اگر یک کلمه یا عبارت هنگام ضبط صوتی مناسب ادا نشده باشد، او میتواند هماهنگیهای جزئی و ویژه انجام دهد تا کلمه مذکور دوباره اا شود و از این طریق داستان مربوطه به صورت کامل با صدای واقعی در رادیو پخش شود. این صدا و سیستم نرمافزاری به صورت ویژه برای دورپری طراحی شده است و او صدای مذکور را به صورت اختصاصی برای خود میداند.