۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

شنبه 25 اسفند 1397

زمان تقریبی مطالعه 3 دقیقه

۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

مجله آنلاین موبنا – به گزارش موبنا به نقل از سازمان فناوری اطلاعات ایران، مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکره‌های زبانی پرداخته و به عنوان خروجی نهایی طرح، ۳۰ هزار جمله پیکره گفتمان که علاوه بر برچسب‌های گفتمانی شامل برچسب‌های اجزای کلام، نحوی و معنایی نیز است را ارائه داد.
داده‌های بزرگ به فناوری‌های فوق‌العاده‌ای برای پردازش داده‌های عظیم در مجموعه‌های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده‌ها باشد.
این داده‌ها نحوه کار سازمان‌ها و افراد را تحت تأثیر قرار می‌دهد. پردازش زبان‌های طبیعی یکی از زیرشاخه‌های با اهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های طبیعی می‌پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان‌های طبیعی به شمار می‌رود.
مدل‌سازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت، پردازش متن و گفتار، دریافت فرمان‌های صوتی توسط ماشین و اجرای دقیق آن‌ها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه‌سازی متون، تهیه بانک‌های اطلاعاتی، تهیه بانک‌های اصطلاحات علمی و…
درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه از موارد مهم و حیاتی است. رایانه می‌تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده‌های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
به عبارتی می‌توان برای بخش‌های مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکره‌ای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. به طور مثال برای نرم‌افزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدل‌هایی که رایانه قادر به درک آن باشد تهیه کرد.
تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرم‌افزار STT به متن تبدیل شود، باید داده‌ها یا پیکره‌های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکره‌های متنی آن موضوع است.
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده‌ها یا پیکره‌های موردنیاز آن زبان است. این پیکره‌ها داده‌های پایه‌ای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله گفتمان، قابل تقسیم‌بندی هستند.
به طور مثال در مباحث مربوط به ترجمه‌های ماشینی پیکره‌های متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیل‌هایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسب‌های گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پست‌های الکترونیکی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درک جملات و پاراگراف‌ها بپردازد. به عبارتی نیاز به داده‌های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد.
در همین راستا در بررسی‌ها و داده‌کاوی‌های مربوط به زبان فارسی در هر حوزه مثلاً کسب و کار نیز می‌توانیم از پیکره‌های مربوط به آن استفاده کرد.
مزیت داشتن پیکره‌ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره‌ها پردازش و تحلیل آسان‌تر شده و سرعت آن افزایش می‌یابد.

شنبه 25 اسفند 1397

زمان تقریبی مطالعه 3 دقیقه

۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

درخواست تایرسازان برای اصلاح قیمت لاستیک

توسعه پوشش ارتباطی ایرانسل در چهارمحال و بختیاری

چگونه از جهش قیمت نفت در بورس سود ببریم؟ معرفی صندوق سینرژی

بیش از ۶۰۰۰ عملیات فنی ایرانسل برای پایداری ارتباطات در تشییع رهبر شهید

ریزش قیمت طلا؛ آرامش موقت یا آغاز سقوط آزاد؟

مکالمه رایگان ایرانسل به مناسبت روز یزد

شمارش معکوس برای معرفی سری جدید Google Pixel 11

رکود سنگین در کمین بازار ملک؛ آیا آرامش قبل از طوفان است؟

وزیر ارتباطات صربستان از ایرانسل بازدید کرد

ایرانسل، میزبان عزاداران مراسم تشییع رهبر شهید ایران

نقد و بررسی Motorola Razr Fold: پادشاه جدید تاشوهای کتابی

مکالمه رایگان ایرانسل به مناسبت روز ایلام

معرفی انواع صندوق‌های اهرمی و تفاوت‌های آن‌ها

چرا انتخاب مصرف‌کننده در بازار خودرو محدود مانده است؟

همدان، میزبان پروژه‌های جدید توسعه شبکه ایرانسل شد

سرمایه‌گذاری ویستا در مدریک

از ژاپن تا قطر، روایت ۲۴ میلیارد دلار دارایی مسدود شده!

نرخ سود بانکی در آستانه بازبینی؛ سپرده‌گذاران منتظر افزایش باشند یا کاهش؟

چطور صندوق اکسیر، ارزش دلاری دارایی را ۴ برابر کرد؟

سبقت عجیب قیمت خودرو از تورم!

ارائه بسته‌‌ تخفیفی رومینگ ایرانسل ویژه ایام محرم

ثبت‌نام کارگاه‌های جامع پایتون آکادمی ایرانسل آغاز شد

فصل تازه تجربه تماشای ورزش در «آی‌اسپورت» ایرانسل

پیش‌بینی قیمت طلا پس از مذاکرات ایران و آمریکا

خودروی جدید شیائومی با برد ۱۵۰۰ کیلومتر می‌آید

جشنواره خدمات نوروزی ایران‌خودرو از فردا 26 اسفندماه آغاز می شود

تصویب طرح توسعه اتصالات ۶ جی

نوشته های مشابه

نوکيا با پرداخت 3/1 ميليون يورو به آلمان موافقت کرد

کنيا براي شبکه وايمکس 5/3 ميليون دلار سرمايه گذاري کرد

خط مقدم رقابت در دنیا، رقابت علمی است

دلايل مشكلات مشتركان براي استفاده از اينترنت تلفن همراه