چرا انسان هنوز سریعتر از هوش مصنوعی آموزش میبیند
موبنا – دیپمایند تکنولوژیز که تا چند سال پیش کمپانی کوچک و کمترشناختهشدهای محسوب میشد، در سال ۲۰۱۳ با انتشار مقالهای نوآورانه نشان داد که یک شبکهی عصبی هوش مصنوعی میتواند همانند انسان نحوهی انجام بازیهای ویدئویی دههی ۸۰ میلادی را با نگاه کردن به صفحهی نمایش آموزش ببیند. این شبکهها سپس تا آنجا پیش رفتند که توانستند بهترین بازیکنان انسانی را شکست دهند.
چند ماه بعد، گوگل این شرکت را با قیمت ۴۰۰ میلیون دلار به تصاحب خود درآورد. دیپمایند از آن زمان تاکنون مشغول اجرای یادگیری عمیق در طیفی از موقعیتها و دستیابی به موفقیتهای گوناگونی بوده است که از معروفترین آنها میتوان به شکست قهرمان بازی باستانی گو اشاره کرد.
این تلاشها اقداماتی قابل توجه بهحساب میآیند؛ اما در عین حال یکی از چشمگیرترین محدودیتهای یادگیری عمیق را برجسته میکنند. در واقع ماشینهایی که از این فناوری بهره میگیرند هنوز در مقایسه با انسانها نیازمند زمان بسیار بیشتری برای یادگیری هستند. چه سِری در یادگیری انسان نهفته است که به ما امکان میدهد با وجود داشتن تجربهای نسبتا اندک، عملکرد بسیار خوبی از خود نشان دهیم؟
اکنون به لطف تلاش ریچیت دوبی و همکارانش در دانشگاه برکلی کالیفرنیا، تا حدودی به پاسخ این سؤال دست یافتهایم. آنها شیوهی تعامل انسانها با بازیهای ویدئویی را مطالعه کردند تا دریابند چرا انسانها سریعتر از هوش مصنوعی میتوانند نحوهی انجام یک بازی ویدئویی را یاد بگیرند.
در انتها مشخص شد که انسانها هر زمان اقدام به انجام یک بازی جدید میکنند، از یک دانش پسزمینه (دانش اولیهی) غنی بهره میگیرند و این مسئله انجام بازی را به نحو قابل توجهی آسانتر میسازد. اما مواجه با بازیهایی که از این دانش استفادهای نمیبرند موجب لغزش انسان میشود؛ درحالیکه ماشینها درست به همان نحو بهآرامی پیشرفت میکنند.
برای درک بهتر این موضوع به تصویر بازی ویدئویی سمت چپ (بازی اصلی) نگاه بیاندازید. این بازی بر اساس یک عنوان کلاسیک به نام انتقام مونتزوما (Montezuma’s Revenge) که در سال ۱۹۸۴ برای کامپیوتر آتاری ۸ بیتی منتشر شد، ساخته شده است.
در مورد این بازی هیچ راهنما یا دستورالعملی وجود ندارد و حتی از اینکه کنترل کدام شخصیت در دست شما است نیز هیچ اطلاعی ندارید. همچنین، تنها در صورتی قادر به دریافت بازخورد از بازی هستید که آن را به پایان برسانید.
آیا به نظر خودتان قادر به انجام این بازی هستید؟ اتمام آن چه مدت طول خواهید کشید؟ برای پاسخ به این سؤالات میتوانید به وبسایت این پژوهشگران مراجعه کنید و به انجام دیگر بازیهای اشارهشده در مقالهی آنها نیز بپردازید.
به احتمال فراوان اتمام این بازی برای شما تقریبا یک دقیقه طول خواهد کشید و در این فرآیند احتمالا نزدیک به ۳۰۰۰ حرکت صفحهکلید انجام خواهید داد. این همان نتایجی است که دوبی و همکارانش پس از سپردن بازی به ۴۰ نفر از کارکنان وبسایت جمعسپاری ترک مکانیکی آمازون به دست آوردند. آنها در واقع با پرداخت یک دلار به شرکتکنندگان، از آنها خواستند بازی را به پایان برسانند. پژوهشگران در این باره میگویند:
اصلا غیر منتظره نیست که یک نفر بتواند بهسادگی حدس بزند هدف این بازی حرکت دادن شخصیت ربات با راه رفتن روی اشیاء آجرمانند و استفاده از نردبانها برای رسیدن به سکوهای بالاتر و در عین حال جلوگیری از برخورد با شعلههای آتش و اشیاء صورتیرنگ خشمگین و رسیدن به شاهزاده است.
در طرف مقابل، انجام این بازی برای ماشینها دشوار است و بسیاری از الگوریتمهای استاندارد یادگیری عمیق بهکلی از حل آن ناتوان هستند؛ زیرا هنگامی که بازخورد تنها پس از اتمام بازی به دست بیاید، هیچ راهی وجود ندارد که الگوریتم بتواند جریان داخل بازی را ارزیابی کند.
بهترین بازیکن ماشینی، یک الگوریتم یادگیری تقویتی مبتنی بر کنجکاوی بود که برای اتمام بازی نزدیک به ۴ میلیون حرکت صفحهکلید انجام داد. این مقدار حرکت تقریبا با ۳۷ ساعت انجام پیوستهی بازی مساوی است.
بنابراین، چه چیزی موجب برتری چشمگیر انسانها میشود؟ آنچه مشخص شده، این است که ما با ذهن خالی بهسمت این بازی نمیرویم. یک انسان میداند که کنترل یک ربات را در دست دارد و اینکه ربات باید از آتش فاصله بگیرد، از نردبان بالا برود، از روی فضاهای خالی بپرد و از مواجه با دشمنان خشمگین پرهیز کند تا سرانجام به شاهزاده برسد. ما به لطف دانش اولیه از تمام این اطلاعات آگاهی داریم و میدانیم که برخی اشیاء مشخص ماهیت خوبی دارند؛ درحالیکه برخی دیگر (نظیر شعلههای آتش یا چهرههای خشمگین) اشیائی با ماهیت بد محسوب میشوند. ما از قبل اطلاع داریم که سکوها اشیاء را نگه میدارند، از نردبانها میتوان بالا رفت و رفتار اشیاء متناسب با ظاهر آنها خواهد بود. ما نهتنها میدانیم که جاذبه اشیاء را به سمت پایین میکشد؛ بلکه از تأثیرگذاری آن روی اشیائی که از بقیه مجزا هستند و ویژگیهای متفاوتی دارند نیز آگاه هستیم.
در طرف مقابل، یک ماشین هیچ کدام از اینها را نمیداند.
بنابراین، دوبی و همکارانش طراحی این بازی را تغییر دادند تا اطلاعات قبلی را مخدوش کنند. آنها سپس مدتزمانی که طول کشید تا بازی توسط بازیکنان انسانی به پایان برسد، اندازه گرفتند. سپس اعضای تیم فرض گرفتند که هرگونه افزایش زمان، بیانگر اهمیت آن اطلاعات است.
پژوهشگران میگویند:
ما با رندرینگ مجدد، اشیاء مختلف نظیر نردبانها، دشمنان، کلیدها، سکوها و … نسخههای مختلفی از این بازی ویدئویی را طراحی کردیم و بافتها (تکسچرها) را تغییر دادیم.
آنها چنین بافتهایی را انتخاب کردند (تصویر سمت راست) تا اشکال مختلف دانش اولیه را پنهان کنند. پژوهشگران همچنین خصوصیات فیزیکی بازی نظیر تأثیر جاذبه و نحوهی تعامل شخصیت اصلی با محیط را تغییر دادند. در هر نسخه، داینامیک پایه (حرکات کلی) بازی دستنخورده باقی ماند.
نتیجهی شگفتانگیز این کار از زبان دوبی و همکارانش به شرح زیر است:
ما دریافتیم که حذف برخی از عناصر مربوط به دانش اولیه منجر به کاهش شدید سرعت حل بازی توسط بازیکنان انسانی میشود.
در واقع، با حذف انواع اطلاعات مربوط به دانش اولیه، مدت زمان لازم برای حل بازی توسط انسانها از یک دقیقه به بیش از ۲۰ دقیقه افزایش یافت.
در طرف مقابل، حذف این اطلاعات در واقع هیچ تفاوتی در زمان یادگیری بازی توسط الگوریتم ماشینی به وجود نیاورد.
تیم تحقیقاتی حتی قادر به رتبهبندی انواع مختلف این اطلاعات بر حسب اهمیت بود. حذف معانی اشیاء نظیر عصبانیت یک چهره یا نماد آتش، باعث میشود که بازیکنان انسانی زمان بیشتری صرف اتمام بازی کنند. اما پنهان کردن مفهوم اشیاء بهقدری انجام بازی را دشوارتر کرد که اغلب بازیکنان انسانی از انجام آن سرباز زدند.
دوبی میگوید:
ما مجبور شدیم برای تشویق شرکتکنندگان به ادامهی کار، مبلغ پرداختی به آنها را تا ۲.۲۵ دلار افزایش دهیم.
این رتبهبندی پیوند جالب توجهی با شیوهی یادگیری انسان دارد. روانشناسان دریافتهاند که نوزادان دوماهه نسبت به اشیائی که انتظار دارند بهعنوان مجموعههای متصل بههم حرکت کنند، از یک ادراک اولیه برخوردار هستند. با این حال، نوزادان در این سن قادر به تشخیص دستهبندی اشیاء نیستند.
نوزادان در سن بین ۳ تا ۵ ماهگی، دستهبندی اشیاء را آموزش میبینند و در ۱۸ تا ۲۴ ماهگی قادر به تشخیص اشیاء شخصی میشوند. آنها در حدود همین سن، خصوصیات اشیاء را نیز یاد میگیرند (روانشناسان این خصوصیت را افوردنس مینامند) و در نتیجه، تفاوت بین امکان گام برداشتن روی یک زمین صاف را با عدم امکان قدم زدن روی یک صخره آموزش میبینند.
در نهایت معلوم شد که آزمایش دوبی و همکارانش این گونه اطلاعات آموختنی را درست به همان ترتیبی که کودکان آنها را یاد میگیرند، رتبهبندی کرده است. آنها میگویند:
اشاره به این نکته بسیار جالب توجه است که ترتیب افزایش دانش نوزادان با اهمیت دانش اولیه از اشیاء مختلف مطابقت دارد.
پژوهشگران در ادامه مینویسند:
پژوهش ما اولین قدمها را به سمت تعیین کمی اهمیت دانشهای مختلف اولیهای که انسانها در حل کردن بازیهای ویدئویی به کار میگیرند و درک اینکه چگونه این دانش عملکرد انسان را در انجام چنین وظایف پیچیدهای بهبود میدهد، برمیدارد.
این پژوهش شیوهی جالب توجهی پیش روی پژوهشگران کامپیوتری که مشغول کار روی هوش ماشینی هستند، قرار میدهد تا الگوریتمهای خود را با همان دانش اولیهای که انسانها در دوران کودکی به دست میآورند، برنامهنویسی کنند. با این شیوه، ماشینها قادر خواهند بودسرعت یادگیری خود را به اندازهی انسان افزایش دهند و حتی از ما پیشی بگیرند.
منبع: زومیت