بهبود یادگیری ماشین

روشی موثرتر برای آموزش ماشین‌ها برای موقعیت‌های نامشخص و واقعی

محققان الگوریتمی را توسعه می‌دهند که تصمیم می‌گیرد چه زمانی یک ماشین «دانش‌آموز» باید معلم خود را دنبال کند و چه زمانی باید به تنهایی یاد بگیرد.

آدام زوه | دفتر خبر MIT

عنوان:محققان MIT و جاهای دیگر الگوریتمی را توسعه دادند که به طور خودکار و پویا تعیین می کند که آیا یادگیری ماشینی برای تکمیل یک کار باید سعی کند از معلم خود تقلید کند یا به تنهایی از طریق آزمون و خطا کاوش کند. این الگوریتم ماشین‌های دانش‌آموزی شبیه‌سازی شده را قادر می‌سازد تا وظایف را سریع‌تر و موثرتر از سایر تکنیک‌ها یاد بگیرند.

کسی که تنیس را یاد می گیرد ممکن است معلمی را استخدام کند تا به او کمک کند سریعتر یاد بگیرد. از آنجا که این معلم (امیدوارم) یک تنیس باز فوق العاده است، مواقعی وجود دارد که تلاش برای تقلید دقیقاً از معلم به دانش آموز کمک نمی کند تا یاد بگیرد. شاید معلم به هوا می‌پرد تا ماهرانه یک رگبار را برگرداند. دانش‌آموز که نمی‌تواند آن را کپی کند، در عوض چند حرکت دیگر را به تنهایی امتحان می‌کند تا زمانی که مهارت‌هایی را که ممکن است برای بازگشت رگبار به آن نیاز داشته باشد تسلط یابد.

دانشمندان کامپیوتر همچنین می توانند از سیستم های “معلم” برای آموزش ماشین دیگری برای تکمیل یک کار استفاده کنند. اما درست مانند یادگیری انسان، ماشین دانش آموز با این معضل مواجه است که بداند چه زمانی معلم را دنبال کند و چه زمانی به تنهایی کاوش کند. برای این منظور، محققان MIT و Technion، موسسه فناوری اسرائیل، الگوریتمی را توسعه داده‌اند که به طور خودکار و مستقل تعیین می‌کند که دانش‌آموز چه زمانی باید از معلم تقلید کند (معروف به یادگیری تقلیدی) و چه زمانی باید از طریق آزمون و خطا یاد بگیرد. به عنوان تقویت یادگیری).

رویکرد پویا آنها به دانش‌آموز اجازه می‌دهد تا زمانی که معلم خیلی خوب است یا به اندازه کافی خوب نیست، از تقلید از معلم فاصله بگیرد، اما اگر انجام این کار به نتایج بهتر و یادگیری سریع‌تر دست می‌یابد، در مرحله بعد از فرآیند آموزشی به دنبال کردن معلم بازگردد.

هنگامی که محققان این رویکرد را در شبیه‌سازی‌ها آزمایش کردند، دریافتند که ترکیب آنها از یادگیری آزمون و خطا و یادگیری تقلیدی دانش‌آموزان را قادر می‌سازد تا وظایف را به طور مؤثرتری نسبت به روش‌هایی که تنها از یک نوع یادگیری استفاده می‌کنند، یاد بگیرند.

این روش می‌تواند به محققان کمک کند فرآیند آموزش ماشین‌هایی را که در موقعیت‌های نامشخص در دنیای واقعی مستقر می‌شوند، مانند رباتی که برای حرکت در داخل ساختمانی که قبلاً هرگز ندیده است، آموزش ببیند، بهبود بخشند.

این ترکیب یادگیری با آزمون و خطا و پیروی از معلم بسیار قدرتمند است. ایدان شنفلد، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله در مورد این تکنیک ، می گوید: این به الگوریتم ما توانایی حل وظایف بسیار دشواری را می دهد که با استفاده از هر یک از این تکنیک ها به صورت جداگانه قابل حل نیستند .

شنفلد مقاله را با نویسندگان همکار ژانگ وی هونگ، دانشجوی کارشناسی ارشد EECS نوشت. آویو تامار; استادیار مهندسی برق و علوم کامپیوتر در تکنیون؛ و نویسنده ارشد Pulkit Agrawal، مدیر آزمایشگاه هوش مصنوعی Improbable و استادیار در آزمایشگاه علوم کامپیوتر و هوش مصنوعی. این تحقیق در کنفرانس بین المللی یادگیری ماشین ارائه خواهد شد.

ایجاد تعادل

بسیاری از روش‌های موجود که به دنبال ایجاد تعادل بین یادگیری تقلیدی و یادگیری تقویتی هستند، این کار را از طریق آزمون و خطا با نیروی بی رحم انجام می‌دهند. محققان ترکیبی از دو روش یادگیری را انتخاب می‌کنند، کل روش آموزشی را اجرا می‌کنند و سپس این فرآیند را تا زمانی که تعادل بهینه را پیدا کنند، تکرار می‌کنند. این ناکارآمد است و اغلب از نظر محاسباتی گران است که حتی امکان پذیر نیست.

آگراوال می‌گوید: «ما الگوریتم‌هایی می‌خواهیم که اصولی باشند، تا حد ممکن تعداد دستگیره‌ها را تنظیم کنند، و به عملکرد بالایی دست یابند – این اصول تحقیقات ما را هدایت کرده است.

برای رسیدن به این هدف، تیم به روشی متفاوت از کار قبلی به مشکل برخورد کرد. راه حل آنها شامل آموزش دو دانش آموز است: یکی با ترکیب وزنی از یادگیری تقویتی و یادگیری تقلیدی، و دیگری که فقط می تواند از یادگیری تقویتی برای یادگیری همان کار استفاده کند.

ایده اصلی تنظیم خودکار و پویا وزن اهداف یادگیری تقویتی و تقلیدی دانش آموز اول است. اینجا جایی است که شاگرد دوم وارد بازی می شود. الگوریتم محققین به طور مستمر دو دانش آموز را با هم مقایسه می کند. اگر کسی که از معلم استفاده می‌کند بهتر عمل می‌کند، الگوریتم برای آموزش دانش‌آموز وزن بیشتری بر یادگیری تقلیدی می‌گذارد، اما اگر کسی که فقط از آزمون و خطا استفاده می‌کند شروع به دریافت نتایج بهتر کند، بیشتر بر یادگیری از یادگیری تقویتی تمرکز می‌کند.

با تعیین پویا که کدام روش به نتایج بهتری می رسد، الگوریتم تطبیقی ​​است و می تواند بهترین تکنیک را در طول فرآیند آموزش انتخاب کند. شنفلد می‌گوید به لطف این نوآوری، می‌تواند به طور مؤثرتری نسبت به روش‌های دیگر که سازگار نیستند، به دانش‌آموزان آموزش دهد.

یکی از چالش‌های اصلی در توسعه این الگوریتم این بود که مدتی طول کشید تا متوجه شویم که نباید این دو دانش‌آموز را مستقل آموزش دهیم. روشن شد که ما باید عوامل را به هم متصل کنیم تا آنها اطلاعاتی را به اشتراک بگذارند و سپس راه درستی برای پایه‌گذاری فنی این شهود پیدا کنیم.»

حل مشکلات سخت

محققان برای آزمایش رویکرد خود، بسیاری از آزمایش‌های شبیه‌سازی شده آموزشی معلم-دانش‌آموز را راه‌اندازی کردند، مانند پیمایش در پیچ و خم گدازه‌ای برای رسیدن به گوشه دیگر شبکه. در این حالت، معلم نقشه ای از کل شبکه دارد در حالی که دانش آموز فقط می تواند یک وصله در جلوی آن ببیند. الگوریتم آنها در تمام محیط های آزمایشی به میزان موفقیت تقریباً کاملی دست یافت و بسیار سریعتر از روش های دیگر بود.

برای اینکه الگوریتم خود را آزمایشی دشوارتر ارائه دهند، آنها شبیه سازی را شامل یک دست رباتیک با حسگرهای لمسی اما بدون دید راه اندازی کردند که باید قلم را به حالت صحیح تغییر جهت دهد. معلم به جهت گیری واقعی قلم دسترسی داشت، در حالی که دانش آموز فقط می توانست از حسگرهای لمسی برای تعیین جهت خودکار استفاده کند.

روش آنها بهتر از روش های دیگری بود که از یادگیری تقلیدی یا فقط از یادگیری تقویتی استفاده می کردند.

آگراوال می افزاید، جهت دهی مجدد اشیا یکی از بسیاری از کارهای دستکاری است که یک ربات خانگی آینده باید انجام دهد، چشم اندازی که آزمایشگاه هوش مصنوعی غیرممکن به سمت آن کار می کند.

یادگیری معلم و دانش آموز با موفقیت برای آموزش روبات ها برای انجام دستکاری اشیاء پیچیده و حرکت در شبیه سازی و سپس انتقال مهارت های آموخته شده به دنیای واقعی به کار گرفته شده است. در این روش‌ها، معلم اطلاعات ممتازی دارد که از طریق شبیه‌سازی قابل دسترسی است که دانش‌آموز وقتی در دنیای واقعی مستقر می‌شود، نخواهد داشت. به عنوان مثال، معلم نقشه دقیق ساختمانی را که ربات دانش آموز آموزش می بیند تا تنها با استفاده از تصاویر گرفته شده توسط دوربین خود، جهت یابی کند، می داند.

«روش‌های کنونی برای یادگیری دانش‌آموز-معلم در رباتیک، ناتوانی دانش‌آموز در تقلید از معلم را در نظر نمی‌گیرد و بنابراین عملکرد محدودی دارد. آگراوال می گوید روش جدید مسیری را برای ساخت ربات های برتر هموار می کند.

به غیر از روبات‌های بهتر، محققان معتقدند الگوریتم آن‌ها پتانسیل بهبود عملکرد در کاربردهای متنوعی را دارد که در آن‌ها از تقلید یا یادگیری تقویتی استفاده می‌شود. به عنوان مثال، مدل های زبان بزرگ مانند GPT-4 در انجام طیف وسیعی از وظایف بسیار خوب هستند، بنابراین شاید بتوان از مدل بزرگ به عنوان معلم برای آموزش یک مدل کوچکتر و دانش آموز استفاده کرد تا حتی در یک کار خاص «بهتر» شود. . یکی دیگر از مسیرهای هیجان انگیز، بررسی شباهت ها و تفاوت های بین ماشین ها و انسان ها است که از معلمان مربوطه خود یاد می گیرند. به گفته محققان، چنین تحلیلی ممکن است به بهبود تجربه یادگیری کمک کند.

آبیشک گوپتا، استادیار دانشگاه واشنگتن، که درگیر این موضوع نبود، می‌گوید: «آنچه در مورد این رویکرد در مقایسه با روش‌های مرتبط جالب است، این است که چقدر در انتخاب‌های پارامترهای مختلف قوی به نظر می‌رسد، و دامنه‌های متنوعی که نتایج امیدوارکننده‌ای در آن نشان می‌دهد. این کار. “در حالی که مجموعه فعلی نتایج عمدتاً در شبیه‌سازی هستند، من در مورد احتمالات آینده استفاده از این کار برای مشکلات مربوط به حافظه و استدلال با روش‌های مختلف مانند حس لامسه بسیار هیجان‌زده هستم.” 

“این کار یک رویکرد جالب برای استفاده مجدد از کار محاسباتی قبلی در یادگیری تقویتی ارائه می دهد. به ویژه، روش پیشنهادی آنها می‌تواند از سیاست‌های معلمان غیربهینه به‌عنوان راهنما استفاده کند و در عین حال از برنامه‌ریزی‌های فراپارامترهای دقیق مورد نیاز روش‌های قبلی برای متعادل کردن اهداف تقلید از معلم در مقابل بهینه‌سازی پاداش کار اجتناب کند.» نیز در این تحقیق شرکت نداشت. “امید است که این کار باعث شود که یادگیری تقویتی تناسخ با سیاست های آموخته شده کمتر دست و پا گیر شود.”

این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی واتسون MIT-IBM، شرکت موتور هیوندای، برنامه حس مشترک ماشین دارپا و دفتر تحقیقات نیروی دریایی پشتیبانی شد.

امتیاز بدهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *