بهبود یادگیری ماشین
روشی موثرتر برای آموزش ماشینها برای موقعیتهای نامشخص و واقعی
محققان الگوریتمی را توسعه میدهند که تصمیم میگیرد چه زمانی یک ماشین «دانشآموز» باید معلم خود را دنبال کند و چه زمانی باید به تنهایی یاد بگیرد.
آدام زوه | دفتر خبر MIT
عنوان:محققان MIT و جاهای دیگر الگوریتمی را توسعه دادند که به طور خودکار و پویا تعیین می کند که آیا یادگیری ماشینی برای تکمیل یک کار باید سعی کند از معلم خود تقلید کند یا به تنهایی از طریق آزمون و خطا کاوش کند. این الگوریتم ماشینهای دانشآموزی شبیهسازی شده را قادر میسازد تا وظایف را سریعتر و موثرتر از سایر تکنیکها یاد بگیرند.
کسی که تنیس را یاد می گیرد ممکن است معلمی را استخدام کند تا به او کمک کند سریعتر یاد بگیرد. از آنجا که این معلم (امیدوارم) یک تنیس باز فوق العاده است، مواقعی وجود دارد که تلاش برای تقلید دقیقاً از معلم به دانش آموز کمک نمی کند تا یاد بگیرد. شاید معلم به هوا میپرد تا ماهرانه یک رگبار را برگرداند. دانشآموز که نمیتواند آن را کپی کند، در عوض چند حرکت دیگر را به تنهایی امتحان میکند تا زمانی که مهارتهایی را که ممکن است برای بازگشت رگبار به آن نیاز داشته باشد تسلط یابد.
دانشمندان کامپیوتر همچنین می توانند از سیستم های “معلم” برای آموزش ماشین دیگری برای تکمیل یک کار استفاده کنند. اما درست مانند یادگیری انسان، ماشین دانش آموز با این معضل مواجه است که بداند چه زمانی معلم را دنبال کند و چه زمانی به تنهایی کاوش کند. برای این منظور، محققان MIT و Technion، موسسه فناوری اسرائیل، الگوریتمی را توسعه دادهاند که به طور خودکار و مستقل تعیین میکند که دانشآموز چه زمانی باید از معلم تقلید کند (معروف به یادگیری تقلیدی) و چه زمانی باید از طریق آزمون و خطا یاد بگیرد. به عنوان تقویت یادگیری).
رویکرد پویا آنها به دانشآموز اجازه میدهد تا زمانی که معلم خیلی خوب است یا به اندازه کافی خوب نیست، از تقلید از معلم فاصله بگیرد، اما اگر انجام این کار به نتایج بهتر و یادگیری سریعتر دست مییابد، در مرحله بعد از فرآیند آموزشی به دنبال کردن معلم بازگردد.
هنگامی که محققان این رویکرد را در شبیهسازیها آزمایش کردند، دریافتند که ترکیب آنها از یادگیری آزمون و خطا و یادگیری تقلیدی دانشآموزان را قادر میسازد تا وظایف را به طور مؤثرتری نسبت به روشهایی که تنها از یک نوع یادگیری استفاده میکنند، یاد بگیرند.
این روش میتواند به محققان کمک کند فرآیند آموزش ماشینهایی را که در موقعیتهای نامشخص در دنیای واقعی مستقر میشوند، مانند رباتی که برای حرکت در داخل ساختمانی که قبلاً هرگز ندیده است، آموزش ببیند، بهبود بخشند.
این ترکیب یادگیری با آزمون و خطا و پیروی از معلم بسیار قدرتمند است. ایدان شنفلد، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله در مورد این تکنیک ، می گوید: این به الگوریتم ما توانایی حل وظایف بسیار دشواری را می دهد که با استفاده از هر یک از این تکنیک ها به صورت جداگانه قابل حل نیستند .
شنفلد مقاله را با نویسندگان همکار ژانگ وی هونگ، دانشجوی کارشناسی ارشد EECS نوشت. آویو تامار; استادیار مهندسی برق و علوم کامپیوتر در تکنیون؛ و نویسنده ارشد Pulkit Agrawal، مدیر آزمایشگاه هوش مصنوعی Improbable و استادیار در آزمایشگاه علوم کامپیوتر و هوش مصنوعی. این تحقیق در کنفرانس بین المللی یادگیری ماشین ارائه خواهد شد.
ایجاد تعادل
بسیاری از روشهای موجود که به دنبال ایجاد تعادل بین یادگیری تقلیدی و یادگیری تقویتی هستند، این کار را از طریق آزمون و خطا با نیروی بی رحم انجام میدهند. محققان ترکیبی از دو روش یادگیری را انتخاب میکنند، کل روش آموزشی را اجرا میکنند و سپس این فرآیند را تا زمانی که تعادل بهینه را پیدا کنند، تکرار میکنند. این ناکارآمد است و اغلب از نظر محاسباتی گران است که حتی امکان پذیر نیست.
آگراوال میگوید: «ما الگوریتمهایی میخواهیم که اصولی باشند، تا حد ممکن تعداد دستگیرهها را تنظیم کنند، و به عملکرد بالایی دست یابند – این اصول تحقیقات ما را هدایت کرده است.
برای رسیدن به این هدف، تیم به روشی متفاوت از کار قبلی به مشکل برخورد کرد. راه حل آنها شامل آموزش دو دانش آموز است: یکی با ترکیب وزنی از یادگیری تقویتی و یادگیری تقلیدی، و دیگری که فقط می تواند از یادگیری تقویتی برای یادگیری همان کار استفاده کند.
ایده اصلی تنظیم خودکار و پویا وزن اهداف یادگیری تقویتی و تقلیدی دانش آموز اول است. اینجا جایی است که شاگرد دوم وارد بازی می شود. الگوریتم محققین به طور مستمر دو دانش آموز را با هم مقایسه می کند. اگر کسی که از معلم استفاده میکند بهتر عمل میکند، الگوریتم برای آموزش دانشآموز وزن بیشتری بر یادگیری تقلیدی میگذارد، اما اگر کسی که فقط از آزمون و خطا استفاده میکند شروع به دریافت نتایج بهتر کند، بیشتر بر یادگیری از یادگیری تقویتی تمرکز میکند.
با تعیین پویا که کدام روش به نتایج بهتری می رسد، الگوریتم تطبیقی است و می تواند بهترین تکنیک را در طول فرآیند آموزش انتخاب کند. شنفلد میگوید به لطف این نوآوری، میتواند به طور مؤثرتری نسبت به روشهای دیگر که سازگار نیستند، به دانشآموزان آموزش دهد.
یکی از چالشهای اصلی در توسعه این الگوریتم این بود که مدتی طول کشید تا متوجه شویم که نباید این دو دانشآموز را مستقل آموزش دهیم. روشن شد که ما باید عوامل را به هم متصل کنیم تا آنها اطلاعاتی را به اشتراک بگذارند و سپس راه درستی برای پایهگذاری فنی این شهود پیدا کنیم.»
حل مشکلات سخت
محققان برای آزمایش رویکرد خود، بسیاری از آزمایشهای شبیهسازی شده آموزشی معلم-دانشآموز را راهاندازی کردند، مانند پیمایش در پیچ و خم گدازهای برای رسیدن به گوشه دیگر شبکه. در این حالت، معلم نقشه ای از کل شبکه دارد در حالی که دانش آموز فقط می تواند یک وصله در جلوی آن ببیند. الگوریتم آنها در تمام محیط های آزمایشی به میزان موفقیت تقریباً کاملی دست یافت و بسیار سریعتر از روش های دیگر بود.
برای اینکه الگوریتم خود را آزمایشی دشوارتر ارائه دهند، آنها شبیه سازی را شامل یک دست رباتیک با حسگرهای لمسی اما بدون دید راه اندازی کردند که باید قلم را به حالت صحیح تغییر جهت دهد. معلم به جهت گیری واقعی قلم دسترسی داشت، در حالی که دانش آموز فقط می توانست از حسگرهای لمسی برای تعیین جهت خودکار استفاده کند.
روش آنها بهتر از روش های دیگری بود که از یادگیری تقلیدی یا فقط از یادگیری تقویتی استفاده می کردند.
آگراوال می افزاید، جهت دهی مجدد اشیا یکی از بسیاری از کارهای دستکاری است که یک ربات خانگی آینده باید انجام دهد، چشم اندازی که آزمایشگاه هوش مصنوعی غیرممکن به سمت آن کار می کند.
یادگیری معلم و دانش آموز با موفقیت برای آموزش روبات ها برای انجام دستکاری اشیاء پیچیده و حرکت در شبیه سازی و سپس انتقال مهارت های آموخته شده به دنیای واقعی به کار گرفته شده است. در این روشها، معلم اطلاعات ممتازی دارد که از طریق شبیهسازی قابل دسترسی است که دانشآموز وقتی در دنیای واقعی مستقر میشود، نخواهد داشت. به عنوان مثال، معلم نقشه دقیق ساختمانی را که ربات دانش آموز آموزش می بیند تا تنها با استفاده از تصاویر گرفته شده توسط دوربین خود، جهت یابی کند، می داند.
«روشهای کنونی برای یادگیری دانشآموز-معلم در رباتیک، ناتوانی دانشآموز در تقلید از معلم را در نظر نمیگیرد و بنابراین عملکرد محدودی دارد. آگراوال می گوید روش جدید مسیری را برای ساخت ربات های برتر هموار می کند.
به غیر از روباتهای بهتر، محققان معتقدند الگوریتم آنها پتانسیل بهبود عملکرد در کاربردهای متنوعی را دارد که در آنها از تقلید یا یادگیری تقویتی استفاده میشود. به عنوان مثال، مدل های زبان بزرگ مانند GPT-4 در انجام طیف وسیعی از وظایف بسیار خوب هستند، بنابراین شاید بتوان از مدل بزرگ به عنوان معلم برای آموزش یک مدل کوچکتر و دانش آموز استفاده کرد تا حتی در یک کار خاص «بهتر» شود. . یکی دیگر از مسیرهای هیجان انگیز، بررسی شباهت ها و تفاوت های بین ماشین ها و انسان ها است که از معلمان مربوطه خود یاد می گیرند. به گفته محققان، چنین تحلیلی ممکن است به بهبود تجربه یادگیری کمک کند.
آبیشک گوپتا، استادیار دانشگاه واشنگتن، که درگیر این موضوع نبود، میگوید: «آنچه در مورد این رویکرد در مقایسه با روشهای مرتبط جالب است، این است که چقدر در انتخابهای پارامترهای مختلف قوی به نظر میرسد، و دامنههای متنوعی که نتایج امیدوارکنندهای در آن نشان میدهد. این کار. “در حالی که مجموعه فعلی نتایج عمدتاً در شبیهسازی هستند، من در مورد احتمالات آینده استفاده از این کار برای مشکلات مربوط به حافظه و استدلال با روشهای مختلف مانند حس لامسه بسیار هیجانزده هستم.”
“این کار یک رویکرد جالب برای استفاده مجدد از کار محاسباتی قبلی در یادگیری تقویتی ارائه می دهد. به ویژه، روش پیشنهادی آنها میتواند از سیاستهای معلمان غیربهینه بهعنوان راهنما استفاده کند و در عین حال از برنامهریزیهای فراپارامترهای دقیق مورد نیاز روشهای قبلی برای متعادل کردن اهداف تقلید از معلم در مقابل بهینهسازی پاداش کار اجتناب کند.» نیز در این تحقیق شرکت نداشت. “امید است که این کار باعث شود که یادگیری تقویتی تناسخ با سیاست های آموخته شده کمتر دست و پا گیر شود.”
این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی واتسون MIT-IBM، شرکت موتور هیوندای، برنامه حس مشترک ماشین دارپا و دفتر تحقیقات نیروی دریایی پشتیبانی شد.