Gripper می آموزد ... از طریق دادگاه و خطا

Dec 26, 2019

LearningGripper با الهام از دست انسان ، چهار انگشت دارد. با کمک نرم افزار یادگیری ماشین ، این گیرنده می تواند بر روی یک عمل پیچیده مانند چیدن و جهت یابی مقاله کار کند. موقعیت های اساسی انگشتان و عملکرد بازخورد از محیط باید از قبل مشخص شود. گیرنده تمام سکانس های حرکتی دیگر را با آزمایش و خطا می آموزد.

همانطور که در تصویر نشان داده شده ، وظیفه LearningGripper این بود که توپ را بچرخانید تا آرم در صدر باشد. در ابتدا گیرگیر توپ را به طور تصادفی جابجا کرد. یک سنسور موقعیت در توپ بازخوردی در مورد چقدر آرم از کف دست گیرنده ارائه می داد. LearningGripper پاداش را بر اساس سیستم امتیاز دریافت می کرد. نقاط در نرم افزار یادگیری ماشین پردازش می شوند. با گذشت زمان ، نرم افزار استراتژی حرکتی را توسعه داد و گیرنده یاد گرفت که در یک نقطه خاص چه اقداماتی را انجام دهد. این حرکت باعث می شود تا حد ممکن بازخورد مثبتی دریافت کند و در آخر راه حل موثقی برای کار خود پیدا کند. اگر استراتژی یک گیربکس به دیگری منتقل شود ، دسته دوم از آن به عنوان یک پایه دانش استفاده می کند تا استراتژی خاص خود را بهتر بشناسد.

LearningGripper نشان می دهد که چگونه سیستم ها در آینده می توانند کارهای پیچیده را بطور مستقل و بدون برنامه نویسی پیچیده حل کنند. سیستمهای خودآموزشی مانند LearningGripper می توانند بر روی یک خط تولید نصب شوند و سپس مجاز به بهینه سازی رفتار خود باشند