محققان «دانشگاه توکیو» و استارتاپ Alternative Machine یک ربات انساننما را توسعه دادهاند که میتواند دستورات زبان طبیعی را به طور مستقیم به عملکرد تبدیل کند. این ربات که Alter3 نام دارد به گونهای طراحی شده که بتواند از دانش گسترده مدلهای زبانی بزرگ (LLM) مانند GPT-4 برای انجام کارهای پیچیده مانند گرفتن عکس سلفی استفاده کند.
Alter3 از GPT-4 پشتیبانی میکند و با این وجود، میتواند به دستورات زبان طبیعی که یک عمل یا موقعیت را توصیف میکنند پاسخ دهد. مدل زبانی بزرگ این ربات از یک فریمورک برای برنامهریزی مجموعهای از اقدامات استفاده میکند که Alter3 برای رسیدن به هدف خود باید آنها را انجام دهد.
قابلیتهای ربات انساننما Alter3
در ویدیو زیر این ربات عملیات گرفتن سلفی با آیفون را شبیهسازی میکند:
در مرحله اول، مدل بهعنوان یک برنامهریز عمل میکند و باید مراحل مورد نیاز برای انجام یک عمل مورد نظر را تعیین کند.
در مرحله بعد دستورات موردنیاز ربات برای انجام هر یک از کارهای تولید میشود. سپس مدل هر یک از مراحل را به یک یا چند دستور API تبدیل میکند که برای ربات ارسال میشوند.
ویدیو زیر نیز عملیات پرتاب توپ توسط ربات را نشان میدهد:
محققان Alter3 را با چندین وظیفه مختلف از جمله کارهای روزمره مانند گرفتن عکس سلفی، نوشیدن چای و تقلید برخی رفتارها آزمایش کردهاند. آنها همچنین در آزمایشهای خود روی توانایی مدل برای پاسخگویی به سناریوهایی که نیاز به برنامهریزی دقیق دارند نیز تمرکز کردهاند.
دانش گسترده مدل GP-4 در زمینه رفتارها و اعمال انسان، باعثشده تا در چند سال گذشته رباتهای انساننما زیادی مانند Alter3 توسعه پیدا کنند که میتوانند برنامههای خود را به شیوهای واقعی انجام دهند. آزمایش محققان همچنین نشان میدهد که آنها میتوانند احساساتی مانند خجالت و شادی را تقلید کنند.