سال ۲۰۲۴ در دو حوزه هوش مصنوعی و رباتیک شوقانگیز خواهد می بود و از یادگیری گرفته تا طراحی محصول، شوق بسیاری در رابطه پتانسیل کاربردهای گوناگون این دو فناوری وجود دارد. محققان DeepMind Robotics گوگل یکی از معدود تیمهایی می باشند که پتانسیل این فضا را بازدید میکنند و اکنون با انتشار کردن یک پست تازه به تحقیقات خود در عرصه اراعه فهمیدن بهتر به رباتها اشاره کردهاند.
محققان گوگل در این پست که با گفتن «راه اندازی آینده رباتیک پیشرفته» انتشار شده است، به پیشرفتهای مختلفی درزمینه رباتیک اشاره کردهاند. AutoRT یکی از این سیستمها است که با منفعت گیری از یک مدل زبانی بصری (VLM) برای آگاهی بهتر از یک موقعیت معارفه شده است. در واقع AutoRT میتواند گروهی از رباتها که تجهیزبه دوربین می باشند را مدیریت کند تا بتواند مطرح محیط و شیء درون آن را به دست بیاورد.
درهمینحال، با پشتیبانی مدل زبانی بزرگ میتوان وظایفی را به ربات محول کرد که توسط سختافزار انجام خواهد شد. به نظر دانشمندان، LLMها علتخواهد شد که قابلیتهای بیشتری در دسترس رباتها قرار بگیرد و بهطور مؤثر بتوانند دستورات زبان طبیعی را فهمیدن کنند و درواقع نیاز به تواناییهای کدنویسی را افت میدهد.
محققان گوگل در طول ماههای قبل درحال آزمایش این سیستم بودهاند. AutoRT میتواند تا ۲۰ ربات و درمجموع ۵۲ دستگاه گوناگون را مدیریت کند. درمجموع DeepMind نزدیک به ۷۷ هزار آزمایش را که شامل بیشتر از ۶۰۰۰ ماموریت میبشود، انجام داده است.
آموزش رباتها با ویدیو

سیستم دیگر تیم گوگل RT-Trajectory نام دارد که با ورودیهایی ویدیویی به ربات آموزش میدهد. اکنون تیمهای بسیاری درحال بازدید منفعت گیری از ویدیوهای یوتوب برای آموزش رباتها می باشند، اما RT-Trajectory سطح جدیدی را برای این کار اراعه میکند.
به حرف های DeepMind، این سیستم در قیاس با مدل هوش مصنوعی RT-2 که اخیراً برای سخنزدن با رباتها معارفه شد، درزمینه آموزش دو برابر کارکرد بهتری داشته است؛ یعنی ۶۳ درصد در قیاس با ۲۹ درصد.
منبع