«گاتو» DeepMind متوسط است، پس چرا آنها آن را ساختند؟

شبکه عصبی «گاتو» DeepMind در کارهای متعددی از جمله کنترل بازوهای روباتیک که بلوکها را روی هم میگذارند، بازیهای Atari 2600 و زیرنویس کردن تصاویر برتر است.
DeepMind
دنیا به دیدن سرفصلهای جدیدترین دستاوردهای یادگیری عمیق هوش مصنوعی عادت کرده است. با این حال، آخرین دستاورد بخش DeepMind گوگل را میتوان به این صورت خلاصه کرد: «یک برنامه هوش مصنوعی که در بسیاری از کارها به خوبی کار میکند».
گاتو، به نام برنامه DeepMind، این هفته رونمایی شد به عنوان یک برنامه به اصطلاح چند وجهی، برنامه ای که می تواند بازی های ویدیویی، چت، نوشتن ترکیب، عکس ها، و کنترل بلوک های انباشته بازوی روباتیک انجام دهد. این یک شبکه عصبی است که می تواند با چندین نوع داده برای انجام چندین نوع کار کار کند.
اسکات رید، نویسنده اصلی این مقاله مینویسد: «با یک مجموعه وزن، گاتو میتواند در دیالوگها شرکت کند، تصاویر را زیرنویس کند، بلوکها را با یک بازوی روباتی واقعی روی هم بگذارد، در بازیهای آتاری از انسانها بهتر عمل کند، در محیطهای سه بعدی شبیهسازیشده حرکت کند، دستورالعملها را دنبال کند و موارد دیگر.» و همکاران در مقاله خود، “یک عامل عمومی”، در سرور پیش چاپ Arxiv ارسال شده است.
دمیس حسابیس، بنیانگذار DeepMind، تیم را تشویق کرد. فریاد زدن در یک توییت“کلی ترین نماینده ما تا کنون!! کار فوق العاده از تیم!”
همچنین: یک آزمایش جدید: آیا هوش مصنوعی واقعا گربهها یا سگها را میشناسد – یا هر چیز دیگری؟
تنها نکته این است که گاتو در بسیاری از کارها چندان عالی نیست.
از یک طرف، این برنامه می تواند بهتر از یک برنامه یادگیری ماشین اختصاصی در کنترل یک بازوی رباتیک Sawyer که بلوک ها را روی هم می چیند، عمل کند. از سوی دیگر، برای تصاویری که در بسیاری از موارد بسیار ضعیف هستند، شرح هایی تولید می کند. توانایی آن در گفت و گوی استاندارد چت با یک همکار انسانی نیز به همین ترتیب متوسط است و گاهی اوقات جملات متناقض و بی معنی را برمی انگیزد.
و اجرای بازیهای ویدیویی Atari 2600 کمتر از اکثر برنامههای اختصاصی ML است که برای رقابت در معیار طراحی شدهاند. محیط یادگیری Arcade.
چرا برنامهای میسازید که برخی کارها را به خوبی انجام میدهد و یک سری چیزهای دیگر را به خوبی انجام نمیدهد؟ به گفته نویسندگان، سابقه و انتظار.
سابقه ای برای تبدیل شدن انواع برنامه های عمومی تر در زمینه هوش مصنوعی وجود دارد، و این انتظار وجود دارد که افزایش قدرت محاسباتی در آینده کمبودها را جبران کند.
عمومیت می تواند در هوش مصنوعی پیروز شود. همانطور که نویسندگان به نقل از محقق هوش مصنوعی ریچارد ساتون اشاره می کنند، “از لحاظ تاریخی، مدل های عمومی که در محاسبات اهرمی بهتری دارند، در نهایت گرایش به سبقت گرفتن از رویکردهای تخصصی تری برای دامنه خاص دارند.”
همانطور که ساتن نوشت در پست وبلاگ خودش“بزرگترین درسی که می توان از 70 سال تحقیق هوش مصنوعی خواند این است که روش های کلی که از محاسبات اهرمی استفاده می کنند، در نهایت موثرترین و با اختلاف زیادی هستند.”
رید و تیم در یک پایان نامه رسمی می نویسند که “ما در اینجا این فرضیه را آزمایش می کنیم که آموزش عاملی که به طور کلی قادر به انجام تعداد زیادی کار است امکان پذیر است؛ و اینکه این عامل کلی را می توان با داده های اضافی کمی برای موفقیت در یک کار منطبق کرد. حتی تعداد بیشتری از وظایف.”
همچنین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند
مدل، در این مورد، در واقع، بسیار کلی است. این نسخه ای از Transformer است، نوع غالب مدل مبتنی بر توجه که اساس برنامه های متعدد از جمله GPT-3 شده است. یک ترانسفورماتور احتمال برخی از عناصر را با توجه به عناصری که آن را احاطه کرده اند، مانند کلمات در یک جمله، مدل می کند.
در مورد گاتو، دانشمندان DeepMind میتوانند از همان جستجوی احتمال شرطی در انواع دادههای متعدد استفاده کنند.
همانطور که رید و همکارانش وظیفه آموزش گاتو را توصیف می کنند،
در طول مرحله آموزش گاتو، دادهها از وظایف و روشهای مختلف در یک دنباله مسطح از توکنها، دستهبندی شده و توسط یک شبکه عصبی ترانسفورماتور شبیه به یک مدل زبان بزرگ پردازش میشوند. از دست دادن به گونهای پوشانده شده است که گاتو فقط اهداف عمل و متن را پیشبینی میکند.
به عبارت دیگر، گاتو با توکنها متفاوت رفتار نمیکند، چه کلماتی در یک چت باشند و چه بردارهای حرکتی در یک تمرین انباشته شدن بلوک. این همه یکسان است.

سناریوی تمرین گاتو
رید و همکاران 2022
در درون رید و فرضیه تیم مدفون یک نتیجه است، یعنی اینکه در نهایت قدرت محاسباتی بیشتر و بیشتر برنده خواهد شد. در حال حاضر، گاتو با زمان پاسخگویی بازوی ربات Sawyer که انباشت بلوک را انجام می دهد، محدود شده است. با 1.18 میلیارد پارامتر شبکه، Gato بسیار کوچکتر از مدل های بسیار بزرگ هوش مصنوعی مانند GPT-3 است. با بزرگتر شدن مدلهای یادگیری عمیق، انجام استنتاج منجر به تأخیر میشود که میتواند در دنیای غیر قطعی رباتهای دنیای واقعی شکست بخورد.
اما، رید و همکارانش انتظار دارند از این محدودیت فراتر رود زیرا سختافزار هوش مصنوعی در پردازش سریعتر میشود.
آنها نوشتند: “ما آموزش خود را در نقطه عملیاتی مقیاس مدل متمرکز می کنیم که امکان کنترل در زمان واقعی ربات های دنیای واقعی را فراهم می کند، در حال حاضر حدود 1.2B پارامتر در مورد Gato.” همانطور که سخت افزار و معماری مدل بهبود می یابد، این نقطه عملیاتی به طور طبیعی اندازه مدل قابل اجرا را افزایش می دهد و مدل های عمومی را بالاتر از منحنی قانون مقیاس بندی می برد.
از این رو، گاتو واقعاً مدلی است برای اینکه چگونه مقیاس محاسبات با بزرگتر کردن و بزرگتر کردن مدلهای عمومی، بردار اصلی توسعه یادگیری ماشین است. به عبارت دیگر بزرگتر بهتر است.

گاتو با افزایش اندازه شبکه عصبی در پارامترها بهتر می شود.
رید و همکاران 2022
و نویسندگان شواهدی برای این موضوع دارند. به نظر می رسد گاتو با بزرگتر شدن بهتر می شود. آنها میانگین نمرات را در تمام وظایف معیار برای سه اندازه مدل با توجه به پارامترها، 79 میلیون، 364 میلیون، و مدل اصلی، 1.18 میلیارد مقایسه کردند. نویسندگان می نویسند: “ما می توانیم ببینیم که برای تعداد توکن های معادل، بهبود عملکرد قابل توجهی با افزایش مقیاس وجود دارد.”
یک سوال جالب در آینده این است که آیا برنامه ای که عمومیت دارد از سایر انواع برنامه های هوش مصنوعی خطرناک تر است؟ نویسندگان زمان زیادی را در مقاله صرف بحث در مورد این واقعیت می کنند که خطرات بالقوه ای وجود دارد که هنوز به خوبی درک نشده است.
ایده برنامهای که وظایف متعددی را انجام میدهد، به افراد غیرعادی نوعی سازگاری انسانی را نشان میدهد، اما ممکن است تصور اشتباه خطرناکی باشد. رید و تیم می نویسند: «به عنوان مثال، تجسم فیزیکی می تواند منجر به انسان سازی عامل توسط کاربران شود، که منجر به اعتماد نابجا در مورد یک سیستم ناکارآمد شود، یا توسط بازیگران بد مورد سوء استفاده قرار گیرد.
“علاوه بر این، در حالی که انتقال دانش بین دامنه ای اغلب یک هدف در تحقیقات ML است، اگر رفتارهای خاصی (مانند مبارزه با بازی های آرکید) به زمینه اشتباه منتقل شود، می تواند نتایج غیرمنتظره و نامطلوبی ایجاد کند.”
از این رو، آنها می نویسند: “ملاحظات اخلاقی و ایمنی انتقال دانش ممکن است نیاز به تحقیقات جدید اساسی داشته باشد، زیرا سیستم های عمومی پیشرفت می کنند.”
(به عنوان یک یادداشت جانبی جالب، مقاله گاتو از طرحی برای توصیف ریسک استفاده میکند که توسط محقق سابق هوش مصنوعی گوگل، مارگارت میشل و همکارانش طراحی شده بود، به نام کارتهای مدل. کارتهای مدل خلاصهای مختصر از چیستی یک برنامه هوش مصنوعی، کارهایی که انجام میدهد و چیستی را ارائه میکنند. میشل سال گذشته نوشت که بر نحوه عملکرد آن تأثیر می گذارد او مجبور شد از گوگل خارج شود برای حمایت از همکار سابقش، تیمنیت گبرو، که نگرانی های اخلاقی او در مورد هوش مصنوعی با رهبری هوش مصنوعی گوگل در تضاد بود.)
گاتو به هیچ وجه در گرایش تعمیم خود منحصر به فرد نیست. این بخشی از گرایش گسترده به تعمیم و مدل های بزرگتر است که از سطل های اسب بخار استفاده می کنند. جهان برای اولین بار طعم تمایل گوگل به این سمت را چشید تابستان قبل، با شبکه عصبی “Perceiver” گوگل که وظایف Transformer متن را با تصاویر، صدا و مختصات فضایی LiDAR ترکیب می کرد.
در میان همتایان آن، palm، مدل زبان مسیرها، است. امسال توسط دانشمندان گوگل معرفی شدیک مدل پارامتری 540 میلیاردی که از فناوری جدیدی برای هماهنگ کردن هزاران تراشه استفاده می کند. معروف به مسیرها، همچنین در گوگل اختراع شد. یک شبکه عصبی در ژانویه منتشر شد توسط Meta که “data2vec” نامیده میشود، از Transformers برای دادههای تصویر، شکلهای موج صوتی گفتاری و نمایش زبان متن استفاده میکند.
به نظر می رسد آنچه در مورد گاتو جدید است، قصد گرفتن هوش مصنوعی مورد استفاده برای کارهای غیر رباتیک و سوق دادن آن به قلمرو رباتیک است.
سازندگان گاتو، با اشاره به دستاوردهای Pathways و سایر رویکردهای کلی، دستاورد نهایی را در هوش مصنوعی می بینند که می تواند در دنیای واقعی و با هر نوع وظیفه ای عمل کند.
کار آینده باید در نظر بگیرد که چگونه این قابلیتهای متن را در یک عامل کاملاً کلی که میتواند در زمان واقعی در دنیای واقعی، در محیطها و تجسمهای متنوع عمل کند، متحد کند.»
پس می توانید گاتو را گام مهمی در مسیر حل در نظر بگیرید سخت ترین مشکل هوش مصنوعی، رباتیک.