«گاتو» DeepMind متوسط ​​است، پس چرا آنها آن را ساختند؟

0 0
Read Time:8 Minute, 35 Second

deepmind-gato-slash-image-closer-in.png

شبکه عصبی «گاتو» DeepMind در کارهای متعددی از جمله کنترل بازوهای روباتیک که بلوک‌ها را روی هم می‌گذارند، بازی‌های Atari 2600 و زیرنویس کردن تصاویر برتر است.

DeepMind

دنیا به دیدن سرفصل‌های جدیدترین دستاوردهای یادگیری عمیق هوش مصنوعی عادت کرده است. با این حال، آخرین دستاورد بخش DeepMind گوگل را می‌توان به این صورت خلاصه کرد: «یک برنامه هوش مصنوعی که در بسیاری از کارها به خوبی کار می‌کند».

گاتو، به نام برنامه DeepMind، این هفته رونمایی شد به عنوان یک برنامه به اصطلاح چند وجهی، برنامه ای که می تواند بازی های ویدیویی، چت، نوشتن ترکیب، عکس ها، و کنترل بلوک های انباشته بازوی روباتیک انجام دهد. این یک شبکه عصبی است که می تواند با چندین نوع داده برای انجام چندین نوع کار کار کند.

اسکات رید، نویسنده اصلی این مقاله می‌نویسد: «با یک مجموعه وزن، گاتو می‌تواند در دیالوگ‌ها شرکت کند، تصاویر را زیرنویس کند، بلوک‌ها را با یک بازوی روباتی واقعی روی هم بگذارد، در بازی‌های آتاری از انسان‌ها بهتر عمل کند، در محیط‌های سه بعدی شبیه‌سازی‌شده حرکت کند، دستورالعمل‌ها را دنبال کند و موارد دیگر.» و همکاران در مقاله خود، “یک عامل عمومی”، در سرور پیش چاپ Arxiv ارسال شده است.

دمیس حسابیس، بنیانگذار DeepMind، تیم را تشویق کرد. فریاد زدن در یک توییت“کلی ترین نماینده ما تا کنون!! کار فوق العاده از تیم!”

همچنین: یک آزمایش جدید: آیا هوش مصنوعی واقعا گربه‌ها یا سگ‌ها را می‌شناسد – یا هر چیز دیگری؟

تنها نکته این است که گاتو در بسیاری از کارها چندان عالی نیست.

از یک طرف، این برنامه می تواند بهتر از یک برنامه یادگیری ماشین اختصاصی در کنترل یک بازوی رباتیک Sawyer که بلوک ها را روی هم می چیند، عمل کند. از سوی دیگر، برای تصاویری که در بسیاری از موارد بسیار ضعیف هستند، شرح هایی تولید می کند. توانایی آن در گفت و گوی استاندارد چت با یک همکار انسانی نیز به همین ترتیب متوسط ​​است و گاهی اوقات جملات متناقض و بی معنی را برمی انگیزد.

و اجرای بازی‌های ویدیویی Atari 2600 کمتر از اکثر برنامه‌های اختصاصی ML است که برای رقابت در معیار طراحی شده‌اند. محیط یادگیری Arcade.

چرا برنامه‌ای می‌سازید که برخی کارها را به خوبی انجام می‌دهد و یک سری چیزهای دیگر را به خوبی انجام نمی‌دهد؟ به گفته نویسندگان، سابقه و انتظار.

سابقه ای برای تبدیل شدن انواع برنامه های عمومی تر در زمینه هوش مصنوعی وجود دارد، و این انتظار وجود دارد که افزایش قدرت محاسباتی در آینده کمبودها را جبران کند.

عمومیت می تواند در هوش مصنوعی پیروز شود. همانطور که نویسندگان به نقل از محقق هوش مصنوعی ریچارد ساتون اشاره می کنند، “از لحاظ تاریخی، مدل های عمومی که در محاسبات اهرمی بهتری دارند، در نهایت گرایش به سبقت گرفتن از رویکردهای تخصصی تری برای دامنه خاص دارند.”

همانطور که ساتن نوشت در پست وبلاگ خودش“بزرگترین درسی که می توان از 70 سال تحقیق هوش مصنوعی خواند این است که روش های کلی که از محاسبات اهرمی استفاده می کنند، در نهایت موثرترین و با اختلاف زیادی هستند.”

رید و تیم در یک پایان نامه رسمی می نویسند که “ما در اینجا این فرضیه را آزمایش می کنیم که آموزش عاملی که به طور کلی قادر به انجام تعداد زیادی کار است امکان پذیر است؛ و اینکه این عامل کلی را می توان با داده های اضافی کمی برای موفقیت در یک کار منطبق کرد. حتی تعداد بیشتری از وظایف.”

همچنین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند

مدل، در این مورد، در واقع، بسیار کلی است. این نسخه ای از Transformer است، نوع غالب مدل مبتنی بر توجه که اساس برنامه های متعدد از جمله GPT-3 شده است. یک ترانسفورماتور احتمال برخی از عناصر را با توجه به عناصری که آن را احاطه کرده اند، مانند کلمات در یک جمله، مدل می کند.

در مورد گاتو، دانشمندان DeepMind می‌توانند از همان جستجوی احتمال شرطی در انواع داده‌های متعدد استفاده کنند.

همانطور که رید و همکارانش وظیفه آموزش گاتو را توصیف می کنند،

در طول مرحله آموزش گاتو، داده‌ها از وظایف و روش‌های مختلف در یک دنباله مسطح از توکن‌ها، دسته‌بندی شده و توسط یک شبکه عصبی ترانسفورماتور شبیه به یک مدل زبان بزرگ پردازش می‌شوند. از دست دادن به گونه‌ای پوشانده شده است که گاتو فقط اهداف عمل و متن را پیش‌بینی می‌کند.

به عبارت دیگر، گاتو با توکن‌ها متفاوت رفتار نمی‌کند، چه کلماتی در یک چت باشند و چه بردارهای حرکتی در یک تمرین انباشته شدن بلوک. این همه یکسان است.

deepmind-how-gato-is-trained.png

سناریوی تمرین گاتو

رید و همکاران 2022

در درون رید و فرضیه تیم مدفون یک نتیجه است، یعنی اینکه در نهایت قدرت محاسباتی بیشتر و بیشتر برنده خواهد شد. در حال حاضر، گاتو با زمان پاسخگویی بازوی ربات Sawyer که انباشت بلوک را انجام می دهد، محدود شده است. با 1.18 میلیارد پارامتر شبکه، Gato بسیار کوچکتر از مدل های بسیار بزرگ هوش مصنوعی مانند GPT-3 است. با بزرگ‌تر شدن مدل‌های یادگیری عمیق، انجام استنتاج منجر به تأخیر می‌شود که می‌تواند در دنیای غیر قطعی ربات‌های دنیای واقعی شکست بخورد.

اما، رید و همکارانش انتظار دارند از این محدودیت فراتر رود زیرا سخت‌افزار هوش مصنوعی در پردازش سریع‌تر می‌شود.

آنها نوشتند: “ما آموزش خود را در نقطه عملیاتی مقیاس مدل متمرکز می کنیم که امکان کنترل در زمان واقعی ربات های دنیای واقعی را فراهم می کند، در حال حاضر حدود 1.2B پارامتر در مورد Gato.” همانطور که سخت افزار و معماری مدل بهبود می یابد، این نقطه عملیاتی به طور طبیعی اندازه مدل قابل اجرا را افزایش می دهد و مدل های عمومی را بالاتر از منحنی قانون مقیاس بندی می برد.

از این رو، گاتو واقعاً مدلی است برای اینکه چگونه مقیاس محاسبات با بزرگ‌تر کردن و بزرگ‌تر کردن مدل‌های عمومی، بردار اصلی توسعه یادگیری ماشین است. به عبارت دیگر بزرگتر بهتر است.

deepmind-gets-better-with-scale.png

گاتو با افزایش اندازه شبکه عصبی در پارامترها بهتر می شود.

رید و همکاران 2022

و نویسندگان شواهدی برای این موضوع دارند. به نظر می رسد گاتو با بزرگتر شدن بهتر می شود. آنها میانگین نمرات را در تمام وظایف معیار برای سه اندازه مدل با توجه به پارامترها، 79 میلیون، 364 میلیون، و مدل اصلی، 1.18 میلیارد مقایسه کردند. نویسندگان می نویسند: “ما می توانیم ببینیم که برای تعداد توکن های معادل، بهبود عملکرد قابل توجهی با افزایش مقیاس وجود دارد.”

یک سوال جالب در آینده این است که آیا برنامه ای که عمومیت دارد از سایر انواع برنامه های هوش مصنوعی خطرناک تر است؟ نویسندگان زمان زیادی را در مقاله صرف بحث در مورد این واقعیت می کنند که خطرات بالقوه ای وجود دارد که هنوز به خوبی درک نشده است.

ایده برنامه‌ای که وظایف متعددی را انجام می‌دهد، به افراد غیرعادی نوعی سازگاری انسانی را نشان می‌دهد، اما ممکن است تصور اشتباه خطرناکی باشد. رید و تیم می نویسند: «به عنوان مثال، تجسم فیزیکی می تواند منجر به انسان سازی عامل توسط کاربران شود، که منجر به اعتماد نابجا در مورد یک سیستم ناکارآمد شود، یا توسط بازیگران بد مورد سوء استفاده قرار گیرد.

“علاوه بر این، در حالی که انتقال دانش بین دامنه ای اغلب یک هدف در تحقیقات ML است، اگر رفتارهای خاصی (مانند مبارزه با بازی های آرکید) به زمینه اشتباه منتقل شود، می تواند نتایج غیرمنتظره و نامطلوبی ایجاد کند.”

از این رو، آنها می نویسند: “ملاحظات اخلاقی و ایمنی انتقال دانش ممکن است نیاز به تحقیقات جدید اساسی داشته باشد، زیرا سیستم های عمومی پیشرفت می کنند.”

(به عنوان یک یادداشت جانبی جالب، مقاله گاتو از طرحی برای توصیف ریسک استفاده می‌کند که توسط محقق سابق هوش مصنوعی گوگل، مارگارت میشل و همکارانش طراحی شده بود، به نام کارت‌های مدل. کارت‌های مدل خلاصه‌ای مختصر از چیستی یک برنامه هوش مصنوعی، کارهایی که انجام می‌دهد و چیستی را ارائه می‌کنند. میشل سال گذشته نوشت که بر نحوه عملکرد آن تأثیر می گذارد او مجبور شد از گوگل خارج شود برای حمایت از همکار سابقش، تیمنیت گبرو، که نگرانی های اخلاقی او در مورد هوش مصنوعی با رهبری هوش مصنوعی گوگل در تضاد بود.)

گاتو به هیچ وجه در گرایش تعمیم خود منحصر به فرد نیست. این بخشی از گرایش گسترده به تعمیم و مدل های بزرگتر است که از سطل های اسب بخار استفاده می کنند. جهان برای اولین بار طعم تمایل گوگل به این سمت را چشید تابستان قبل، با شبکه عصبی “Perceiver” گوگل که وظایف Transformer متن را با تصاویر، صدا و مختصات فضایی LiDAR ترکیب می کرد.

همچنین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.

در میان همتایان آن، palm، مدل زبان مسیرها، است. امسال توسط دانشمندان گوگل معرفی شدیک مدل پارامتری 540 میلیاردی که از فناوری جدیدی برای هماهنگ کردن هزاران تراشه استفاده می کند. معروف به مسیرها، همچنین در گوگل اختراع شد. یک شبکه عصبی در ژانویه منتشر شد توسط Meta که “data2vec” نامیده می‌شود، از Transformers برای داده‌های تصویر، شکل‌های موج صوتی گفتاری و نمایش زبان متن استفاده می‌کند.

به نظر می رسد آنچه در مورد گاتو جدید است، قصد گرفتن هوش مصنوعی مورد استفاده برای کارهای غیر رباتیک و سوق دادن آن به قلمرو رباتیک است.

سازندگان گاتو، با اشاره به دستاوردهای Pathways و سایر رویکردهای کلی، دستاورد نهایی را در هوش مصنوعی می بینند که می تواند در دنیای واقعی و با هر نوع وظیفه ای عمل کند.

کار آینده باید در نظر بگیرد که چگونه این قابلیت‌های متن را در یک عامل کاملاً کلی که می‌تواند در زمان واقعی در دنیای واقعی، در محیط‌ها و تجسم‌های متنوع عمل کند، متحد کند.»

پس می توانید گاتو را گام مهمی در مسیر حل در نظر بگیرید سخت ترین مشکل هوش مصنوعی، رباتیک.




لینک منبع

Happy
Happy
0 %
Sad
Sad
0 %
Excited
Excited
0 %
Sleepy
Sleepy
0 %
Angry
Angry
0 %
Surprise
Surprise
0 %

نوشته های مشابه

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا