مدل جدید هوش مصنوعی «متا» با تماشای ویدئو آموزش میبیند
محققان هوش مصنوعی «متا» مدل جدیدی را منتشر کردهاند که به روشی مشابه با مدلهای زبان بزرگ (LLM) آموزش داده شده است، اما به جای یادگیری از کلمات نوشتهشده، از ویدئو یاد میگیرد.
به گزارش
خبرگزاری صداوسیما به نقل از FastCompany ، مدلهای زبانی بزرگ یا LLM ها معمولاً با استفاده از هزاران جمله یا عبارت آموزش میبینند که در آنها برخی از کلمات حذف شدهاند و مدل را وادار میکند بهترین کلمات را برای پر کردن جاهای خالی پیدا کند. با انجام این کار، مدل زبانی یک شناخت سطحی از جهان پیدا میکند.
«یان لکون» مدیر گروه تحقیقات بنیادی هوش مصنوعی «متا» پیشنهاد کرده که مدلهای هوش مصنوعی با استفاده از تکنیک مشابه در فیلمهای ویدئویی آموزش ببینند.
«لکون» در این باره اعلام کرده که هدف ما ساختن هوش ماشینی پیشرفتهای است که میتواند مانند انسانها بیشتر بیاموزد.
تجسم نظریه «لکون» یک مدل تحقیقاتی به نام معماری مشترک پیش بینی کننده تعبیه جایگذاری ویدئو (V-JEPA) است که با پردازش ویدئوی بدون برچسب و پی بردن به اتفاقاتی که احتمالاً در قسمت خاصی از صفحه نمایش در چند ثانیه سیاه شدن آن رخ میدهد، آموزش میبیند.
(V-JEPA) یک مدل مولد نیست بلکه یک مدل مفهومی درونی از جهان ایجاد میکند.
محققان «متا» میگویند که (V-JEPA) در تشخیص و درک تعاملات بسیار دقیق بین اشیاء عالی است و میتواند دستاوردهای بسیاری برای «متا» و اکوسیستم گستردهتر هوش مصنوعی داشته باشد.