تحقیقات نشان میدهد که حتی باهوشترین هوش مصنوعی نیز نمیتواند با پردازش بصری انسان مطابقت داشته باشد.
شبکههای عصبی کانولوشنال عمیق (DCNN) چیزها را به همان شکلی که انسانها میبینند از طریق (ادراک شکل پیکربندیشده)، که ممکن است در برنامههای هوش مصنوعی در دنیای واقعی مضر باشد، مشاهده نمیکنند.
این مطالعه توسط الدر، صاحب کرسی تحقیقاتی یورک در بینایی انسان و کامپیوتر و مدیر مشترک مرکز هوش مصنوعی و جامعه یورک، و نیکلاس بیکر، استادیار روانشناسی در کالج لویولا در شیکاگو و فوق دکترای سابق VISTA انجام شد.
همکار یورک، متوجه شد که مدلهای یادگیری عمیق نمیتوانند ماهیت پیکربندی ادراک شکل انسان را به تصویر بکشند.
به منظور بررسی چگونگی درک مغز انسان و DCNNها از ویژگیهای جسمی کل نگر و پیکربندی شده، این تحقیق از محرکهای بصری جدیدی به نام «فرانکنشتاین» استفاده کرد.
الدر میگوید: فرانکنشتاینها به سادگی اشیایی هستند که از هم جدا شدهاند و به اشتباه کنار هم قرار گرفتهاند. در نتیجه، آنها همه ویژگیهای محلی مناسب را دارند، اما در مکانهای اشتباه.
محققان دریافتند که در حالی که فرانکشتاینها سیستم بینایی انسان را اشتباه میگیرند، DCNNها این کار را نمیکنند و عدم حساسیت به ویژگیهای پیکربندی جسم را آشکار میکند.
الدر میگوید: نتایج ما توضیح میدهد که چرا مدلهای هوش مصنوعی عمیق تحت شرایط خاص شکست میخورند و به نیاز به در نظر گرفتن وظایف فراتر از تشخیص اشیا برای درک پردازش بصری در مغز اشاره میکنند. این مدلهای عمیق هنگام حل وظایف تشخیص پیچیده تمایل به «میانبر» دارند. در حالی که این میانبرها ممکن است در بسیاری از موارد کار کنند، اما میتوانند در برخی از برنامههای کاربردی هوش مصنوعی در دنیای واقعی که در حال حاضر با صنعت و شرکای دولتی خود روی آن کار میکنیم خطرناک باشند.
یکی از این کاربردها، سیستمهای ایمنی ویدئویی ترافیکی است: الدر توضیح میدهد: اشیاء در صحنههای ترافیکی شلوغ - وسایل نقلیه، دوچرخهها و عابران پیاده - مانع یکدیگر میشوند و بهعنوان مجموعهای از قطعات جدا شده به چشم راننده میرسند.
مغز باید آن قطعات را به درستی گروه بندی کند تا دستهها و مکانهای صحیح اشیاء را شناسایی کند. یک سیستم هوش مصنوعی برای نظارت بر ایمنی ترافیک که فقط قادر است قطعات را به صورت جداگانه درک کند، در این کار شکست خواهد خورد و احتمالاً خطرات را برای کاربران آسیبپذیر جاده درک نمیکند.
به گفته محققان، اصلاحات در آموزش و معماری با هدف شبیهتر کردن شبکهها به مغز منجر به پردازش پیکربندی نشد و هیچ یک از شبکهها نمیتوانستند قضاوتهای آزمایشی در مورد شی انسان را بهطور دقیق پیشبینی کنند.
الدر میگوید: ما حدس میزنیم که برای مطابقت با حساسیت قابل تنظیم انسان، شبکهها باید برای حل طیف وسیعتری از وظایف شی فراتر از تشخیص دستهها آموزش ببینند.