متا یک سیستم هوش مصنوعی مبتنی بر گفتار راه اندازی کرده که معتقد است میتواند خطرناک باشد و آن را در دسترس عموم قرار نمیدهد.
ابزار جدید که وویس باکس (Voicebox) نام دارد و میتوان آن را برای ایجاد خروجی در سبکهای مختلف، صداهای جدید از ابتدا و همچنین با یک نمونه تنظیم کرد، گفتار را به شش زبان میسازد.
متا میگوید که این یک پیشرفت بزرگ در سیستمهای گفتاری قبلی است. وویس باکس فقط میتواند به صوت خام و رونویسی داده شود و سپس برای اصلاح یک نمونه صوتی استفاده شود.
متا در اعلامیه خود مدعی شد که این سیستم گفتاری بسیار موثرتر از رقبای خود است. به عنوان مثال، وویس باکس میتواند کلماتی با نرخ خطای ۵.۹ درصد در مقایسه با ۱.۹ درصد از رقیب Vall-E تولید کند و این کار را تا ۲۰ برابر سریعتر انجام دهد. این سیستم، براساس مدل جدیدی به نام "Flow Matching" ساخته شده است. این مدل به سیستم اجازه میدهد تا از گفتاری که به دقت برچسبگذاری نشده، یاد بگیرد تا بتواند روی دادههای متنوعتر و بیشتر کار کند.
به گفته متا، وویس باکس روی ۵۰ هزار ساعت گفتار و رونوشتهایی که از کتابهای صوتی مالکیت عمومی به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی آمده بود، آموزش دیده است.
این سیستم میتواند برای ایجاد صدایی واقعی از تنها دو ثانیه صحبت استفاده شود. همچنین میتوان از آن برای ترجمه قسمتی از گفتار از یک زبان به زبان دیگر استفاده کرد.
همچنین میتواند در کارهای فنیتر، مانند ویرایش صدا مفید باشد.
اما متا گفت که خطرات وویس باکس به حدی است که این سیستم را به طور آزاد منتشر نخواهد کرد. این شرکت به آسیبهای خاصی اشاره نکرد، اما گفت که مانند سایر نوآوریهای جدید و قدرتمند هوش مصنوعی، این فناوری پتانسیل سواستفاده و آسیبهای ناخواسته را به همراه دارد.
گزارشهای متعدد هشدار دادهاند که چنین سیستمهایی میتوانند برای کپی کردن صدای افراد بدون رضایت آنها و به روشهایی که میتواند مضر باشد، مانند ایجاد ویدئوهای جعلی از رویدادهای خبری یا استفاده از صدای افراد برای تماسهای کلاهبرداری استفاده شود.
متا در بیانیهای گفت: موارد استفاده هیجانانگیز زیادی برای مدلهای گفتار تولیدی وجود دارد، اما به دلیل خطرات احتمالی سواستفاده، متا مدل یا کد وویس باکس را در حال حاضر در دسترس عموم قرار نمیدهد.