Meta* представила мультимодальную модель ИИ для перевода речи и текста

Опубликовано Авг 23, 2023

Компания Meta* представила мультимодальную модель искусственного интеллекта, которая умеет распознавать речь и переводить ее почти на 100 языков.

Сейчас читают

AI-поиск меняет правила: сайты начали терять переходы из…

Май 24, 2026

Почему прогнозы стали частью повседневного медиапотребления

Янв 20, 2026

Кроме этого нейросеть SeamlessM4T умеет создавать из текста речь на 35 языках. А также распознавать, когда человек переходит с одного языка на другой или использует в речи сразу несколько.

SeamlessM4T опирается на результаты большого количества языковых проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников и показывает невероятные результаты. Нейросеть поддерживает:

Распознавание речи почти на 100 языках;

Преобразование речи в текст почти для 100 языков ввода и вывода;

Преобразование речи в речь, поддержка почти 100 языков ввода и 36 (включая английский и русский) языков вывода;

Текстовый перевод почти на 100 языков;

Преобразование текста в речь, поддержка почти 100 языков ввода и 35 языков вывода.

На данный момент момент SeamlessM4T доступна исследователям и разработчикам под соответствующей лицензией. Увидеть работу нейросети можно здесь.

Также компания опубликовала метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов согласования речи и текста.

Подробнее – в блоге Meta AI.

*Компания Meta признана экстремистской организацией и запрещена на территории РФ

Источник