Все, что вы хотели знать о VALL-E от Microsoft

Все, что вы хотели знать о VALL-E от Microsoft

Microsoft разработала VALL-E — модель искусственного интеллекта для преобразования текста в речь, которая имитирует любой голос, просто прослушивая аудиозапись продолжительностью 3 секунды.

Прежде чем вы продолжите чтение, я хотел бы пояснить, что ВАЛЛ-И отличается от ВАЛЛ-И. Хотя некоторые из нас произносят оба слова одинаково, между ними есть большая разница. ВАЛЛ-И — анимационный фильм Disney-Pixar, выпущенный в 2008 году, в котором фигурирует симпатичный и дружелюбный робот с искусственным интеллектом.

Фактор искусственного интеллекта действительно является сходством между ВАЛЛ-И и ВАЛЛ-И. Э.

Что мы знаем о VALL-E?

С технической точки зрения Microsoft называет VALL-E «языковой моделью нейронного кодека». Говоря более простым языком, VALL-E — это модель искусственного интеллекта, которая может генерировать звук из текстового ввода, а также имитировать голос любого предоставленного аудиосэмпла. Услышав вокальный образец продолжительностью всего три секунды, он может имитировать любой голос. ВАЛЛ-И еще не доступен широкой публике. Он может соответствовать не только голосу, но и настроению и акустике пространства. С этим связаны моральные проблемы, несмотря на то, что его можно применять многими полезными способами.

Модели обучения –

Исследователи утверждают, что обучали VALL-E на протяжении 60 000 часов с носителями английского языка по сравнению с более чем 7 000 человек в аудиотеке LibriLight компании Meta. Голос целевого говорящего должен быть очень похож на обучающие данные, чтобы его можно было имитировать. Таким образом, ИИ может использовать свое «обучение», чтобы попытаться имитировать голос целевого говорящего.

Имитация эмоций –

Следует подчеркнуть, что модель Al может имитировать акустику комнаты, а также эмоциональный тон говорящего, а также высоту звука, шелуху и текстуру. Таким образом, VALL-E будет имитировать целевой голос, как будто он имеет помехи, если целевой голос таковой имеется.

По данным исследовательской группы Microsoft: «Результаты экспериментов показывают, что VALL-E работает намного лучше». с точки зрения естественности речи и сходства говорящего, чем самая совершенная система TTS с нулевым выстрелом. Кроме того, мы обнаружили, что VALL-E может сохранять эмоции говорящего и акустический контекст акустической подсказки во время синтеза».

Угрозы –

The Al Модель может быть применена к робототехнике, медиапроизводству и пользовательским приложениям преобразования текста в речь. Однако при неправильном использовании он может представлять угрозу. Бизнес предупредил что модель может быть использована не по назначению для имитации или подделки голосовой идентификации, поскольку VALL-E может синтезировать речь, сохраняя при этом личность говорящего.

VALL-E может использоваться, например, для создания спам-вызовов, которые кажутся законными. с целью обмануть людей. Политики или кто-либо, обладающий респектабельным социальным присутствием, также подвержены выдаче себя за другое лицо, о чем свидетельствуют мистификации. Угрозы могут исходить от пользователей, использующих приложения, которым требуются голосовые команды или голосовые пароли. Кроме того, VALL-E может ликвидировать работу актеров озвучивания.

Этическая позиция –

Кроме того, бизнес включает заявление об этике, которое гласит: «Испытания в этой работе проводились в предположении, что пользователь модели является целевым говорящим и был принят говорящим». В нем говорится, что протокол, гарантирующий, что говорящий согласен выполнить изменение, и система обнаружения измененной речи должны быть включены в модели редактирования голоса, когда модель распространяется на всех говорящих.

Как работает VALL? -E отличается от DALL-E?

DALL-E — это созданная OpenAI модель машинного обучения, которая генерирует графику из текстовых описаний. Подсказки используются для описания этих описаний текста в изображении. Просто описания сцены достаточно, чтобы алгоритм мог создать реалистичные визуальные эффекты. DALL-E — это метод нейронной сети, который создает точные изображения из коротких слов, предоставленных пользователем. Он изучает язык, используя текстовые описания и данные «обучения», которые пользователи и разработчики вносят в его наборы данных.

Что вы думаете о VALL-E?

Мы надеемся, что теперь вы знаете все о VALL-E (текст в звук) и DALL-E (текст в изображение). Не существует точной даты, когда ВАЛЛ-И станет доступен для доступа и будет использован широкой публикой. Что касается DALL-E, то он уже доступен всем.

Если у вас есть какие-либо вопросы или рекомендации, сообщите нам об этом в комментариях ниже. Мы будем рады предоставить вам решение. Мы часто публикуем советы, рекомендации и решения распространенных технических проблем. Вы также можете найти нас в Facebook, Twitter, YouTube, Instagram, Flipboard и Pinterest.

Читать: 0

yodax