03 апреля 2024 06:05

Нейросеть генерирует голос по 15-секундной аудиозаписи

3 минуты на чтение

Нейросети могут создавать тексты, снимать видео и имитировать человеческий голос Фото: © LALAKA / Shutterstock / FOTODOM

OpenAI, разработчик ChatGPT, не так давно удивлял реалистичными видеороликами, которые научилась генерировать его нейросеть Sora. И вот новое детище компании — модель ИИ под названием Voice Engine, способная заговорить вашим голосом, послушав его лишь 15 секунд. Расскажем, где это уже применяется и какие меры безопасности выбраны, чтобы избежать мошенничества.

Хотя эта технология не нова (ее разработали в конце 2022 года), возможности Voice Engine впечатляют. Например, с помощью нейросети девушка, которая потеряла способность нормально говорить из-за сосудистой опухоли головного мозга, теперь вновь может общаться своим привычным голосом. Для этого разработчики использовали звуковую запись, которую она когда-то сделала для школьного проекта.

Слева — голос девушки после болезни, справа — сгенерированный Voice Engine на основе аудиозаписи

Voice Engine может стать спасением для людей, утративших голос из-за болезни или травмы Фото: © Syda Productions / Shutterstock / FOTODOM

Voice Engine сейчас тестируют на небольших группах людей. И хотя ее создатели опасаются, что их детище попадет в руки мошенников, они в итоге намерены сделать новинку доступной и безопасной для массового пользования. Ведь она может стать полезной во многих сферах жизни.

Например, в обучении маленьких детей, школьников и студентов. На образовательных интернет-платформах можно найти массу курсов, и если их будет читать не механический, а естественно звучащий голос, слушать такие лекции будет намного приятнее. А значит, усваивать материал будет проще. OpenAI уже заключила контракт с одной из таких компаний, которая раньше занималась программами для обучения детей чтению и математике. Теперь с помощью Voice Engine и GPT-4 они разработали и другие курсы — например, по химии и физике.

#дополнительное образование #Сириус.Курсы

Сириус.Курсы: онлайн-обучение, доступное всем

Читать

Кроме того, с помощью Voice Engine можно переводить текст. Нейросеть способна воспроизводить голос человека не только на его родном языке, но и на любых других, при этом сохраняя акцент. Например, если франкоговорящий захочет создать аудио на английском языке, ИИ сгенерирует запись с французским произношением. Так, в компании HeyGen, которая специализируется на создании маркетинговых образов и аватаров, Voice Engine используют для перевода видеороликов. Английскую речь там трансформируют в испанскую, китайскую, немецкую, французскую, японскую. И все это голосом одной женщины.

Слева — исходная аудиозапись на английском языке, справа — перевод на китайский язык

Разработчики Voice Engine осознают, что их программой наверняка захотят воспользоваться мошенники Фото: © PR Image Factory / Shutterstock / FOTODOM

Охват глобальных данных и небольших сообществ. В компании Dimagi, занимающейся разработкой мобильных приложений для сбора, хранения и обработки статической информации в здравоохранении, тоже заинтересовались Voice Engine. Там начали применять ее для интерактивной обратной связи с медработниками в удаленных уголках планеты. А еще для создания обучающих роликов (например, по грудному вскармливанию младенцев) на редких языках. Только в Кении насчитывается 68 диалектов, и каждая община говорит на своем. Яркий пример — шэн — смесь английского и суахили.

Звуковая запись на языке шэн о грудном вскрамливании

Если Voice Engine и не заменит язык жестов, то точно станет помощником для тех, кто им вынужден пользоваться Фото: © LightField Studios / Shutterstock / FOTODOM

Также Voice Engine пригодится тем, кто общается жестами. Существуют приложения с искусственным интеллектом, которые позволяют коммуницировать людям с ограниченными возможностями. Используя новую нейросеть, они могут выбирать из числа уникальных, нероботизированных голосов.

При всей пользе Voice Engine критики по всему миру все же обеспокоены последними тенденциями. Речь о том, что ИИ способен создавать фальшивые видео- и аудиозаписи. В OpenAI заверяют, что сейчас все, кто тестирует их новинку, подписывают соглашение, в котором запрещено использовать любые голоса без письменного разрешения разработчика. При этом компании обязаны сообщать своей аудитории, что голоса, которые они слышат, генерирует искусственный интеллект. Наконец, OpenAI внедрила «водяные знаки», которые позволяют определить происхождение любого звука, создаваемого Voice Engine.

#искусственный интеллект #видео

Поразительно и пугающе: подборка видеороликов, сгенерированных нейросетью

Читать

#искусственный интеллект #голос

Оцените статью

Поделись знанием

Нейросеть генерирует голос по 15-секундной аудиозаписи

Слева — голос девушки после болезни, справа — сгенерированный Voice Engine на основе аудиозаписи

Слева — исходная аудиозапись на английском языке, справа — перевод на китайский язык

Звуковая запись на языке шэн о грудном вскрамливании

Рекомендуем

Следующая статья

Японцы изобрели робота-трубочиста