Создана нейросеть, имитирующая речь собеседника при прерываниях в аудиозвонках

Лента событий 03 Апр 2020 10:14
0 отзывов

Из-за нестабильного соединения во время звонка речь человека на другом конце провода может звучать прерывисто. Google разработала нейросетевой алгоритм, который анализирует последние фрагменты речи и заполняет паузу реалистично синтезированным голосом собеседника. Компания несколько месяцев тестировала эту функцию на смартфонах Pixel 4, а теперь сделает доступной на других моделях, сообщается в блоге Google AI.

Дело в том, что при видеозвонках через интернет из-за прохождения сигнала через множество сетей часть аудиопакетов может теряться. Сейчас во всех сервисах применяются алгоритмы маскировки потери пакетов (PLC). Однако при потере слишком большого количества пакетов и увеличении паузы до нескольких десятков миллисекунд могут наблюдаться искажения.

Разработчики из Google и DeepMind представили специальный алгоритм, который может создавать замену утерянным пакетам. Основан алгоритм на нейросети. Она анализирует последние фрагменты речи, а затем заполняет паузу синтезированным голосом собеседника.

Технологию уж протестировали на смартфонах Pixel 4.

Добавить комментарий

Ваш адрес email не будет опубликован.

Внимание: Ваш комментарий будет опубликован после модерации администратором сайта.