Из-за нестабильного соединения во время звонка речь человека на другом конце провода может звучать прерывисто. Google разработала нейросетевой алгоритм, который анализирует последние фрагменты речи и заполняет паузу реалистично синтезированным голосом собеседника. Компания несколько месяцев тестировала эту функцию на смартфонах Pixel 4, а теперь сделает доступной на других моделях, сообщается в блоге Google AI.
Дело в том, что при видеозвонках через интернет из-за прохождения сигнала через множество сетей часть аудиопакетов может теряться. Сейчас во всех сервисах применяются алгоритмы маскировки потери пакетов (PLC). Однако при потере слишком большого количества пакетов и увеличении паузы до нескольких десятков миллисекунд могут наблюдаться искажения.
Разработчики из Google и DeepMind представили специальный алгоритм, который может создавать замену утерянным пакетам. Основан алгоритм на нейросети. Она анализирует последние фрагменты речи, а затем заполняет паузу синтезированным голосом собеседника.
Технологию уж протестировали на смартфонах Pixel 4.