Невронната мрежа се е научила да реалистично имитира човешката реч

Филиалът на Google DeepMind, който разработва и подобрява изкуствения интелект, представи WaveNet, усъвършенстван алгоритъм за синтезиране на човешка реч. За да се постигне по-реалистичен резултат, екипът за разработка използва собствена система за изкуствен интелект.

Купена през 2014 г., британската компания DeepMind вече е изградила солидна репутация за своята програма AlphaGo Go, бутона за спиране за AI и други впечатляващи проекти. Включително машинно обучение за разбиране на естествени езици.

Обикновено системите за информация в реч използват готови аудио записи на глас. Специална програма идентифицира и подчертава желаните звуци, класифицира ги, като използва наличните данни, съставя изречения. Такава система се нарича компилационен синтез. Методът получи своята слава благодарение на използването му в популярни гласови асистенти, например Google Voice Search. Този метод обаче има доста значителен недостатък, а именно трудности при модифицирането на гласа, за да промени емоционалния компонент на речта или акцента.

Това състояние на нещата доведе до търсенето на алтернативен метод - параметричен TTS. Всъщност това е генериране на машинна реч, с изключение на недостатъците, описани за компилирания метод на синтез. Има обаче и друг проблем. Такъв подход има „синтетични“ характеристики, характерни за машинния глас и се възприема от мозъка по различен начин от обикновената човешка реч. Това важи особено за английския език (характеристики на фонетиката).

Работата на алгоритъма WaveNet решава проблемите на параметричния и компилационния синтез. Същността му се състои в точковото генериране на профил на звукова вълна от проби. Разработчиците използваха невронна мрежа като FCN. Неговата архитектура е подобна на повтарящи се и конволюционни невронни мрежи (PixelRNN и PixelCNN).