Невронната мрежа се е научила реално да имитира човешката реч

Матю Кийф/Flickr

Британската компания Google DeepMind представи нов алгоритъм за синтезиране на човешка реч, наречен WaveNet. Тя се основава на използването на невронни мрежи, което ви позволява да постигнете по-реалистична имитация на глас. Статия от разработчиците, описваща програмата, е достъпна на уебсайта на компанията.

Обикновено системите за преобразуване на текст в реч използват готови аудио записи на гласовете на хората. Програмата извлича звуци от тях и ги композира въз основа на входните данни, което ви позволява да постигнете доста естествен звук - добър пример в този случай е Siri или Google Assistant. Този подход, известен като синтез на компилация, обаче е много ограничен, тъй като за да създадете нов гласов асистент или просто да промените тона на речта, имате нужда от човек, който ще записва всички възможни звуци за базата данни.

Примерен компилиран синтез на реч:

Съществува и алтернативен метод, параметричен синтез, който използва изцяло компютърно генериран глас и не изисква библиотека на реч на живо. Неговата работа се основава на вече зададените параметри, съответстващи на граматичните правила и принципите на произношението на звуците. Независимо от това, изходът се оказва доста машинно звучаща реч.