Преобразуване на текст в реч

Днес комуникацията ни с компютър се свежда до използването на клавиатура, мишка, монитор и други устройства за въвеждане и извеждане. Това стана толкова естествено, че малко хора се замислят за своите алтернативи. Но ако се върнете в дните на създаването на първите компютри, тогава дори тогава разработчиците са мислили за компютри, които могат да комуникират с човек на неговия език.

Човешкият език с неговата привидна простота и достъпност е слабо изучен. Все още не е създаден достатъчно добър модел на неговото изграждане, въпреки че работата в тази област е интензивна. И без изграждането на алгоритъм за синтез на реч е невъзможно да се създадат речеви програми. Следователно програмите за „четене“ все още не са напълно приложени. За нормален синтез простото четене на думи в изречение не е достатъчно, необходим е задълбочен анализ на значението на текста, който се чете и в резултат на това правилното поставяне на стреса, необходимата интонация и темпото на генерираната реч. И това е само видимата част от айсберга.

През дългата история на създаването на „говорещи“ програми са преминали няколко етапа от решаването на този проблем.

По-късно започват да се появяват програми за моделиране на работата на гласните струни и устната кухина на човека, като се използва добре проучена информация от областта на физиологията.

И накрая, най-обещаващата технология е TTS (Text to Speech), която напоследък стана широко разпространена.

Внедряването на тази технология стимулира създаването на нови компактни гласови продукти с немислими преди това възможности.

Технологията TTS, позната на компютърния пазар от над 15 години, се използва често в приложения, при които се изисква възпроизвеждане на реч на голям брой различни текстове. Основната характеристика, която отличава TTS от по-рано разработените гласови програми, е възможността за произнасяне на думи въз основа на фонетични правила и набор от звуци, предварително озвучени или синтезирани от машина. Приблизително процесът на синтез на речта може да бъде представен като залепване, съгласно правилата на фонетиката, на предварително озвучени фрагменти от езика (дифтонги или по-дълги фрагменти) в думи и след това в изречения. Предимствата на технологията TTS произтичат от това:

- способността да се озвучават всякакви думи от даден език, както веднага след появата им в ежедневието, така и никога не е съществувала;

- ниски изисквания към RAM паметта на компютъра, която съдържа само озвучени фонеми, а не цели речници, както се прилага в други технологии за синтез на реч;

- по-бърз процес, тъй като синтезът на речта се извършва по-бързо от търсенето в огромна база данни с предварително изразени думи (това предимство се проявява особено, когато е необходимо да се възпроизведат голям брой различни думи);

- лекота на подчертаване на стреса и интонацията в синтезирани думи;

- способността да променяте темпото на четене, без да нарушавате тембъра на гласа.

Разбира се, това не означава, че TTS технологията е последният етап. Например в автоматизирани системи за синтез на реч, използващи ограничен набор от думи, решение, базирано на речник с малък глас, ще бъде по-евтино и с по-високо качество (за днес!). Но това е само тенденция в близко бъдеще и по-късно програми, изградени с помощта на технологията TTS с вградени инструменти за изкуствен интелект, за да „разберат“ значението на изговорената реч със сигурност ще придобият популярност.

Гласовият интерфейс между човек и компютър може да се разглежда като порочен кръг. Процесът започва с микрофон, регистриращ аналогова звукова вълна, която се появява, когато звучи човешка реч. След това звуковата карта го преобразува в цифров сигнал, който програмата за разпознаване на реч първо преобразува в набор от фонеми, а след това в думи. Софтуерното приложение анализира този текст и генерира отговор на него под формата на нов набор от думи за синтез. Сега програмата TTS превежда тези думи в фонеми, а след това, например, чрез слепване на звуци и използване на други характеристики на технологията, в цифров сигнал. И накрая, на последния етап кръгът се затваря: звуковата карта през високоговорителите възпроизвежда компютърна реч, предназначена за хората.

Доста много приложения вече са изградени с помощта на технологията TTS. Речевите технологии се използват в широк спектър от задачи: четене на електронна поща, уеб страници, бази данни, в интелигентни бордови системи или, в идеалния случай, при преподаване на произношение на думи на чужд език. Но повечето от тези приложения са изградени на базата на готови „двигатели“ на речта от компании като Microsoft, Lucent, Lernout & Hauspie, Unisys, Elan и др. Нека разгледаме TTS технологиите на тези компании.

22 kHz. Възможно е също така да запазите генерираната реч в различни аудио формати.

Корпорацията е създала интерфейс за програмиране за работа със звук - SAPI 4.0 (Speech Application Programming Interface) и го допълва с набор от инструменти и помощни програми за бързо изграждане на речеви приложения. Включва ASR (автоматизирано разпознаване на реч) и технология TTS. В момента се разработва нов интерфейс SAPI 5.0, който според компанията е напълно актуализирана версия.