Метод за кодиране на реч

1. Общо описание на алгоритъма за кодиране на реч CELP

където M е редът на модела, s (n) е последователността на пробите от речевия сигнал, a (m) са коефициентите на линейна прогноза, характеризиращи свойствата на гласовия тракт, а x (n) е генеративната последователност или възбуден сигнал на гласовия тракт. Авторегресивният модел на речев сигнал го описва с достатъчно висока степен на точност и позволява използването на развит математически апарат за линейно прогнозиране. Това осигурява по-високо качество на декодираната реч, устойчивост на входящ акустичен шум и грешки в комуникационния канал, отколкото в системи с други кодиращи принципи.

В рамките на този модел най-обещаващите методи за кодиране са методите за анализ чрез синтез, използващи многоимпулсно възбуждане от кода. Новостта на многоимпулсното възбуждане [7] се крие във факта, че в сигнала на линейната прогнозна остатъчна стойност се избират такива стойности, които са най-важни за подобряване на качеството на синтезираната реч. В същото време кодиращата схема, използвана при анализа чрез процедура на синтез, освен че отчита грешките при квантуване, включва критерии за субективна оценка на качеството на речевия сигнал, което осигурява естественото звучене на синтезирана реч.

При многоимпулсно възбуждане остатъчният сигнал с линейно прогнозиране се представя като последователност от импулси с неравномерно разпределени интервали и с различни амплитуди (около 8-10 импулса на 10 ms). Амплитудите и позициите на тези импулси се определят за кадър по кадър. Основното предимство на многоимпулсното възбуждане е, че то се определя за всеки речев сегмент и не изисква знания нито за вокализацията на този сегмент, нито за периода на височината.

Методите за анализ по синтез използват синтезатор на речев сигнал (декодер) като неразделна част от кодиращо устройство. В този случай задачата за анализ се свежда до процедурата за оценка на речевите параметри, предадени до комуникационния канал, извършена в съответствие с определен критерий за несъответствие между оригиналния и декодирания сигнал. За да се вземат предвид спецификите на слуховото възприятие, честотно претеглената квадратна грешка обикновено се използва като критерий за несъответствие.

където S (f) и Sq (f) са преобразуването на Фурие на оригиналните и синтезирани речеви сигнали, а W (f) е функцията на тежестта. Като се вземе предвид значението за възприемането на речта не само на формантите, но и на интерформните домейни, за алгоритмите за анализ на речта чрез синтез от Etol беше предложена функция на тежестта на следната форма

където A -1 (z) е синтезиращ филтър и е параметър, който регулира енергията на грешката или шума от квантуването. Всъщност такова претегляне подчертава грешката в интерформантните домейни и по този начин осигурява по-равномерно честотно разпределение на съотношението на мощността на полезния сигнал към мощността на грешката при кодирането.

В алгоритмите за кодиране на анализ чрез синтез ефективността на информационното мултиплексиране на речеви сигнали се увеличава главно чрез намаляване на излишността на последователността x (n), която възбужда филтъра за синтезиране на линейно предсказване A -1 (z), който формира сигнална обвивка, с коефициент на предаване

За тази цел допълнителен филтър с характеристиката

с един коефициент на прогнозиране gp и забавяне за периода на височината T. Той действа като генератор на квазипериодични трептения на гласните струни при произнасяне на звукови звуци.