Принципи, състояние на техниката, разпознаване на единични думи, зависещо от говорещия - спектър на науката

Принципи, състоянието на техниката, разпознаване на единична дума в зависимост от говорещия

Езиковата комуникация е много сложен процес. Човек разбира изказването на реч не само от това, което чува; по-скоро той използва целия си езиков опит, както и предишните си познания по предмета и партньора; Той също така оценява невербалните компоненти като жестове, мимики и емоционалния тон на гласа. Тази допълнителна информация може дори да е по-важна от формулировката. В крайна сметка естественият език се характеризира с висока степен на излишък (т.е. това, което всъщност е излишно), така че словесните намеци или фрагменти от речта често са достатъчни за разбиране. Това обяснява защо разговорът е възможен и в шумна среда.

Ако някой искаше да реализира тази феноменална производителност на разпознаване чрез техническа система, това в крайна сметка ще трябва да притежава знанията, опита и интелигентността на човек. Човек може дълго да философства за това дали това е постижима или значима цел. За разработчика на система за разпознаване на реч, който винаги трябва да отчита техническите усилия (и по този начин разходите), това със сигурност не е така; той трябва преди всичко да види конкретното приложение. Това показва, че много ограничени форми на разпознаване на реч често са достатъчни; от решаващо значение е да се намери най-подходящото решение за конкретното приложение.

Комуникацията с машини чрез естествен език - вместо обичайната клавиатура и екран, по-общо чрез превключватели и дисплейни устройства - предлага редица предимства: Потребителят не трябва да научава никаква нова технология, но работи с най-познатата форма на комуникация; той държи очите и ръцете си свободни за други дейности, не е обвързан с определено място и дори може да управлява машината дистанционно по телефона. Гласовият вход и изход са възможни и в тъмни, мръсни и прашни помещения и може би единственото средство за комуникация с машината за хора с увреждания, които не могат да използват клавиатура. В обратната посока, произнесеното от машината изказване също достига до разсеяния или невнимателния потребител.

Това, което говори срещу използването на тази форма на комуникация, е, че производителността и надеждността все още са незадоволителни за някои приложения. Освен това има слабости на всяка лингвистична комуникация: неприятности за страничните наблюдатели, нежелани възможности за слушане и намеса от фонов шум, което в момента все още е основен проблем за системите за разпознаване на реч.

Най-важните приложения могат да бъдат намерени в следните полета:

- Въвеждане на числа и списъци с думи: Ако трябва да пишете дълги колони с числа или думи от шаблон, трябва да продължите да променяте погледа си между шаблон, клавиатура и екран, което е досадно, уморително и източник на грешки в дългосрочен план. Непосредственото словесно въвеждане, без да се отклонява поглед, избягва този проблем. Извеждането на реч през машината може да се използва за корекция.

Дори днес някои контролери за качество в автомобилното производство предават докладите си за дефекти директно чрез радиовръзка към компютър за разпознаване на глас, който не само води дневник, но и препраща съответното съобщение до отговорната страна - вероятно производствен компютър. Предимството пред по-късна писмена оценка е бърза реакция; това намалява степента на отхвърляне.

- Управление на машини и компютри. Системата не само разпознава въведена команда, но и я изпълнява, като задейства действие. Гласово контролираните машини вече са на пазара. Има автомобили, в които отварящите прозорци, чистачките, радиото и телефоните следват гласови команди. Някои функции за контрол и корекция в персоналните компютри също могат да бъдат задействани с помощта на разпознаватели на реч. Има инвалидни колички с гласово управление за хора с тежки двигателни увреждания. Гласовият контрол все още не е използван за функции, свързани с безопасността, тъй като въпросът за отговорността в случай на повреда на системата все още не е изяснен.

- Информационни и подреждащи системи. Потребителят изразява определени изисквания или желания, а системата дава говорим отговор (вижте статията на Хелмут Манголд на страница 97).

- Диктовни системи. Всеки свободно говорим текст трябва да се преобразува в писмен текст. Това приложение изисква най-обширната форма на разпознаване на реч (вижте статиите на Marcus Spies на страница 90 и Volker Steinbiß на страница 94).

Методите за разпознаване на реч обикновено се разделят на три класа: разпознаване на отделни думи, на ключови думи в непрекъснат текст или на непрекъсната реч. В посочения ред трудността и усилията се увеличават драстично. Друг критерий е зависимостта от говорещия. Обичайните системи трябва да бъдат адаптирани към съответния високоговорител, преди да бъдат реално използвани. Независимостта на говорителите може да бъде постигната чрез предварително обучение на системата с възможно най-много говорители. Усилията за това са значителни; въпреки това надеждността на откриването обикновено намалява.

Разпознаването на единична дума в зависимост от говорителя е показано по-подробно по-долу. В момента това е най-широко използваната и технически усъвършенствана форма за разпознаване на реч.

Процесът по същество се състои от два етапа (фиг. 1): предварителна обработка, която извлича параметрите, важни за разпознаване от речевия сигнал, и класификация, която намира свързаното значение чрез сравняване на шаблони между тестови и референтни модели.

Предварителна обработка

Първият етап включва ограничаване на честотата (филтриране), нормализиране на силата на звука и аналогово-цифрово преобразуване; последният се изисква за по-нататъшна обработка (днес изключително цифрова). Дигитализираният по този начин гласов сигнал вече се състои от дискретна последователност от числа, които всеки описва звуковата енергия в определен момент от времето. Тези времена на дискретизация обаче са толкова близки, че се запазват съществените свойства на първоначално непрекъснатия сигнал; говори се за квазинепрекъснат сигнал.

Количеството данни, което е твърде голямо в тази форма, сега трябва да бъде намалено, така че информацията, освободена от излишен баласт, да характеризира възможно най-точно съответните свойства на речевия сигнал. Сред многобройните възможности за тази стъпка, ние разглеждаме извличането на параметри от речевия спектър по-нататък по съображения за яснота. Вземете за пример думата дело, изречена веднъж кратко и веднъж дълго. Във времевия сигнал (фиг. 1а) плосивният звук t може да бъде разпознат по ниската си енергия на сигнала и неравномерния му ход; последното показва високочестотни компоненти на сигнала. Гласната а се характеризира с висока енергия на сигнала и доста редовен, периодичен ход.

Можете също така да видите, че говоренето бавно удължава гласната, но не и плозивното. Така че дума, изречена бавно, не е просто забавена версия на дума, изречена бързо, което трябва да се вземе предвид при обработката.

Звуковият сигнал вече е разделен на честоти; математически това съответства на преобразуване на Фурие, приложено към интервали от време от около 20 до 30 милисекунди. В честотното представяне (фиг. 1б), както и преди при гласните, се откриват високи енергии, които са концентрирани в диапазона на ниските честоти (около 1000 херца); такива енергийни максимуми се наричат форманти. За разлика от това, честотният диапазон за плосивите е много широк и се простира до около 10 килогерца. Почти няма енергия преди t в края на думата; такива паузи характеризират фазите на натрупване на налягане, които обикновено са необходими за говорене на плосиви.

Времевата скала вече е груба към решетката на интервалите, споменати от преобразуването на Фурие. В повечето случаи намаляването на данните се извършва още повече чрез комбиниране на многобройни стойности в квазинепрекъснатата честотна скала чрез осредняване за 8 до 20 относително широки честотни ленти. Останалите числа, от своя страна грапави чрез закръгляване, образуват така наречения вектор на характеристиките: много грубо изображение на оригиналния спектър, но което е напълно достатъчно за процеса на разпознаване (фиг. 1 в).

По този начин речевият сигнал, например изговорена дума, се е превърнал във времева последователност от вектори на характеристиките. Говорните паузи преди и след всяка дума, които струват само ненужно място за съхранение, се определят и елиминират със специален детектор за пауза; Тогава се записва само съответната дума. Това приключва предварителната обработка.

Учене и признание

За да адаптира системата към конкретен високоговорител, говорителят произнася дума, която се преобразува в последователност от вектори на характеристики по описания начин, която след това формира референтен модел. Значението на изговорената дума обикновено се съобщава на системата чрез клавиатура. Значението и свързаният речев сигнал вече се съхраняват в паметта на референтния шаблон. Няколко референтни шаблона за една и съща дума могат да бъдат комбинирани в един чрез усредняване, което компенсира случайни отклонения в гласовия запис. Продължавате по същия начин с всички думи, които системата трябва да научи.

Ако след края на фазата на обучение потребителят произнесе някоя от научените думи, системата преобразува звуковия сигнал по същия начин в последователност от вектори на характеристиките - тестовия модел. Това сравнява един след друг с всички съхранени референтни модели, определя този, който е най-подобен на настоящия модел и извежда неговото значение (Фиг. 1 вдясно).

За това сравнение двата модела трябва да бъдат изведени на обща времева скала, защото никой не произнася една и съща дума два пъти с абсолютно еднаква скорост. Простото компресиране или разтягане на оста на времето би било безсмислено, тъй като - както бе споменато - промяната в скоростта на речта има различни ефекти върху различните звуци. Така наречената динамична корекция на времето се оказа много ефективен метод: Всеки малък период от време се разтяга или компресира индивидуално, така че съответствието между тестовия и референтния модел да е възможно най-голямо (Фиг. 2). Получената нелинейна функция за адаптация се нарича функция за динамично изкривяване на времето; думата деформация (за вятър) описва много ясно как адаптационната функция се навива през координатната система.

Последна стъпка на обработка е пренастройката. Тъй като гласът на говорителя се променя с течение на времето, тестовите модели, които са надеждно разпознати, се използват за опресняване на съхранените референтни модели чрез формиране на подходящо претеглена средна стойност и за двете. В резултат на това системата работи не само с думите, съхранявани по време на фазата на обучение, но и с наскоро изговорените думи.

Допълнителни процедури

Два други, много успешни метода работят с доста непряко сравнение на модели, вместо директното сравнение на тестови и референтни модели, показани тук.

Разпознаването с т. Нар. Скрити модели на Марков в момента е безспорният фаворит. Те се връщат към руския математик Андрей Андреевич Марко (1856 до 1922). Работите с оценки на вероятността, с която състояние на дадена система (например вектор на характеристика) е последвано от друго - или дори същото - (вижте по-специално статията на Marcus Spies на страница 90).

Втората от тези концепции са невронните мрежи. Те се състоят от паралелна, мрежова структура от примитивни превключващи елементи, които са моделирани на реални нервни клетки. Определени параметри на тези елементи могат да бъдат зададени автоматично във фаза на обучение, така че определени вектори на характеристиките, присъстващи на входа, да дават определен резултат на изхода (вж. "Как невронните мрежи се учат от опит" от Geoffrey E. Hinton, Spectrum of Science, ноември 1992 г., страница 134 ). Невронните мрежи са много подходящи за разпознаване на реч; те са особено успешни, когато тестовите модели са фалшифицирани от смущения (като околен шум).

Все още не е ясно коя от споменатите стратегии ще надделее в дългосрочен план. Скритите модели на Марков могат лесно да бъдат изместени от нови видове невронни мрежи, оптимизирани за разпознаване на реч.

За да се подобри допълнително работата на разпознавачите на реч, в допълнение към акустично-фонетичната информация, съдържаща се във векторите на характеристиките, се оценяват допълнителни източници на информация. Много важно е знанието, свързано със задачата. В повечето приложения обхватът на приложението е ограничен по отношение на съдържанието, така че има само относително малко разрешени думи. Поради тази причина програма за разпознаване на реч за управление на машината може например да коригира команда, която е неправилно разпозната като „машинна гора“, до валидната команда „машинно спиране“.

Тясно свързано с това е прагматичното знание: програмата за разпознаване на реч получава информация за състоянието на околната среда и регистрира фонетично разпознаване като невярно, ако противоречи на условията на околната среда. Ако например системата за разпознаване за управление на машината знае (чрез съобщение от измервателни сензори), че машината работи, тя ще разпознае командата "включване на машината" като безсмислена и ще я замени със "стоп машина" - или ще задейства заявка.

Състояние на техниката

Разпознавачи на единични думи, зависими от говорители, за малък речник (до няколкостотин думи) вече могат да бъдат внедрени без никакви проблеми. Повечето налични в момента системи са от този тип.

В някои случаи се предлагат независими от говорители разпознаватели на единични думи с до 50 думи; но много от тях все още са в етап на изследване или развитие. Има спешна нужда от тези системи в телекомуникационния сектор с неговите все нови потребители, от които е очевидно, че не може да се иска фаза на обучение всеки път преди употреба. Телефонните информационни системи са типично приложение.

В челните редици на разработката са малко разпознавачи като системата "Dictate-30K" на американската компания Dragon Systems, която е базирана на скрити модели на Марков и има капацитет до 30 000 думи. Това обикновено е достатъчно за създаване на нормални текстове, дори ако вземете предвид, че думата обикновено има различни форми на флексия и всяка форма се брои за независима дума. Тъй като системата се адаптира към неизвестни за нея високоговорители без фаза на обучение, тя има почти свойствата на независим от говорител разпознавател. Хардуерът се помещава на карта, която може да бъде включена в персонален компютър. Основното приложение е в офиса. Недостатък със сигурност е, че потребителят трябва да прави пауза между всеки две думи (тъй като е разпознавател на една дума), което изисква накъсан, неестествен начин на говорене.

Особено интересна задача е разпознаването на ключови думи в свободно говоримия език, така нареченото зацапване на думи. Той формира прехода към непрекъснато разпознаване на речта, но в никакъв случай не изисква нейните изчислителни усилия. Той разкрива своите силни страни, където е важна само специална информация - като команди, заявки, имена или номера. Например, потребителят на дума, която забелязва полетна информационна система, има значителна свобода да формулира своя отговор на въпроса къде би искал да лети; системата ще го разбере правилно, ако правилно разпознае думата „Хамбург“ в устния текст. По този начин може да се постигне високо ниво на приемане от потребителя.

Удивително е, че има само няколко такива системи. Една от причините може да е, че засичането на думи е особено подходящо за слушане на гласови канали (особено телефонни линии) и следователно разследванията подлежат на поверителност.

Най-удобната, но и най-трудната техника е тази за разпознаване на непрекъсната реч. Проблемите възникват главно от факта, че границите на думите в езиковия поток често не са разпознаваеми или изобщо не съществуват: „В понеделник“ се говори като „понеделник“. Това прави сравнението въз основа на думи невъзможно, така че човек трябва да премине към единични звуци.

В света има много малко системи, които могат да се справят с тези проблеми; повечето от тях все още са в лаборатория или прототип. В допълнение към „Системата за обработка на реч 6000“ от Philips (вижте статията на Фолкер Щайнбис на страница 94), системата „Сфинкс“, която Кай-Фу Лий и колегите му от университета Карнеги Мелън в Питсбърг, трябва да споменат особено (Пенсилвания). По същество се основава на скрити модели на Марков и не съдържа съществено нови стратегии или компоненти; По-скоро неговата висока производителност се дължи на факта, че най-добрите от известните алгоритми за разпознаване са комбинирани един с друг по сложен начин. "Сфинкс" може да разпознава непрекъсната реч с речник от около 1000 думи и точност от около 95 процента. В момента системата все още е в лабораторен етап.

Автоматичното разпознаване на реч несъмнено е едно от най-важните технически нововъведения в областта на комуникацията човек-машина. Наличните системи все още са далеч от ефективността на разпознаване, която би била сравнима с тази на хората, но вече може да се използва за различни задачи. Повечето технически приложения така или иначе имат много ограничени изисквания за система за разпознаване на реч. Въпреки това все още има значителна нужда от изследвания и действия в нетехническа област: оптималният дизайн на диалога човек-машина.

Библиография

- Обработка на реч и предаване на реч. От Клаус Фелбаум. Спрингър, Хайделберг 1984.

- Автоматично разпознаване на реч. От Г. Руске. Олденбург, Мюнхен 1988.

- Езикова комуникация човек-машина. Редактиран от Хелмут Манголд. Олденбург, Мюнхен 1992.

- Разпознаване и разбиране на речта. Последни аванси, тенденции и приложения. Под редакцията на П. Лафас и Р. де Мори. Springer, Heidelberg 1992.

- Напредък в обработката на речевия сигнал. Редактирано от Sadaoki Furui и M. Mohan Sondhi. Марсел Декер, Ню Йорк/Базел/Хонконг 1992.