СРАВНИТЕЛЕН АНАЛИЗ НА СИСТЕМИТЕ ЗА РАЗПОЗНАВАНЕ НА РЕЧИ С ОТВОРЕН КОД, Публикуване на статия на RSCI,

Беленко М.В. 1, Балакшин П.В. 2

1 студент, университет ITMO, 2 доктор по технически науки, асистент, университет ITMO

СРАВНИТЕЛЕН АНАЛИЗ НА СИСТЕМИТЕ ЗА РАЗПОЗНАВАНЕ НА РЕЧЕН ОТВОРЕН КОД

анотация

Статията предоставя сравнителен анализ на най-често срещаните системи за автоматично разпознаване на реч с отворен код. Сравнението използва различни критерии, включително системни структури, програмни езици при внедряване, наличност на подробна документация, поддържани езици за разпознаване, лицензионни ограничения. Проведени бяха и експерименти върху няколко речеви корпуса, за да се определи скоростта и точността на разпознаването. В резултат на това за всяка от разгледаните системи бяха разработени препоръки за употреба с допълнително посочване на обхвата.

Ключови думи: разпознаване на реч, метрика, степен на разпознаване на думи (WRR), степен на грешка на думи (WER), фактор на скоростта (SF), отворен код

Беленко М.В. 1, Балакшин П.В. 2

1 студент, университет ITMO, 2 доктор по инженерство, асистент, университет ITMO

СРАВНИТЕЛЕН АНАЛИЗ НА СИСТЕМИТЕ ЗА РАЗПОЗНАВАНЕ НА РЕЧИ С ОТВОРЕН КОД

Резюме

Докладът предоставя сравнение на най-често срещаните системи за автоматично разпознаване на реч с отворен код. При сравнението са използвани много критерии, включително системни структури, програмни езици за изпълнение, подробна документация, поддържани езици за разпознаване и ограничения, наложени от лиценза. Също така бяха проведени експериментите върху няколко речеви основи за определяне на скоростта и точността на разпознаването. В резултат на това бяха дадени препоръките за прилагане с допълнително посочване на обхвата на дейност за всяка от изследваните системи.

Ключови думи: разпознаване на реч, метрика, скорост на разпознаване на думи (WRR), степен на грешка на думи (WER), фактор на скоростта (SF), код с отворен код

Целта на изследването е да разработи препоръки за използването на системи за разпознаване на реч с отворен код за намаляване на разходите при избора на система за търговски или изследователски дейности.

Като част от работата бяха разгледани шест системи с отворен код: CMU Sphinx, HTK, iAtros, Julius, Kaldi и RWTH ASR. Изборът се основава на честотата на споменаване в съвременните списания за научни изследвания, съществуващите разработки през последните години и популярността на отделни разработчици на софтуер [2], [3], [6-8], [10], [11], [ 13], [14]. Избраните системи бяха сравнени по отношение на точността и скоростта на разпознаване, използваемостта и вътрешната структура.

По отношение на точността системите бяха сравнени, използвайки най-често срещаните показатели [17]: процент на разпознаване на думи (WRR), процент грешки на думи (WER), които се изчисляват, като се използват следните формули:

където S е броят на операциите за заместване на думи, I е броят на операциите за вмъкване на думи, D е броят на операциите за премахване на думи от разпозната фраза за получаване на оригиналната фраза и T е броят на думите в оригиналната фраза и е измерена като процент. По отношение на скоростта на разпознаване са направени сравнения, като се използва фактор в реално време, мярка за съотношението между времето за разпознаване и продължителността на разпознавания сигнал, известен също като фактор на скоростта (SF). Този показател може да бъде изчислен по формулата:

където Trasp е времето за разпознаване на сигнала, T е неговата продължителност и се измерва във фракции от реалното време.

Всички системи бяха обучени с помощта на речевия корпус WSJ1 (Wall Street Journal 1), съдържащ приблизително 160 часа данни за обучение и 10 часа данни от тестове от Wall Street Journal. Този речев корпус включва записи на говорители от двата пола на английски език.

След провеждане на експеримента и обработка на резултатите беше получена следната таблица (Таблица 1).

Таблица 1 - Резултати от сравнението за точност и скорост

Точността и коректността на изследването се потвърждава от факта, че получените резултати са подобни на резултатите, получени при тестване на тези системи на други речеви корпуси, като Verbmobil 1, Quaero, EPPS [2], [4], [9].

Езикът за внедряване на системата, алгоритмите, използвани при форматите за разпознаване, въвеждане и извеждане на данни и директно вътрешната структура на софтуерната реализация на системата бяха избрани като критерии за сравняване на структурите.

По принцип процесът на разпознаване на речта може да бъде представен като следните етапи [15]:

Извличане на акустични характеристики от входния сигнал.
Акустично моделиране.
Езиково моделиране.
Декодиране.

Подходите, алгоритмите и структурите на данни, използвани от разглежданите системи за разпознаване на реч на всеки от изброените етапи, са представени в таблици (Таблици 2, 3).

Таблица 2 - Резултати от сравнението на алгоритмите

Таблица 3 - Езици за внедряване на системи и тяхната структура

От гледна точка на използваемостта, такива показатели се разглеждат като детайли на документацията, поддръжка на различни софтуерни и хардуерни среди по време на изпълнение, лицензионни ограничения, поддръжка на много езици за естествено разпознаване и характеристики на интерфейса. Резултатите са представени в следващите таблици (таблици 4, 5, 6, 7, 8).

Таблица 4 - Наличност на документация

Таблица 5 - Поддръжка за различни операционни системи

Таблица 6 - Системни интерфейси

Таблица 7 - Поддържани езици за разпознаване

Таблица 8 - Лицензи

След анализ на резултатите, получени по-горе, е възможно да се характеризира всяка от разглежданите системи и да се разработят препоръки за тяхното приложение.