Непрекъснато разпознаване на жестомимичен език на голям речник - PDF безплатно изтегляне

Непрекъснато разпознаване на езика на жестовете по голям речник Филип Дрой, Мортеза Захеди, Дейвид Рибах, Томас Деселаерс, Херман Ней [email protected] Семинар за жестомимични езици 27 октомври 2006 г. Катедра по компютърни науки 6 RWTH Аахненски университет, Германия П. Дрой и др.: Непрекъснато Разпознаване на жестомимичен език 1 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

жестомимичен

Общ преглед 1 Въведение 2 Общ преглед на системата 3 Моделиране на думи 4 Резултати 5 Заключение P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 2 Семинар на езика на жестовете 2006 27 октомври 2006 г.

1 Въведение Прилики: разпознаване на реч/разпознаване на езика на жестовете говорим език времева последователност от звуци език на жестовете времева последователност на знаци/жестове акустичен сигнал времева последователност на акустични вектори, (акустична реализация на звуци) визуален сигнал времева последователност на визуални вектори, (визуална реализация на знаци) разлики: граматика Паралелизъм на използването и индексирането на стаята на езика на жестовете P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 3 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Проблеми на надеждните системи за разпознаване Език Изолирани знаци Непрекъснати знаци Брой говорители 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 11111111 000000000 000000000 111111111 111111111 0000001100 11111111111 00000000 VAR проблеми на движенията на различните видове движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на различните движения на проблемите на движенията на различни проблеми на движенията Скорост Междуличностни разлики Пол Диалект Коартикулация Мълчание Какво е значително различно при разпознаването на речта? Какво ни липсва? Данни: приблизително 400 часа реч срещу 5 10,7% 8,7% 8,7% 26,2% Честота на думи при обучение P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 11 Семинар на езика на жестовете 2006 27 октомври 2006

Приложение: Проследяване на главата Проблеми: 2.3 Проследяването на ръцете често е пред лицето Въртене на главата, силни изражения на лицето Фон: цветове на кожата, структура. Идея: комбиниране на информация за цвета на кожата и черти на лицето P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 12 Семинар за жестомимични езици 2006 г. 27 октомври 2006 г.

Примери за проследяване Проследяване на глава и ръка в базата данни RWTH-Boston-104 Проследяване на главата в базата данни RWTH-Phoenix с модел на тялото P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 13 Семинар на езика на жестовете 2006 27 октомври 2006 г.

2.4 Използвани функции Ръчни функции (от проследяване): Позиция на ръката Движение на ръката Траектория на ръката utut 1 ut 2 Настройка на базова линия: Характеристики на изображението въз основа на външния вид Изображенията са намалени до 32-32 пиксела и служат като добър базов резултат при множество проблеми с разпознаването на изображения, успешни при разпознаване на жестове използвани P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 14 Работилница за жестомимичен език 2006 27 октомври 2006 г.

3 Моделиране на думи Разпознаване на голям речник: Моделите на цели думи не са полезни, наличен е недостатъчен материал за обучение. Необходим е по-голям обем памет. Решение: Създайте модели на думи чрез обединяване на под-единици на думи. Предимства: Данните са разделени между думите, така че повече данни за обучение на дума Произношение лексикон разпознат xyz:: x: x: Наблюдение 1: yz: x Наблюдение 2: yxx: z: y: Наблюдение 3 x, y, z: Етикети на субединиците P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 15 Семинар за жестомимичен език 2006 г. 27 октомври 2006 г.

Проблеми при моделиране на думи при разпознаване на езика на жестовете: фонемите все още не са ясно дефинирани, няма налична лексика на произношение Фонемите се появяват едновременно (многопоточни) значително повече фонеми в разпознаването на езика на жестовете, отколкото фонемите при разпознаване на реч Подход, който не може лесно да се прехвърли на разпознаване на езика на жестовете Изолирани знаци Границите на думите са известни Непрекъснато Признаци, неизвестни граници на думи, контекстни ефекти при преходи на думи, пентеза на движение, мълчание P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 16 Семинар на езика на жестовете 2006 27 октомври 2006

4 резултата Базови резултати и комбинация с характеристики на ръцете Примерни изречения Характеристично ниво на грешка мащабирано изображение 37,0 PCA-трансформирано изображение 27,5 + траектория на ръцете 23,6 Windows 21,9 Комбинация от модели 17,9 ВСИЧКИ МОМЧЕ ДАВА УЧИТЕЛ ЯБЛОКА ВСИЧКИ МОМЧЕ ДАВА УЧИТЕЛ ЯБЛОКА ДЖОН ТРЯБВА ДА КУПИ КЪЩА ДЖОН БЪДЕЩЕ НЕ КУПЕТ КЪЩА ANN BLAME MARY ANN BLAME JOHN ПРОЧЕТЕТЕ КНИГА Джон БЪДЕЩО ЗАВЪРШЕТЕ ПРОЧЕТЕТЕ КНИГА P. Dreuw et al.: Непрекъснато разпознаване на жестомимичен език 17 Семинар на жестомимичния език 2006 27 октомври 2006 г.

5 Заключение Резултатите са получени в публична база данни Системата не изисква никакъв специален хардуер или ръкавици Разпознаване на езика на жестовете с модерна система за разпознаване на реч Характеристиките на изображението, базирани на външния вид, също постигат добри резултати при разпознаване на езика на жестовете. Много принципи на разпознаване на речта могат да бъдат директно прехвърлени към разпознаване на езика на жестовете, особено важно: контекстна информация и езикови модели P. Dreuw et ал.: Непрекъснато разпознаване на жестомимичен език 18 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Outlook Проучете допълнителни констатации за разпознаване на реч и изображение: Адаптиране на високоговорител Допълнителни функции за разпознаване Моделиране на думи Интегриране на пространствена информация от разпознаване в превод Разпознаване JOHN IX GIVE MAN IX NEW COAT JOHN GIVE IX NEW COAT Превод без пространствена информация Джон дава на този човек превод на палто с Информация за стаята Джон дава на мъжа там палто. P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 19 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Благодарим за вниманието Philippe Dreuw [email protected] http://www-i6.informatik.rwth-aachen.de/ P. Dreuw et al.: Непрекъснато разпознаване на жестомимичен език 20 Семинар за жестомимични езици 2006 г. 27 октомври 2006 г.

Приложение: Правило за решение на Байес Видео вход X T 1 Анализ на характеристиките x T 1 Глобално < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Модел на думи Модел на езика на инвентара ŵ N 1 Разпозната последователност на думи P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 21 Работилница на езика на жестовете 2006 27 октомври 2006 г.

Допълнение: Собствени повърхности Изображение X може да се проектира към лицевото пространство чрез линейна трансформация φ: φ (x) = VT (X µ), където V = [v 1. vm] е матрицата на първите m собствени вектори и µ е средната стойност лице, изчислено върху набора от тренировъчни изображения. Проекцията от лицевото пространство към пространството на изображението е: φ 1 (X f) = V X f + µ, където X f е изображението на изображението в лицевото пространство φ (x). Разстоянието между изображението и неговата прожектирана напред и назад версия се нарича разстоянието между лицето. Може да се използва като мярка за лице. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 22 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Приложение: Собствени повърхности Пример за прожектирани изображения и полученото разстояние: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 Използваме разстоянието на лицевото пространство като функция за оценка, за да открием и проследим heads: sf (ut 1, ut; X tt 1) ​​= df (X t (ut)), където X t (ut) означава правоъгълен участък от изображение X t, центриран в позиция u t. P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 23 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Приложение: LM Scales акустичният модел и езиковият модел имат същото влияние в правилото за решение на Bayes Експериментите в разпознаването на речта показват, че разпознаването може значително да се подобри, ако езиковият модел има по-силно влияние от акустичния модел Тегло α за езиковия модел и тегло β за акустичния модел: argmax w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = argmax w1 N β log p (wn 1) + log p (xt 1 wn 1) Факторът α β се нарича фактор на езиковия модел. P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 24 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Приложение: LM объркване Недоумението на езиков модел и тестов корпус w N 1 се дефинира като: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Тъй като объркването е обратна вероятност, то може да се тълкува като средния брой възможни думи на всяка позиция в текста. Логаритъмът на недоумението е равен на ентропията на текста, т.е. излишността на думите в тестовия корпус по отношение на този езиков модел. ] 1 N log P P = 1 N N log p (w n h n) n = 1 P. Dreuw et al.: Непрекъснато разпознаване на жестомимичен език 25 Семинар на езика на жестовете 2006 27 октомври 2006 г.

Приложение: Характеристики на траекторията на ръка изчисляват глобални характеристики, описващи геометрични свойства на оценката на траекторията на ръката на ковариационната матрица Σ t за позиции на ръцете в определен времеви прозорец 2 + 1 µ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut µ t) (ut µ t) T собствените стойности λ t, i и собствените вектори vt, i на матрицата на ковариацията могат да бъдат използвани като глобални характеристики. P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 26 Семинар на езика на жестовете 2006 г. 27 октомври 2006 г.

Приложение: Характеристики на траекторията на ръцете 40 60 80 100 120 0 позиции на ръцете в собствените вектори vi 20 40 60 80 100 120 140 160 позиции на ръцете в собствените вектори vi 140 60 80 20 40 60 80 100 60 позиции на ръцете в собствените вектори vi 180 0 20 40 60 80 100 120 140 160 180 70 позиции на ръце ut собствени вектори vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 27 Семинар на езика на жестовете 2006 27 октомври 2006 г.

Приложение: Резултати - информация за контекста 40 размер на прозореца = 5 размер на прозореца = 3 размер на прозореца = 7 35 WER [%] 30 25 20 50 100 150 200 250 300 измерение Комбинация чрез прозорци на PCA-трансформирани изображения P. Dreuw et al.: Непрекъснато разпознаване на езика на жестовете 28 Семинар за жестомимичен език 2006 г. 27 октомври 2006 г.

Приложение: Резултати - Езиково моделиране 80 70 60 нулеграм униграм биграм триграма WER [%] 50 40 30 20 10 0 100 200 300 400 500 LM резултати от скала за различни езикови модели и мащабиращи фактори 2006 г.