Умните стаи - спектър на науката
Умни стаи
Понякога ви се иска къщата да знае къде са децата по всяко време и да ви уведоми, ако са направили нещо опасно; или офисът може да каже кога се провежда важна среща и да не се обажда. А какво ще кажете, ако колата ви разпознае, че се уморявате след дълго пътуване и ви подкани да си вземете почивка своевременно?

Отдавна се правят опити за разработване на компютърни системи с такава производителност. Скоро машините могат да поемат някои от задачите на детегледачки или секретарки.
Защо не сте могли да направите това отдавна? Виждам основната причина за това във факта, че компютрите са глухи и слепи: Можете да получите информация за света само чрез клавиатура и мишка. Дори микрофонът и камерата не помагат, докато предоставените от тях данни се транспортират или съхраняват, но не се интерпретират по отношение на тяхното значение. Вярвам, че машината трябва да възприема това, което прави нейният потребител, в много по-широк смисъл, преди да е наистина полезно за него. Още повече, той трябва също така да може да разпознае неговия човек и да може да разкрие намеренията му - поне до ограничената степен, в която друг човек или дори куче може.
За да се доближи до тази цел, моята изследователска група наскоро разработи системи, които разпознават лица, мимики и жестове. Вече можем да го използваме за изграждане на среда, която се държи в определени аспекти като описаната по-горе къща, офис или кола.
Тези интелигентни стаи, както ги наричаме, са оборудвани с камери и микрофони, от чиито данни мрежа от компютри изработва оценка на това, което хората казват и правят в записаната област. Той може да използва движения на тялото, говорене и мимики, за да даде инструкции на системата, да извика мултимедийна информация или да отиде във виртуални светове - без клавиатура и мишка и без тромавите ръкавици и каски за данни.
Основната идея е: Тъй като интелигентните стаи знаят нещо за обитателите си - от пряко възприятие или от други източници - те могат да реагират интелигентно на техните действия.
В сътрудничество с Пати Мейс и мен, докторантите Тревър Даръл и Брус М. Блъмбър построиха първата интелигентна стая в нашата медийна лаборатория в Масачузетския технологичен институт в Кеймбридж през 1991 г. Това скоро доведе до експеримент, в който участват няколко работни групи. Сега има пет такива стаи, всички свързани с телефонни линии: три в Бостън, една в Япония и една във Великобритания. По-нататъшни инсталации се планират в Париж, Ню Йорк и Далас.
Всяка от тези стаи е оборудвана с няколко компютъра. Нито едно от тези устройства не е по-мощно от обикновения компютър; всеки е проектиран и отговаря за конкретна задача, например една за анализ на изображения, друга за тази на звуците и трета за тази на жестовете. Ако са необходими повече умения, ние просто добавяме още машини.
Въпреки разликите, всички услуги за разпознаване се основават на един и същ статистически принцип: максимизиране на правдоподобността (анализ на максималната вероятност). Компютрите сравняват входящите данни със съхранени модели, изчисляват степента на съответствие и накрая определят модела, който най-добре отговаря на данните.
Преди интелигентната стая да може да разбере какво прави потребителят, тя трябва да го намери. За да направим това, разработихме система, наречена Pfinder (за намиране на хора), която регистрира и проследява местонахождението на човек, стига да се движи в стаята.
В този случай системата се нуждае от модел на човешко тяло за анализ на максималната вероятност: описание с възможно най-малко числови стойности, което въпреки това е достатъчно точно, за да бъде сравнима с данните от видеокамерата. Нашият модел се състои от няколко прости, взаимосвързани геометрични структури, които наричаме петна (буквално: петна или бучки). Седем петна - за ръцете и краката, както и за главата, горната и долната част на тялото - са достатъчни (снимка 1). Петно се характеризира със своя цвят и с геометрични размери за позиция, ориентация и форма. Освен това има информация за това колко точна или надеждна е тази информация: Вместо единично число за координата на позиция или спецификация на цвета, има разпределение около средна стойност (по-точно: ковариационна матрица).
В известна степен резултатът е концепция на модела, която системата прави за стаята и хората в нея: пухкав фугиран манекен с правилната позиция и стойка, вмъкнат в текстурен модел на фона на стаята. С тази снимка Pfinder сравнява всеки нов запис на видеокамерата; Програмата създава списък, който показва кои растерни точки (пиксели) трябва да принадлежат към кой blob според концепцията на модела и кои не трябва.
Той екстраполира от миналото: ако горната част на тялото на потребителя се е преместила с десета от секундата по-рано вдясно с един метър в секунда, Pfinder подозира, че центърът на петно, който моделира горната част на тялото, е с десета от метър по-надясно за следващата десета от секундата. Тези прогнози се модифицират, като се сравняват с типичните модели на движение, които системата е извлекла от наблюдение на хиляди хора. Например, екстраполацията включва преживяването, че горната част на тялото може да бъде огъната спрямо долната част на тялото, но не може да бъде изместена или че ръцете и краката обикновено се движат значително по-бързо от багажника.
В следващата стъпка програмата сравнява изображението на презентацията и изображението на камерата, като изважда цвета и яркостта на двете изображения пиксел по пиксел и оценява резултата по отношение на изявление за вероятност. Например, ако разликата в яркостта за един пиксел е 10 процента и в същото време функцията за разпределение на свързаното петно показва, че такава разлика се появява само в 1 процент от случаите, тогава шансът този пиксел да принадлежи на това петно е само 1 на 100.
Необходими са допълнителни корекции. Ако например част от тялото на потребителя е в сянка, има разлики в яркостта, които нямат нищо общо с посочената вероятност. Следователно Pfinder локализира сенките - определени като области, които са по-тъмни от очакваното - и коригира стойностите на цветовете на техните пиксели до еднаква яркост.
Промените в осветлението или разположението на предметите в стаята също могат да доведат до неправилно разпределяне на системата от тях. Например, ако потребителят извади книга от масата и я сложи на рафта, фонът се променя на две места: старото и новото място на книгата. Ето защо Pfinder непрекъснато актуализира данните на фона - т.е. пикселите, които не са заети от петна - чрез усредняване между старите и новите стойности на цветовете.
След всички тези различни изчисления и компенсации, Pfinder най-накрая определя петно, към което принадлежи най-много за всеки пиксел от новото изображение. Това от своя страна придобива нови стойности за данните от BLOB модела и фона, както и за текущите скорости, които се използват за екстраполиране на следващото изображение. По този начин системата винаги остава актуална, благодарение на непрекъснатото взаимодействие между текущото изображение и въображаемото.
Кой и как?
Следващата задача е да определите кой е в стаята и какво казват. Вече има много алгоритми за разпознаване на реч (Spektrum der Wissenschaft, март 1994 г., стр. 86). На практика всички тези системи работят задоволително само когато микрофонът е в непосредствена близост до високоговорителя. Стая, която разбира само човека, който стои в определена точка - а именно пред микрофона - не би се считала за особено интелигентна; Речта също трябва да бъде разпознаваема, когато говорителят се движи свободно в стаята и все още има шумове.
Нашето решение на този проблем се основава на това, че Pfinder винаги знае позицията на потребителя. Ето защо времето за преминаване на звука от устата му до няколко постоянно инсталирани микрофона може да бъде изчислено. Електронните вериги за забавяне гарантират, че всички звукови сигнали на високоговорителя в системата се събират едновременно и по този начин се сумират, докато всички останали се усредняват. По този начин получавате сигнал с достатъчно качество; той се сравнява с тези на известни думи и този с максимално съвпадение се счита за изговарян.
Толкова важно, колкото разбирането на дадена инструкция, често е да се знае кой я дава. Най-бързият начин да разпознаете човек със сигурност е лицето му. Системата първо се нуждае от модели на всички лица, които трябва да идентифицира. Математически метод от линейна алгебра, анализът на собствените вектори, създава нещо като изкуствени стандартни лица; ние ги наричаме Eigen лица. Всяко лице се създава чрез умножаване на всяко отделно лице по определен коефициент и след това добавяне на всички тях адитивно; моделът на лице, необходим за анализа, е системата от тези коефициенти на тежест.
Ако камерата на интелигентната стая вече е открила човек, системата за идентификация изолира лицето, намиращо се преди това от Pfinder, от околната среда и нормализира контраста му. След това програмата изчислява колко е подобна на всяка собствена повърхност или какво представлява едно и също нещо, кои коефициенти на тежест трябва да бъдат използвани, за да я съставите от собствените си повърхности. Тези стойности на сходство водят до модел, който се сравнява със съхранените модели на хора, които вече са известни. Нашите интелигентни стаи намериха точния човек от тестови групи от няколкостотин души с процент на попадение 99%.
На всичкото отгоре. Например, урок трябва да знае дали студентите се интересуват или им е скучно. Веднага след като нашата интелигентна стая намери и разпознае лице, тя анализира изражението му (фиг. 2). За целта специализиран компютър сравнява движенията на лицето с директории с движения, които са типични за определени емоции (фигури 3 и 4). Например, когато човек се усмихва, той извива ъглите на устата си и повдига определени части от челото си; ако имитирате само усмивка, вие само движите устата си. Нашата система успя да определи правилно избраните изражения на лицето при малка група от тествани лица до 98 процента.
В крайна сметка, за да бъдат къщите, офисите и автомобилите наистина полезни, те трябва да отнасят елементарните възприятия за идентичността, изражението на лицето и езика на човека. В края на краищата едно и също движение може да се тълкува много по различен начин, в зависимост от замисъла на неговия създател. Шофьор, който свали крака си от газта, може да поиска да спре - или да се обърне. Има обаче забележима разлика: ако искате да завъртите, вдигате индикатора и слагате ръцете си по волана по различен начин, за да се подготвите за завиване. Следователно компютърната система трябва да вземе предвид комбинация от текущи и непосредствено предхождащи движения.
За целта сме възприели принципи от технологията за автоматично разпознаване на речта: Думата се моделира в такава система от последователност от състояния - фонеми (отделни звуци) или части от фонеми - с определени вероятности за преход от едно състояние в друго: така наречената верига на Марков ( Спектър на науката, март 1994 г., стр. 90). За да разпознае изговорена дума, системата се опитва да приведе звуковия сигнал в хармония с различни вериги на Марков; в крайна сметка решава в полза на този, който работи най-добре с него.
Ние сме обобщили този подход, за да дадем възможност на автомати да изведат намеренията си от движенията на човек. Някои елементарни движения заемат мястото на фонемите. Например трябва да се прави разлика дали човек просто се движи с протегната ръка или сочи към нещо. За показване системата има вътрешен модел, съставен от три състояния: вдигане на ръка, задържане неподвижно и бързо изтегляне. Само за удължаване на ръката обаче се очаква само едно непрекъснато движение.
От разработените досега системи за интерпретация на действията, най-простите от тях позволяват на потребителя да влияе на виртуална среда чрез движения на тялото. Например, ALIVE (Artifical Life Interaction Environment), съвместно усилие на групата на Pattie Maes и моето, преобразува описанието на потребител, предоставено от Pfinder, във видео модел, който се попълва от всички видове компютърно генерирани форми на живот Околната среда е жива. Фантастичните животни оценяват информацията за жестовете, езика и позицията на потребителя и реагират на него (снимка 1). Ако се движи така, сякаш вдига пръчка и я хвърля далеч, видео изображението в средата ALIVE прави същото - и Сайлъс, виртуално куче, бяга и взима. Сайлъс също може да седне или да се преобърне по команда.
Изходните данни на интелигентна стая също могат да се използват много по-директно. Например позицията на потребителя може да бъде прехвърлена във виртуална контролна зала; дума или движение на ръка, след това действайте директно като инструкции към компютърна програма.
Това може да бъде видео игра във въображаема триизмерна среда, която се прави без обичайните контроли като джойстици. Ако враг се приближи отляво в пейзажа, играчът - в реалната стая - трябва само да се обърне наляво, да вдигне ръката си с виртуален пистолет и да извика „трясък“ - и противникът ще скърца.
Има обаче и сериозни приложения. Доста сложният американски жестов език (ASL) е добър тест за възможностите на нашата стая; следователно сме изградили система за тяхното тълкуване (фиг. 6). Създадохме модели на отделни герои, като комбинирахме множество записи на съответните движения на ръцете - анализирани от Pfinder. Досега системата е разпознала 40 ASL думи в реално време с точност от 99,2 процента. С постоянен процент на разпознаване и увеличен речник трябва да е възможно да се създаде система за разпознаване на реч за глухи и неми.
Не случайно няколко пъти споменах автомобила: Повечето пътни инциденти са причинени от грешки, допуснати от водача. Следователно ние разработваме интелигентен кокпит заедно с Анди Лиу, учен от основния изследователски институт на компанията Nissan в Кеймбридж (Масачузетс). Дългосрочната цел е превозно средство, което проследява действията на водача и предоставя полезна информация: за правилния маршрут и манипулиране на превозното средство до предупреждения за опасности.
Разработката отново започна с моделиране. От движенията на ръцете и краката на многобройни шофьори на симулиран курс изведохме поведенчески модели за типични дейности: избягване на препятствие, следване на друго превозно средство, завиване, спиране, стартиране и смяна на лентата (фиг. 5). С това системата трябва да класифицира планираните действия на тестовия драйвер възможно най-бързо. За наша изненада процентът на ударите беше 86 процента след половин секунда и 97 процента след две секунди.
Поне в прости ситуации е възможно да се проследят движенията на даден човек, да се идентифицират и да се интерпретират определени твърдения и изражения на лицето - и всичко това в реално време с умерени изчислителни усилия. Възможностите на нашите системи могат да се комбинират по много начини. По този начин ние разработваме очила, които хората разпознават и прошепват имената си в ухото на потребителя. Работим на телевизионни екрани, които се регистрират, когато някой гледа. И ние планираме да разработим кредитна карта, която познава собственика си - и по този начин също така знае дали е открадната.
Други изследователски групи в нашата медийна лаборатория работят върху оборудването на интелигентните пространства с по-дълбоко разбиране на човешките действия и мотиви. С по-нататъшния напредък компютърните системи все повече ще се държат като автономни, внимателни асистенти.
Библиография
- Графика с визуално управление. От A. Azarbayejani, T. Starner, B. Howowitz и A. Pentland в: IEEE транзакции за анализ на образци и машинно разузнаване, том 15, брой 6, страници 602 до 604, юни 1993 г.
- Системата ALIVE: взаимодействие на цялото тяло с автономни агенти. От P. Maes, T. Darrell, B. Blumburg и A. Pentland в: Proceedings of Computer Animation '95, 1995.
- Разпознаване на изражението на лицето с помощта на динамичен модел и енергия на движението. От И. А. Еса и А. Пентланд в: Сборник от Петата международна конференция по компютърна визия. IEEE Computer Society Press, 1995.
- Към разширени системи за управление. От А. Пентланд и А. Лиу в: Сборник на симпозиума за интелигентните превозни средства '95. Общество за индустриална електроника на IEEE, септември 1995 г.
- Американски жестов език в реално време от видео, използващ скрити модели на Марков. От Т. Старнър и А. Пентланд в: Международен симпозиум по компютърна визия, 1995. IEEE Computer Society Press, 1995.
- Pfinder: Проследяване в реално време на човешкото тяло. От Кристофър Рен, Али Азарбаяджани, Тревър Даръл и Алекс П. Пентланд в: Проблеми с интеграцията в големи системи за доставка на търговски медии. Под редакцията на A. G. Tescher и V. M. Bove. SPIE, том 2615, 1996.
- Медиалабораторията на Масачузетския технологичен институт има множество статии и доклади в глобалната мрежа на http: // www-white. media.mit.edu/vismod.