История на синтеза на речта

Говорещата машина на Волфганг фон Кемпелен

Първите опити за генериране на човешки език чрез машина са направени през втората половина на 18 век. направени. Ч. Г. Краценщайн, професор по физиология в Копенхаген, преди това в Хале и Петербург, успява да произведе гласни с резонансни тръби, свързани с тръби на органи (1773). Приблизително по това време Волфганг фон Кемпелен вече е започнал експерименти, които са го накарали да изгради говореща машина. Фон Кемпелен е ингений в служба на Мария Терезия във Виена. Роден е през 1734 г. в Пресбург, тогавашната столица на Унгария, и умира във Виена през 1804 г. Въпреки че той стана по-известен с други действия, изучаването на човешкото производство на реч беше основната му грижа, като се има предвид и терапевтичното приложение. Той е наречен първият експериментален фонетик. В неговата книга Механизъм на човешкия език и описание на говореща машина (1791) той също описва много подробно своята езикова машина, за да могат другите да я пресъздават и подобряват. Шестте рисунки, показани по-долу вдясно, са взети от тази книга. (Щракнете, за да видите увеличен - и обратно със съответния бутон на вашия браузър.)

Машината на Фон Кемпелен е първата, с която е възможно да се произвеждат не само отделни речеви звуци, но и думи и по-кратки изречения. Според Кемпелен можете да „придобиете възхитително умение да свирите за период от три седмици, особено ако преминете към латински, френски или италиански език, защото немският е много по-труден“ (поради честите затворени срички и Пакет съгласни).

Машината се състои от духало, задвижвано с дясната предмишница, което симулира белите дробове (горен чертеж). Противотежестта се грижи за „вдишването“. Двете чертежи по-долу показват „вятърния сандък“ с някои лостове, с които може да се работи с пръстите на дясната ръка, както и гумената „уста“ и „нос“ на устройството. Двете ноздри трябва да бъдат затворени, ако не се произвежда нос.

Въздушният поток се насочва не само към устата през тръстика, но и през тясна тръба, разположена успоредно на нея. Това позволява въздушното налягане в устната кухина да се повиши, ако отворът на закрепващата тръба е напълно затворен, за да произведе беззвучни речеви звуци. След това малък духал осигурява допълнителен въздух, когато ключалката се освободи.

С лявата ръка резонансните свойства на устата също могат да бъдат повлияни чрез покриване на отвора по различни начини. Това позволява някои гласни и съгласни да бъдат симулирани в достатъчна степен. Това не е имитация на естествена артикулация, тъй като формата на закрепващата тръба на машината по своята същност е неизменна. Някои гласни и особено съгласните [d t g k] не могат да бъдат имитирани, но в най-добрия случай могат да бъдат симулирани. [L] се получава чрез поставяне на палеца в устата.

Функцията на гласовите гънки се симулира от тръстика, направена от слонова кост (ляв чертеж). Версията, описана в книгата, все още говореше монотонно, но вече имаше възможност за промяна на ефективната дължина на тръстиката и по този начин височината на гласа.

Два от лостовете, които се управляват от дясната ръка, се използват за генериране на фрикативи [s] и [], както и [z] и [] посредством отделни, съскащи тръби (чертеж вдясно). Дрънкане [R] се генерира от устройство, което пуска жица върху люлеещата се тръстика (чертеж в средата).

Последната версия на машината Kempelens е запазена и до днес. До 1906 г. в к. к. Музикална консерватория във Виена и след това прехвърлена като фондация в Германския музей (на шедьоври на естествените науки и технологии) в Мюнхен, който е основан само три години по-рано. Оттогава тя е изложена в отдела за музикални инструменти. Това устройство се различава от версията, описана в книгата, по това, че дължината на люлеене на тръстиката може да се променя с резе, което може да се управлява от дясната длан. След това можете да опитате да симулирате естествен ход на интонацията.

Говорещата машина на Волфганг фон Кемпелен, както може да се види в Дойческия музей в Мюнхен и да се види отгоре, с отстранен капак на кутията. Изгледи на фонетичния механизъм

На 8 юли 1997 г. се насладих на привилегията да изпробвам машината на Кемпелен. Механизмът им за настройка все още работеше и контролът на височината все още имаше ефект. Гласът беше подобен на детски и доста силен. Въпреки това, няколко основни детайла на устройството вече не бяха в изправност.

Реплика на машината, демонстрирана от Уитстоун в Дъблин през 1835 г., се различава от тази, описана в книгата на Кемпелен, по това, че има ковък накрайник и лост за потискане на гласа, но липсва механизъм за промяна на височината на последната версия на Кемпелен.

През 19 век Изградени са няколко други машини от подобен тип, но фундаментални нововъведения в областта на синтеза на речта всъщност не са записани за този век. Заслужава да се спомене обаче устройството, представено от Джоузеф Фабер през 1835 г., което, в сравнение с машината на Кемпелен, представлява напредък, тъй като има и език и фаринкс, който променя формата и е подходящ и за синтеза на пеене. Мехът му се задвижва от крачен педал, а останалата част от операцията се извършва чрез клавиатура.

„Евфония“ на Джоузеф Фабер, както е показана в Лондон през 1846 година. Машината произвежда обикновена и шепнеща реч и пеене, наред с други. химнът "Бог да пази кралицата".

През 1937 г. Р. Р. Рис (САЩ) все още изгражда устройство с подобна концепция на тази на Кемпелен, но с по същество реалистична форма на удължителната тръба.

Механичният модел на генериране на реч, конструиран от Riesz (1937).

Въпреки че Кемпелен вече беше осъзнал, че един е само а Ако искате да използвате удължителна тръба, ако искате да произвеждате непрекъсната реч, устройства с отделни резонатори за по една гласна са създадени за други цели дори повече от сто години по-късно. The Sirеnes a voyelles et rysonateurs buccaux от G.R.M. Мараж (Париж, 1900).

VODER на Homer Dudley

Развитието на електротехниката в началото на 20 век дава възможност да се произвежда речев звук по електрически път. Първото по рода си устройство, което предизвика голямо раздвижване, беше това, разработено от Омир Дъдли ПРЕДИ, който беше представен на обществеността на Световното изложение през 1939 г. в Ню Йорк. Това обаче изискваше много дълъг период на практика, за да може да се използва успешно.

Функционална схема на VODER и представянето на устройството на Световното изложение през 1939 г.

Ръчно управлявани устройства за синтез на реч като Kempelens и ПРЕДИ Те бяха предимно за развлечение, но имаха по-дълбоко минало. Устройството на Кемпелен е създадено успоредно с изследването му върху поколението на човешката реч, а устройството на Дъдли израства от ВОКОДЕР (Voice Coder), чиято цел е била да се намали честотната лента, необходима при предаване на глас по телефона, така че по дадена телефонна линия да могат да се извършват по-голям брой междуселищни разговори.

Възпроизвеждане на образци на Франк Купър

Източник на светлина създава лъч, който удря радиално въртящ се диск. Дискът има 50 концентрични звукови песни, като звуков филм, чрез които се възпроизвеждат 50 частични тона с основна честота от 120 Hz. Модулираната по този начин светлина се проектира върху спектрограма, чиято отражателна способност или, в друг работен режим, чиято светлинна пропускливост съответства на нивото на звука на частичните тонове, и се подава към фотоклетка, с която светлинните колебания най-накрая се преобразуват в колебания на звуковото налягане. Спектрограмата се премества покрай светлинния лъч на ролки. Това дава звуков сигнал, който е подобен на оригиналния речев сигнал, но поне монотонен. Вместо правилни спектрограми, може да се използват и „спектрограми“, боядисани на ръка в бяла боя. Редица нови открития за възприемащата роля на различни детайли в звуковите спектри са получени чрез експерименти за възприятие със сигнали, генерирани по този начин.

Електрически модели на речево производство

В моделите, разработени от няколко изследователи от 1950 г., сигналът от електрически симулиран източник на звук се изпраща през филтър. Сигналът на източника е или периодичен звук, както при звуци на речеви звуци, или апериодичен шум.

Филтърът симулира резонансните свойства на гласовия тракт. Може да се направи разлика между два вида. В една, артикулацията се симулира с голям брой електрически вериги, свързани последователно, всяка представляваща късо парче от удължителната тръба (напр. 5 mm), при което площта на нейното напречно сечение е определяща (аналогова линия), аналогов на преносната линия). С другата формантите, т.е. резонансите на удължителната тръба, се симулират директно от кръг (синтез на форманти), терминален аналог).

Gunnar Fant, от Kgl. Технически университет в Стокхолм, с неговата OVE, Формантов синтезатор за гласни, при който честотната позиция на двата най-важни форманта може да се променя ръчно с направляващо устройство.

С Параметричен изкуствен взимач от Уолтър Лорънс (1953) също може да се получат пълноценни съгласни.

Компютъризиран синтез на реч

Очевидната идея за създаване на език чрез обединяване на съхранени думи или по-кратки сегменти също е възприета. Обаче отделните речеви звуци не могат просто да бъдат успешно свързани в думи и изречения, тъй като акустичните свойства на речевия звук също се определят от съответната му звукова среда. Той работи по-добре с така наречените дифони, които се състоят от втората половина на речевия звук и първата от следващите. Това обаче води до голям брой елементи, които трябва да бъдат запазени. С такива взаимосвързващи методи може да се постигне висока степен на естественост, без да се изисква пълно описание на тяхната акустична основа. Тези методи обаче не разполагат с гъвкавост на контролиран от правилата синтез.

При сегашното състояние на техниката границата на постижимата разбираемост и естественост на синтетичния език едва ли се дава от фактори от техническо естество, а по-скоро от ограничените ни познания за акустиката и възприятието на езика. В изследванията може да се използва синтез на реч за проверка на това знание. Сега има автоматични методи за акустичен анализ и повторен синтез на речта. Определени интервенции могат да бъдат направени преди повторния синтез и напр. опитайте се да промените видимата възраст на говорещия. Успехът зависи от това колко добре познавате ключовите фактори. Слушайте такива манипулации и преценете сами колко успешни са те: Манипулации във възрастта и пола на говорещите (примери за шведски).

Ето още няколко насоки по този въпрос

Волфганг фон Кемпелен в мрежата, напр. За неговата виртуална машина за шах. Можете да намерите описание на неговата книга в есе на Славомир Ондреевич (словашки и английски).
Горните примери за синтез от VODER, Pattern Playback и OVE са някои от тези, съставени от Dennis Klatt (1987). Още демонстрации.
Описание на възпроизвеждането на образци и някои от експериментите, извършени с него, е достъпно на интернет сървъра на Haskins Labs. Там се изяснява връзката между фонацията, артикулацията и акустичните свойства на речевите звуци: Артикулационен синтез.
Можете също така да изпробвате няколко мрежови системи за синтез на реч от различен тип, контролирани от текст. Избор на връзки може да бъде намерен в он-лайн синтез.
Още примери за синтез на реч.
Институтът за фонетика и лингвистична комуникация към университета в Мюнхен разполага с няколко текста, готови за изучаване на акустичната фонетика: Акустична фонетика (HG Tillmann и F. Schiel), четене на сонограми (Kirsten Machelett и HG Tillmann) и въведение в синтеза на речта ( Даниел Зборил).
Можете да намерите повече връзки по тази тема в SOCRATES.

Литература:

Волфганг фон Кемпелен (1791) Механизъм на човешкия език и описание на говореща машина, Виена: J.V. Degen, публикуван там и на френски, Le Mйchanisme de la parole, suivi de la description d'une machine parlante. Факсимилно преиздаване на немската версия, с увод на Херберт Е. Брекле и Волфганг Вилдгрен, е публикувано от Frommann-Holzboog в Щутгарт през 1970 г. Има и по-нови преводи на унгарски и словашки.

Джеймс Л. Фланаган (1965) Анализ на речта: синтез и възприятие, Берлин: Спрингер.

Йенс-Питър Кстер (1973) Историческо развитие на апарата за синтез за генериране на статични и гласни сигнали, заедно с изследвания върху синтеза на немски гласни (Дисертация), Хамбург: Х. Буске.

Денис Х. Клат (1987) Преглед на преобразуването на текст в реч за английски, Вестник на Акустичното общество на Америка, 82: 737-793.

Йоахим Гесингер (1994) Очно ухо. Изследвания за изучаване на езика при хората 1700-1850, Берлин, Ню Йорк: De Gruyter. Хартмут Траунмьлер | Катедра по фонетика | Институт за лингвистика | Стокхолмски университет | през август 1997г.