Автоматично генериране на правила за машинна транскрипция на групи фамилия и имена - тема на научна статия

Текст на научната работа на тема „Автоматично генериране на правила за машинна транскрипция на фамилни и именни групи“

Автоматично генериране на правила за машинна транскрипция на групи фамилия и имена

Московски държавен институт по електроника и математика, кат. ITAS

Проблемът с транскрипцията на фамилни групи и собствени имена като цяло постоянно възниква в най-различни области - от лингвистични, като създаването на системи за машинен превод или синтез на реч, до чисто практически, например при превод на документи или географски карти.

Има няколко подхода за прехвърляне на собствено име чрез друг език [2]:

• превод (напр. Великденски остров - Великденски остров). Този метод се използва много рядко за собствени имена, тъй като те често нямат ясно изразено значение.

• транслитерация - съвпадение на всяка буква от изходния език с буква на целевия език. Този метод може да изкриви звука на думата, тъй като почти всички езици имат стабилни комбинации от букви, които се четат по специален начин. Дори правилата за разширена транслитерация - тоест правилата, позволяващи да се съчетае една буква с няколко (sh ^ -ш) - не винаги са достатъчни, за да опишат всички фонетични и графични зависимости, които съществуват в езика

• транскрипция - прехвърляне на дума с помощта на друг език, като се вземе предвид нейният звук

o фонетична транскрипция - използва се за предаване на фонематичния състав на дума или морфема; отразява само фонеми в писмен вид, без да се вземат предвид техните варианти и нюанси относно фонематичната транскрипция - трябва да отразява точно всичко

фонетични особености на звуците; се основава на латинската азбука с добавяне на специални букви и диакритика за практическа транскрипция - транскрипция, използваща различни подходи в зависимост от ситуацията и, за разлика от предишните разновидности на транскрипция, фокусирана върху практическото приложение С развитието на информационните технологии, когато много области, в т.ч. и лингвистика, претърпяла автоматизация, се появи концепцията за „машинна транскрипция“ - транскрипция, извършена с помощта на компютър. Очевидно е, че всяка транскрипция - фонетична, фонематична и практична - може да бъде автоматизирана, но обикновено терминът "машинна транскрипция" се разбира като практическа транскрипция, тъй като автоматизацията често е необходима в практически области на дейност. Предметът на тази статия е практическа машинна транскрипция.

Преди това различни групи изследователи вече бяха разработили средства за машинна транскрипция, много от тях имаха доста висока точност. Но всички тези инструменти използват ръчно написани системи от правила за всяка конкретна двойка езици. Новостта на тази работа е, че тя предполага

автоматично генериране на правила за всяка двойка езици. По този начин програмата ще реши два проблема наведнъж: генериране на правилата на машината

транскрипция и разбор на думи според получените правила.

Тази работа се основава на програмата "Transscriba" [2]. Авторът използва модели на данни, разработени за тази система. В неговата рамка вече са направени опити за създаване на инструмент за автоматично генериране на правила за машинна транскрипция въз основа на тестов списък с имена, за които е известен преводът на руски език. Разгледан е азбучен списък с имена, намерени са общи фрагменти, които са имали един и същ оригинал и превод и на тяхна основа са изготвени правила. Този подход обаче генерира много неадекватни правила: например правила от формата A ^ ‘>’, където A е азбучна буква, ‘>’ е краен знак на дума. Имаше и трудности при избора на някои дифтонги и съгласни съгласия.

2. Понятие за метода

Машината на състоянието, използвана в тази система, е конвертор: входът на машината получава низ на оригиналния език, а изходът на машината е низ на целевия език (т.е. на руски). Системата от правила, използвана в програмата Transcriba, може да бъде представена като преходна функция за автомат на състоянието. В съответствие с четирите типа правила (A ^ B, A ^ M, K ^ M, A ^ 0, където A и B са букви, а K и M са набори от букви), има четири вида преходи в краен автомат:

• A ^ B: преход от състояние q1 в състояние q2 с преобразуване на входния символ A в изходния знак B

• A ^ M: преход от състояние q1 в състояние q2 с преобразуване на входния символ A в набор от изходни символи M (лесно е да се види, че това правило е обобщен случай на първия вид правила)

• K ^ M: преход от състояние q1 в състояние q2 чрез символ A1 (K = A1A2_AP) и по-нататък в q „.1 без преобразуване на входни символи, след това преминаване от q„ .1 в с преобразуване на низа K в низ M

• A ^ 0: преход от q1 в състояние q2 с преобразуване на входния знак A в празен низ

Правилата, които вземат предвид писмото, предхождащо даденото, или идващо след него, ще бъдат разделени на няколко правила - за всяка буква, която може да повлияе на дадената. Например, правилото „‘ 8 “преди гласната да премине към„ z ““ ще бъде заменено с 6 прехода в краен автомат - с броя гласни. Подобна замяна може да изглежда като усложнение на процеса на синтактичен анализ, но от друга страна, когато се използва старата система от правила, компютърът трябваше да проверява всеки път, когато писмото принадлежи към набор от гласни или съгласни, което не е