БАЗА ДАННИ ЗА УРАЛСКИ ЕЗИК

suihkone /). Статията се състои от лекции в Дните на науката, организирани от Университета в Хелзинки на 9 и 10 януари 1997 г. и конгреса IFUSCO 1997 на 24 април 1997 г. Преводът на немски е направен от г-жа Ирмели Хелин и доктор Хелмут Дикман се притесни. Бих искал да изразя сърдечните си благодарности и на двама ви. Бих искал също да благодаря на проф. Д-р. Ins Cornelssen за вашите коментари по тази статия.

данни

Карта 1. Езиковите области на езика Урал 5

12 CONJ_a = mutta ADV_öni = nyt PRN-NEG_n'ekod_SG_NOM = ei kukaan V-NEG_oz_PRES_3SG-PL = ei V_tydav_NEG_SG = nahkyä. # Alakuloisia ajatuksia nytä. # Alakuloisia ajatuksia. Материал в Erzänischen с морфологично кодиране (Jack Rueter 1994) 00080025 V_Uchost'_IND_PT1_SUBJ-3PL_FAB = ПОЧАКАЙТЕ N-P_Mat'an'_GEN-OBJ_IDF = (ДАВАНЕ НА ИМЕ), PRN-REL_kona_SG_NOM_AB1 = WHO V__BO__AB_V_1_BO_V_V_1 _GEN-OBJ_IDF = ЛИКВОР V_veshn'eme_INF-OBJ = ТЪРСЕТЕ. # ОЧАКВАХА МАТЯ, КОЯТО ИЗИСКВА ДА ТЪРСИ ЛУННАТА. # 00080026 PRN-НА СИН SG3 NOM = SHE V_sas'_IND_PT1_GUB_DF_SUB_PB1-GABB ATR IDF = ЕДИН, КОЙТО Е ПРАЗЕН N kedt 'PL NOM-COM IDF = РЪКА. # ВРЪЩА СЕ ПЪРВО РЪКА. # 00080027 N kedt' PL NOM-COM IDF = РЪКА 00080027 NUM_Kavto_SG_NOM_IDF = ДВЕ N_kudoso_INE_IDF'N HOIN '_IND_PT1_SUBJ-1SG_FAB = BE, PRN-_mez'ejak_SG_NOM_IDF_PCL-INCL = НИЩО PCL-NEG1_a = НЕ V_maksit'_IND_PRS_SUBJ-3PL_FAB = ДАЙТЕ PR N-PER тон 'SG2 GEN = ВАС N_kasol'ent'_SG_GEN-OBJ_DEF = БОБОВЕ POP_kise_INE_IDF = ЗА, N-P_Pakhom_SG_NOM = (ДАДЕНО ИМЕ). # БЯХ В ДВЕ КЪЩИ, ПАХОМ, НО ДА НЕ ПОДАГАТ БОБ. #

Sölkupic корпус с морфологично и синтактично кодиране и немски превод (Jarmo Alatalo 1998) 13 Itja и Pünegusse. (A8) T: A8. iicjä Immrljantrsä urrkäsjprkkaqr. Итя живееше при леля си. iicjä N SG NOM SBJ imprljantrsä N SG KOM 3S LDM SAD urrkäsjprkkaqr V AOR 3DS FRE KNT VER T: A8. okkrr taaqrn iicjä mykka Immrljaqrntr: Итя веднъж каза на леля: okkrr P ATR taaqrn N SG LOK SAD iicjä N SG NOM SBJ mykka V AOR 3SS FRE VER imprljaqrntr N SG DAT 3S LDM SAD T: A8. „човек, който колатанг qarrngtrlj aaqqrn poqlontr“. „Отивам до залива на коритото на наклонената река“. man P SBJ kojalang V OPT 1SS VER qarrngtrlj P IP TRA ATR aaqqrn N SG GEN ATR poqlontr N SG DAT SAD Udmurtisch (Pirkko Suihkonen 1998b: 30-31, 48-49, тестово кодиране) (1) Морфологично кодиране с преводи на основните форми на думи Dzhog_ADV_MAN бързо, скоро ortts '+ и + z_v_-cont_-tra_ + fin_ind_past_sg3 да премине (далеч) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM златен kuaro_a_scal_sg_nom, z_v_-cont_-tra_ + fin_ind_past_sg3 да премине (далеч) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM златен kuaro_a_scal_sg_nom, z_v_a_scal_sg_nom с листа dyr_G_sg_nom + z_m_vhu-cont_sg_nom + dyr_G_SG_NOM + time_s_vhu време + z_vhu-AN_CO -tra_ + fin_ind_past_pl3 да дойде zhob_a_scal_sg_nom гаден, неприятен siz'yl_n_ + count_-anim_sg_nom A_SCAL_SG_NOM ADV_TIME есен nunal + jos_n_ + count_-anim_pl_nom ден. В + ez_N_ + COUNT_-ANIM_SG_ACC небето, небето

15 автоматичният анализ първо дава словоформата в корпуса, след това интерпретацията на съответната словоформа, т.е. техните значения, изброени. Тълкуването съдържа основната форма на думата и морфологичния анализ на думата. Всички значения на съответната форма на думи заедно образуват кохорта (Karlsson 1992: 3; Karlsson 1995: 46). В UHLCS се използва програма за автоматичен анализ на фински език. Автоматичен анализ на финландския (Koskenniemi 1983) (котката е спала на стабилните стълби и е мечтала за лятото) * kissa nukkui tallin portailla ja uneksi kesästä. (") (" ("kissa" N NOM SG)) (" ("nukkua" V PAST ACT SG3)) (" ("talli" N GEN SG)) ("

"(" porras "N ADE PL)) (" "(" ja "COORD C)) (" "(" uneksia "V IMPV ACT SG2) (" uneksia "V PRES ACT NEG) (" uneksia "V PAST ACT SG3 ) ("uni" N TRA SG)) (" ("kesä" N ELA SG)) (") Ако е програмирано автоматично кодиране за анализ на език, тази програма може да се използва за кодиране на допълнителни материали Задачата на кодирането, било то автоматично или ръчно, е да осигури възможно най-надеждни познания за съответния език.Освен това, кодирането трябва да се извършва толкова внимателно, че нито една от информацията в оригиналния текст да не бъде загубена Могат да бъдат приложени концепция или системи за кодиране, обработени за типологично различни езици 5. Използване на материала за изследователски цели Материалът може да се използва по много начини

16 езика и редактиране на материали за речници и граматики. Тази категория включва, наред с други удмуртския речник, който е създаден от материала на текстовия корпус на Удмурт. По-късно речникът ще бъде достъпен на електронния сървър на корпусите. В следващия пример думата удмурт е на първо място, след което е последвана от нейния превод на английски и фински. Електронни корпуси като материал за речници (Suihkonen, Zagulyayeva & Tronina 1995: 17) UDMURT/UDMURTTI ENGLISH/ENGLANTI FINNISH/SUOMI ad'ami, N man, man; човек. химин; лошо; henkilö. addz '+ em, 1 V PCPL

, 2. N 1. s. addz'yny. 2. виждам. 1. ks. addz'yny. 2. Некеминен. addz'empoton, N искам да видя. halu sewdä. addz'empot + on + tem, ADJ ks. addz'empoton; омразен; отвратителен. ks. addz'empoton; вихаттава; vastenmielinen, inhottava. addz'empotostem = addz'empotontem. addz'em # pot + y + ny, V INF, за да искате да видите. haluta sewdä. addz'is'k + е ', V PCPL

с. addz'is'kyny. ks. addz'is'kyny. addz'is'k + on, N 1. видимост. 2. среща, среща. 3. призрак. 1. Näky (väi) syys. 2. kohtaus; тапаамини. 3. aave. addz'is'k + on + tem, PCPL

с. addz'is'kyny. ks. addz'is'kyny. addz '+ is'k + y + ny, V INF

uralilaisten kalten tietopankki ovat osa Helsingin yliopiston> tallteilla olevaa eri kalten tietopankkia. 19 Програмата kw-alg търси притежателните суфикси -ez и -yz на 3-то лице в sg. И мн. От таблицата на Удмурт като символна последователност, която може да бъде и суфикс за съгл. Входният файл на конкорданса е морфологично анализиран раздел от текстовия корпус на Удмурт. Примерният материал е превъртащ се текст без преобразуване за главни букви и препинателни знаци. kw-alg '\ + (ez hez yz)' целеви файл 104: Anaj + ez kosem + ys 'gine kyti-oti tölatis'ky + ny 125: a, inzhen'er + ly dyshetskon s'ures + ez. 118: i + z t'ehn'its'eskoj l'it'eraturaj + ez. 48: 'ko + d + -a, myn + a + m tshukaz'e berpum + yz Erkyn nunal + e kyl' + i + z. 69: Виктор Ивановиц '+ len pits'i dyr + yz s'elo + ja + my ortts' + i + z. 91: Esh + jos + yz uram + yn kalg + o, Следващият пример е извадка от целия материал на корпуса на Северна Лапша. Като параметри за програмата за съгласуване, освен дефиницията на входните и целевите файлове, числата се дават и като идентификатори на думата, последователност от символи между два пунктуационни знака и дължината на контекста. KWIC 4 4 целеви файл sápmelas'vuo а йа gávnnahii, SUS листовка skandinávalas "ва IGI buoremus dovdomearka леи, SUS леи ritmalac'c'at NJO л ásaidahttojuvjuvot eanet ну, ávdin йа geavatkeavohtes eaje и datneju asju asvit ну, kgo и DAT te sámec'earddaid gaskkas nu, viimmát nuortasámiid stii lmmos 'sáhttá govviduvvot nu, váldá ovdan iez'as árbevi ápmelac'c'at leat jurddas'an, vuoinjnjat lattditat sivdnidant да vuovdit "sámegovaid", maidda ássi vuoinjnjaide vuo uduvve dán dihtui luonddu gierd n goit bázii s'addat dovddusin sámi dáiddac'eahppin, id álgovu oleamus 28, журналист Мати (1872-1929) lei vuos Институтът за лингвистика към Университета в Хелзинки поддържа съоръженията и гарантира, че използваните програми са актуални и оптимално приложими. Институтът също така преподава основни познания за операционната система UNIX и използването на електронни корпуси като изследователски материал. Лингвистичните институти на университета в Хелзинки също предлагат такъв през семестрите