Многофункционален езиков процесор ETAP-3

Научни отдели >> Лаборатория номер 15 >> Многофункционален езиков процесор E.

Компютърната реализация на модела "Текст на смисъла" в доста пълен обем за първи път е внедрена от Лабораторията по компютърна лингвистика на IITP RAS. Тя е известна като ETAP-3.

Това е система, чиято основна цел е да анализира и синтезира текстове, тоест да трансформира текстовете от първоначалната им форма в някакво абстрактно представяне, близко до представяне на значението, и обратно. В допълнение към тази основна цел, насочена към решаване на основния проблем за моделиране на естествен език, има и приложен аспект. Докато системата е способна да разбира и конструира текстове, разумно е да се опитаме да използваме тази способност във всякакви специфични приложения, които могат да донесат конкретни ползи.

Между теоретичния модел и компютърната му реализация съществува двупосочна връзка. От една страна, компютърната система се стреми да въплъти теоретичните принципи на MST възможно най-точно. Това е, на първо място, представянето на всеки изказ на няколко нива (морфологично, повърхностно-синтактично и дълбоко-синтактично), образът на синтактичната структура на изречението под формата на дърво на зависимости между думите и разпознаването на речникът, заедно с граматиката, най-важният компонент на езиковия модел. От друга страна, компютърният модел е безценен за развитието на теорията, тъй като служи като обективно и надеждно тестово поле за тестване и отстраняване на грешки на теоретични предложения и конкретни решения. Факт е, че щом напуснем зоната на наблюдавания текст и преминем към по-абстрактни нива на презентация, ние губим способността директно да оценяваме резултатите. Само компютърното моделиране предоставя на изследователя възможността ясно да види колко адекватна е разработената от него теоретична схема на реалността.

ETAP-3 е многофункционален езиков процесор. Основните системи за приложение, в които беше тестван, бяха системите за машинен превод (MT) от руски на английски и обратно, работещи върху големи текстове. Това изисква:

(а) напишете пълни формални граматики на руски и английски език, включително морфология и синтаксис;

б) създаване на автоматични морфологични и комбинаторни речници на двата работни езика с обем от около 120 000 записа;

(в) напишете формални правила за трансформиране на структури, включително правила за превод на структури от най-дълбоко ниво от един език на друг;

(г) разработване на официални езици за записване на цялата тази лингвистична информация, алгоритми за работа с тях и съответните програмни комплекси.

В допълнение към руско-английската и англо-руската MP система, ETAP-3 има оформления за няколко други езика - френски, немски, испански, арабски и корейски.

В допълнение към системата MP, ETAP-3 включва:

  1. Система за дълбоки текстови анотации.
  2. Преобразуватели и преобразуватели за универсален мрежов език UNL;
  3. Системата на синонимно перифразиране на твърдения;
  4. Компютърен учебник по руски и английски речник.

Основните характеристики на езиковия процесор ETAP-3 са както следва:

  1. Многофункционалност: системата е приложима за всеки клас проблеми, при които в една или друга степен се изисква разбирането на текстове и/или изграждането на текстове според дадена семантична задача (машинен превод, комуникация с бази данни в NL, въпроси- системи за отговори, извличане на информация от текстове и др.)
  2. Многоезичие: софтуерната и алгоритмична поддръжка е напълно отделена от езиковите познания и е еднакво приложима за всеки език.
  3. Стратификация: анализът на изреченията се състои в изграждане на представяния на това изречение на няколко нива - от морфологично до дълбоко синтактично. Синтезът на изречения се извършва в обратна посока.
  4. Акцент върху лексиката: речниците на системата ETAP-3 превъзхождат останалите електронни речници по обем и най-важното по разнообразие от информация, присвоена на всяка дума. Тази информация включва по-специално синтактични и семантични характеристики, контролни модели, лексикални функции, правила, описващи поведението на отделни думи и изключения от общите правила. С такова богатство на лексикографска информация приспособяването на речника към граматиката и граматиката към речника придобива особено значение.
  5. Оригиналният формализъм за записване на езикови знания,комбиниране на богатство от изразителни възможности и удобство за използване от лингвисти с удобство за алгоритмична обработка (вижте за това по-долу, в раздел 7).
  6. Самонастройка на системата за обработка на всяко предложение:това се постига чрез въвеждане на правила в речника, обслужващи тесни класове думи или отделни думи.
  7. Интерактивност: диалог с потребителя за разрешаване на трудни случаи на неяснота.
  8. Максимално използване (многократна употреба) езикови ресурси.