Автоматично обвързване на текстова адресна информация с класификатора KLADR

Автор: Корниенко С. А.
Източник: Списание RSDN № 4-2007

автоматично

За да ви дам по-добра представа за качеството на първоначалните данни, ще дам пример от редовете, че намерих съвпадение ръчно:

И така, как може такава несръчна, хаотична, понякога излишна, понякога недостатъчна информация да бъде поставена в съответствие с единствения правилен ред от справочника? Това е алгоритъмът, който се предлага първоначално:

Алгоритъм 1

0. Довеждаме всички редове до един и същ регистър на букви (малки и главни букви).

Вариант 2.2 - изтриване на всички думи, по-кратки от определена дължина. Въпреки че тази опция е по-проста (няма нужда да се бъркате в справочниците), тя губи твърде много полезна информация и оставя твърде много боклук. Дори ако изтрием само думи, по-кратки от пет знака, ще загубим напълно "ул. 9 май", но нека оставим думите"област"и"село".