Прилагане на семантични мрежи към анализ на текст - семантични мрежи

Семантичните мрежи се използват за анализ на текст, който се основава на представянето на значението на текста под формата на асоциативна семантична мрежа. Семантичната мрежа е набор от понятия (думи и фрази), свързани помежду си. Семантичната мрежа включва най-често срещаните думи от текста, които носят основното семантично натоварване. За всяка концепция се формира набор от асоциативни (семантични) връзки, т.е. списък на други понятия, в комбинация с които се среща в изреченията на текста. В същото време се смята, че колкото по-често две понятия се срещат заедно в изречения от текста, толкова по-голяма е вероятността те да са свързани по значение.

Оригиналните лингвистични алгоритми използват морфологичен и синтактичен анализ, както и тезауруса на руския език, за да идентифицират близки по значение думи и фрази. Например изрази като „загуба на няколко библиотечни книги“ и „загуба на две библиотечни книги“ се принуждават към същото понятие като „загуба на библиотечна книга“. Освен това от броя на понятията се изключват често срещани думи, които не носят независимо семантично натоварване или имат широко значение.

Максималната стойност за тематично тегло (равна на 100) съответства на ключовата (най-важната) тема на документа. Стойността, близка до нулата, за тежестта на темата показва, че тя се споменава само мимоходом в текста и има малко информация, свързана с тази тема.

От своя страна връзките между двойките теми също имат характеристиките на теглото на връзката (от 0 до 100). Голяма стойност на тежестта на връзката от една тема към друга, близка до 100, показва, че непреодолимата част от информацията в текста, отнасяща се до първата, се отнася и за втората тема - първата тема е почти винаги представена в контекста на секундата. Стойността с ниско тегло отразява факта, че първата тема е слабо свързана с втората (тя се представя независимо от нея). Връзката между двойка мрежови теми винаги е двупосочна, но връзката от първата тема към втората не винаги има същото тегло като обратната - от втората към първата. Подобна разлика в тежестите може да означава, че една тема е подтема на друга.