Информационно-теоретичен подход

Фигура 2.4. а) еднозначна прогноза X за Y; YX.

б) индивидуална прогноза Y X.

От друга страна, отсъствието на връзка традиционно означава статистическа независимост на характеристиките X и Y. Но най-общо казано, има възможност за задоволителна прогноза на стойностите на една характеристика от стойностите на друга, и в случай на тяхната статистическа независимост. Следователно липсата на връзка се разбира като максимално изключване на характеристиките, което се постига само при определени условия за статистически независими характеристики и означава пълна липса на възможност за прогнозиране.

При конструиране на мерки за комуникация с различни характеристики, по-специално номинални, се приема, че нулева стойност показва липсата на комуникация. От друга страна е удобно горната граница, обозначаваща пълна връзка, да бъде равна на 1. Често нормираните мерки за свързване се конструират като отношения

подход

U (X) - несигурността на атрибута X поотделно, U (X/Y) - несигурността на X при стойността на Y.

Цялото разнообразие от комуникационни мерки от този тип е свързано със специфична дефиниция на понятието несигурност.

Нека X е характеристика, която приема стойности x1, ... xr с пределни вероятности p1 •, ... pr •, а Y е характеристика, която приема стойности y1, ... yr с пределни вероятности p • 1, ... p • s. Нека  (p)> 0 е някаква не нарастваща функция, дефинирана на интервала 0p1, където  (1) = 0. Нека функцията  (p) има значението за оценка на стойността на несигурността, произтичаща от измерването на атрибута X, ако резултатът xi е реализиран с вероятността pi •. Тогава средната очаквана несигурност в едно измерение на атрибута X е стойността

вероятността грешка
Очевидно тази стойност е равна на нула, ако е реализиран само един резултат с вероятността pi · = 1. Тогава условната несигурност се изразява като количество

където според теоремата за умножение на вероятности pij = p jpi/j и е условното дискретно разпределение на атрибута X за известна стойност на атрибута Y = yi.

Ако вземем  (p) = - log p, тогава несигурността на атрибута X се изразява като стойност

където H (X) и H (X/Y) представляват ентропията и условната ентропия на атрибута X. Понятието ентропия е въведено в трудовете на C. Shannon през 1948 г., посветени на проблемите на предаването на информация.

Нормализираната мярка на връзката е коефициентът на нормализираната информация. В този случай R (X/Y) = 0 за статистически независими характеристики, тъй като