Пример за работа на метода на най-близкия съсед

Методът на най-близкия съсед е най-простият метричен класификатор, който се основава на оценка на сходството на различни обекти.

Анализираният обект принадлежи към класа, към който принадлежат субектите от учебната извадка. Нека да разберем какъв е методът на най-близкия съсед. Нека се опитаме да разберем този сложен въпрос, да дадем примери за различни техники.

Хипотеза на метода

Методът на най-близкия съсед може да се счита за най-често използвания алгоритъм за класификация. Обектът, подложен на класификация, принадлежи към класа y_i, към който принадлежи най-близкият обект от учебния набор x_i.

Специфика на техниката на най-близките съседи

Методът на най-близките съседи подобрява надеждността на класификацията. Анализираният обект принадлежи към същия клас като по-голямата част от неговите съседи, тоест k обекти, близки до него в анализираната проба x_i. Когато решавате задачи с два класа, броят на съседите ще бъде нечетен, за да се изключи двусмислена ситуация, ако един и същ брой съседи принадлежи към различни класове.

Претеглена техника на съседите

Анализираният метод за най-близките съседи на postgresql tsvector се използва, когато броят на класовете е поне три и не може да се използва нечетен паритет. Но двусмислието възниква дори в тези случаи. Тогава i-тият съсед получава теглото w_i, което намалява с увеличаването на ранга на съседа i. Обектът принадлежи към класа, който ще има максималното общо тегло сред близките съседи.

Хипотеза за компактност

Всички горепосочени методи се основават на хипотезата за компактност. Той приема връзка между мярката за сходство на обектите и тяхната принадлежност към един и същи клас. В такава ситуация границата между различните изгледи е проста и класовете създават компактни, мобилни региони в обектното пространство. Под такива области в математическия анализ е обичайно да се означават затворени ограничени множества. Тази хипотеза не е свързана с ежедневното възприемане на тази дума.

Основна формула

Нека разгледаме по-отблизо метода на най-близкия съсед. Ако се предлага образец за обучение под формата "обект-отговор" X ^ m = \; ако за набор от обекти е зададена дистанционната функция \ rho (x, x '), която се представя под формата на адекватен модел на сходство на обекти, с увеличаване на стойността на тази функция, сходството между обектите х, х '.

За всеки обект u ще изградим обекти от тренировъчната проба x_i с увеличаване на разстоянията до u:

\ rho (u, x_) \ leq \ rho (u, x_) \ leq \ cdots \ leq \ rho (u, x_),

където x_ характеризира обекта от учебната извадка, който е i-тият съсед на оригиналния обект u. Използваме подобно обозначение за отговора на i-тия съсед: y_. В резултат на това получаваме, че произволен обект u провокира промяна в номерирането на собствената си извадка.