Как Yandex разпознава платени връзки (част 6)

На практика методите за филтриране на спам на Байес са особено популярни. За да работят тези методи, филтърът за нежелана поща се нуждае от обучение. Ръчно сортиран списък със спам и редовни съобщения се изпраща до програмата, за да се определят статистическите характеристики на спама. Обучението на програмата никога не спира, поради което съвременните филтри за нежелана поща могат ефективно да се противопоставят на спама.
Доклад на Яндекс Мадрид. Приказката е лъжа, но в нея има намек ...
Е, доклад от Мадрид, вие казвате - ние учим ... Докладът описва доста прост експеримент за идентифициране на платени връзки. Класификаторът на платени връзки, споменат в доклада, се основава на два основни принципа:
Б) Като се вземе предвид броят на страниците с различни теми, към които се отнася страницата на донорския сайт. Тоест, ако страницата на донора води към минимален брой сайтове с възможно най-близки теми, това е доказателство в полза на естествената връзка.
Самият алгоритъм за идентифициране на корумпирани връзки няма да бъде даден тук; докладът от Мадрид на Яндекс може да бъде намерен в Интернет. Ще изразим само заключението на ораторите, че ефективността и точността на алгоритъма, базиран на тези принципи, клони към 100%.