Оптимизиране на алчни функции - Класиране на обучението (matrixnet)

Предлагаме Ви да се запознаете с документа, връзката към който е публикуван от представители на Яндекс в техния блог тук (преразглеждане на архитектурата за класиране), при обявяване на нов алгоритъм за класиране, наречен „Снежинск“

Оптимизиране на алчни функции - Класиране на обучението

Приближаването на алчната функция и усилените алгоритми са много подходящи за решаване на практически задачи за машинно обучение. Ние описваме добре известни амплифицирани алгоритми и техните модификации, които се използват за решаване на проблеми с ученето в класирането.

Съдържание

Класиране на търсачките

Характерен модел за класиране

Обучение за класиране. Проблеми с оптимизацията (списък, точка, двойка подходи).

Точкови подход. Приближаване на засилените алгоритми и "алчната" функция.

Списък подход. Приближаване на сложни критерии за оценка (DCG, nDCG).

Класиране в търсачките.

основна цел: класиране на документи според степента на съвпадение на заявката за търсене.

Как се класира?

Наборът от документи, съответстващ на всяко от условията q Є Q .

Резултати за уместност за всяка двойка (заявка, документ) - в нашия модел това са реални числа rel (q, d) Є [0, 1]

Критерии за оценка

Резултатът за класиране ще бъде средната стойност на критериите за точкуване при множество търсения Q:

Точност-10 - процентът на документи с релевантност над нула в топ 10

КАРТА - Средна точност

където k е броят на документите с положителна оценка на съответствието, съответстваща на заявката q, n r (i) е позицията на i-тия документ с оценка на съответствието над нулата.

DCG - намалена печалба

където N q е общият брой на документите в класацията, rel j е оценката за уместност на документа на позиция j .

nDCG - Нормализирано намаление на печалбата

Всяка двойка (заявка, документ) е описана като вектор на характеристики (характеристики):

Класиране при търсене - сортиране по "функция на уместност". Функцията за уместност е комбинация от характеристики (характеристики):

fr (q, d) = 3,14 • log 7 (f 9 (q, d)) + e f 66 (q, d) + ...

Задачи за оптимизация

Как да получите добра функция за уместност?

Създавам набор за разпознаване (учене?) примери P l - набор от двойки (q, d) с релевантност rel (q, d).

Използвайте обучение (обучение, разпознаване?), За да създадете методи за класиране за Fr .

Проблеми с оптимизацията (списъчен подход)

Необходимо е да се реши проблемът с директната оптимизация:

където F е набор от възможни функции за класиране,