Дървета за вземане на решения и регресия

Дървета на решенията и регресия на ансамбли „Случайни гори“

решения

Данни и модел Принципът е общ Класификация Регресия Официален: имаме данни за обучение под формата на вектори X i с етикетите Y i. Етикетите са: Категории (дискретни) за класификация Продължете за регресия

Индукционен принцип на индукция: Извличаме правила от примери Предполагаме, че правилата са валидни дори когато разполагаме с много данни Парадигма на индукция и дедукция: В индуктивната стъпка формираме правилата. В дедуктивната стъпка използваме правилата за прогнозиране на етикети за нови данни

Класификация и регресивни дървета Дървото е предсказващ модел, който: Конструира въз основа на набор от двоични решения Изчислява изходна стойност Разликата между регресията и класификацията (в конструкция) се дава от целевата функция

Използвайте индуктивен подход Използвайте конкретни данни за изграждане на много по-общи правила Предсказващ модел, базиран на поредица от булеви тестове Последователността на тестовете е по-силна от много сложни класификатори Как изглежда дървото на решения Как изглежда дървото на решенията?

Това животно е. Тегло на котки или кучета> 6 кг Да Не Удари в минута> 150 съня> 15 часа Кучетата са по-масивни, но има затлъстели котки и има чихуахуа Големите кучета спят много Да Котка Не Куче Да Не Тегло> 35 кг Куче Животно = (тегло, удари на минута, докато спи, индекс на красота) индексът на красотата не е полезен Да Не Кое животно е това, описано от (45,80, 10 9) Коте куче Но (8,180,18,7)

Индуктивно обучение В това дърво за решения взехме поредица от двоични решения и изградихме клон Животно: какво гадене има? Колко време спи? Какъв е пулсът ви? Отговаряйки на тези въпроси с ДА или НЕ, ние правим разлика между кучета и котки

Данни в таблица Комплект за обучение Пример Атрибути Етикет Тегло Пулс Спяща красавица Лапа 5 100 8 5 Куче - Лабрадор Пуфи 3,5 180 16 9 Котка - Европейско Макс 65 45 13 7 Овчарско куче Рекс 6 130 16 8 Кучешко куче Динго 00 15 7 Котка - слабаного Брут 1,5 140 7 1 Куче - Пекинез Аски 15 160 19 8 Котка - утре кун гра Муци 1 130 0 Котка - затлъстяване Карамел 5 10 16 9 Котка - Бирмански Черно 4 0 16 10 Котка - Норвежки Нейж 0 80 18 10 Куче - Хъски Гарфийлд 8 180 19 4 Котка - червенокоса Тото 30 85 1 6 Куче - корситура

Избор на атрибути Предишната таблица показва 4 атрибута: тегло, сърдечна честота, продължителност на съня и красота Но решението се взема на базата само на три красота не е от значение Защо? Добре е?

Как се създава дърво за вземане на решения Данните са описани чрез списък с атрибути. Атрибутите могат да бъдат дискретни или непрекъснати. Помислете за всеки атрибут на свой ред и за текущия момент изберете този, който произвежда най-доброто разделение. се разрешава рекурсивно по подобен начин

Изграждане на дърво Обучение Какви променливи се използват в текущото сравнение и къде? Кога спираме? Продължаваме? Терминалният възел получава етикет.

Алгоритъм за дърво на решенията Основната идея е: Изберете най-добрия атрибут за сравнение и разделете примерите според взетото решение, въз основа на този атрибут Повторете процеса, рекурсивно, за всяко поддърво Ние спираме, когато: Всички съдилища остават в подпроблема има същия етикет Няма повече атрибути, които да опитате Няма повече данни

Класификация Мярка, която трябва да се оптимизира: GINI индекс (примесен индекс) GINI (X) 1 N p i i1 P i относителна честота на клас i в набора от данни X (под) на съответното разделяне По-ниските стойности на GINI са по-добри. Gini == 0 чист клас Първоначално измерва социалния дисбаланс

Дърво на класификация (решение) Данни за обучение Obj x 1 xy X 1 0,14 1,6 3 X 3,7 1,4 1 X 3,4 0,6 XN 0,15 0,87 3 x 0 4 SPLIT (алчен): MinGINI = RealMAX За всяко измерение d = x 1 x За вал = min (d 1 d N-1): max (d 1 d N-1 Разделяне между val d_i и val d_i + 1 Стойност на подмножество = по-голямата част от стойностите в подмножество Изчисляване на GINI. Ако е по-малко от MinGINI, съхранявайте края Край Използвайте размер и вал, които водят до MinGINI x 1

Дърво на класификация (решение) Данни за обучение Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 x 1 0 4 x 1 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1

Данни за обучение Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1 Класификационно дърво (решение) x 1 0 Разделяне x 1