Лектор Stefanie Jahn SS 2007 - ppt видео онлайн изтегляне

Лектор: Stefanie Jahn SS 2007 Клъстерен анализ Лектор: Stefanie Jahn SS 2007

2007

1. Анализ на проблеми на хетерогенен набор от обекти Цел: Идентифициране на хомогенни подмножества на обекти от целия набор от обекти.Клъстерният анализ има различни методи за формиране на групи

Предварителни съображения Броят на обектите трябва да е представителен в произволни извадки Изключване/премахване на отклоненията разглежда само съответните характеристики Еднакво тегло на характеристиките -> изключване на корелации поради риск от изкривяване Няма постоянни характеристики в изходната матрица -> риск от изкривяване Съпоставимост чрез стандартизиране на променливите с различни Мащабирайте нивата на изходните данни

Липсващи стойности Наборът от данни трябва да бъде изчистен от липсващи стойности Изключване на: - Променливи с голям брой липсващи стойности - Случаи с липсващи стойности за променливи -> Проблем: Намаляване на броя на случаите, заместване на липсващи стойности със средни стойности -> Проблем: Изкривяване на събития, ако твърде често се появяват

2. Процедура 2.1. Определяне на сходство 2.1.1. Структура на двоичната променлива 2.1.2. Метрична променлива структура 2.1.3. Смесена мащабирана променлива структура 2.2. Избор на алгоритъма за сливане 2.2.1. Методи за разделяне 2.2.2. Йерархични процедури 2.3. Определяне на броя на клъстерите

2.1. Определяне на сходство Начална точка: матрица на сурови данни с K обекти, които са описани чрез променливи J Матрицата съдържа мерки за близост (= мерки за сходство и несходство)

2.1.1. Сравнение на двойка двоична структура на променливи: стойностите на свойствата се сравняват помежду си за 2 обекта

Tanimoto, RR и M коефициенти

Употреба: ако несъществуването на характеристика е от значение (например за пол: 1 = мъж, 0 = жена), тогава използвайте напр. М коефициент, ако отсъствието на характеристика не е от значение, тогава има тенденция към коефициент на Танимото или Джакар.

Използване на коефициентите на сходство за многостепенни променливи:

2.1.2. Метрична променлива структура Показатели на Минковски или L стандарти широко използвани мерки за разстояние Разлика между свойствата на двойките обекти, разделена на абсолютните стойности на разликата

r = 1 - метрика на градски блок: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 с нормата L1, всички стойности на разликата са включени в изчислението с еднаква тежест = най-голяма прилика; = най-голямо различие

r = 2 - Евклидово разстояние: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 по-голямо разглеждане на големи различия чрез квадратура

Резултат: Изборът на мярка за разстояние влияе върху реда на сходство на обектите, които ще бъдат изследвани Важно: трябва да се използват сравними мерни единици -> в противен случай стандартизация!

Q-коефициентът на корелация изчислява сходството между 2 обекта, като се вземат предвид всички променливи на даден обект = най-голямо сходство; = най-голямо различие

Защо Рама и Коледното масло най-много се различават по метриката на Минковски, но най-много приличат по коефициента на корелация Q? Използване на мерки за разстояние, ако абсолютното разстояние между обектите представлява интерес и различието се увеличава с увеличаване на разстоянието -> напр. Подобен размер/ниво на продажбите във времето Използване на мерки за сходство, когато става въпрос за аспект на сходство при синхронизирането на два профила, независимо от нивото -> напр. подобно развитие на продажбите с течение на времето

2.1.3. Смесена скалирана структура на променливите A) За метричните и неметричните променливи коефициентите или разстоянията на сходство се изчисляват отделно. Общо сходство = непретеглена или претеглена средна стойност на изчислените променливи

напр.: Рама и Флора: Разстояние на М-коефициент = 1-0,7 = 0,3 за метър. Свойства на квадрат Евклидово разстояние = 4 => нетеглен аритмет. Средна стойност: 2,15 => претегляне според metr. и неметър. разстояние

Б) Преобразуване от по-високо в по-ниско ниво Дихотомизация: Цена до € 1,59 = 0, от € 1,60 = 1 = голяма загуба на информация, произволно. Определение на интерфейса? Интервали на формата или: цена над 1.40 €? да = 1, не = 0 Цена над 1,70 €? да = 1, не = 0 ... колкото по-малък е диапазонът на класа, толкова по-малка е загубата на информация, рискът от изкривяване поради неправилно претегляне

2.2. Избор на алгоритъм за обединяване Комбинация в групи въз основа на стойностите на сходството (агломеративният) клъстерен анализ обобщава разглежданите случаи, докато всички случаи най-накрая се съдържат в група възможна диференциация на методите за разделяне йерархични методи

2.2.1. Методите за разделяне, предварително дефинирано групиране се основават на дадено групиране на обектите, пренареждане с помощта на алгоритъм за обмен между групите до оптималното

Прекратяване на клъстерирането, когато всички обекти се прекратяват, когато всички обекти са прекратени. тяхното преместване е проучено и не може да се постигне подобрение в критерия за дисперсия -> трябва да се извърши прекратяване, в противен случай твърде много опции -> достигнати са локални оптимуми вместо глобални оптими 2 проблеми с решение с „промяна на началния дял“: 1. Определете в колко групи са обектите трябва да бъдат разпределени 2. Определете режима, според който обектите да бъдат разпределени в стартовите групи (използвайки таблица на случайни числа, според реда на тяхното номериране, ...)

методите на разделяне се характеризират с по-голяма вариабилност в сравнение с агломеративните йерархични методи. методите на разделяне са по-рядко срещани в практическите приложения

2. 2. 2. Йерархични процедури 2. 2. 2. 1 2.2.2. Йерархични процедури 2.2.2.1. Агломеративният процес агломеративният процес - най-финият дял е началната точка -> групиране заедно

Разлики между aggl. Разлики между aggl. Процедурите произтичат само от това как се определят разстоянията Разстояние между обектите P + Q до всяка група R: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I с: D (R, P): разстояние между групите R и PD (R, Q): разстояние между групите R и QD (P, Q): Разстояние между групите P и Q

обединява обектите, които имат най-малко разстояние 2.2.2.2. Процедура на процедурите "единична връзка", "пълна връзка" и "отделение" процедура на единична връзка комбинира обектите, които имат най-малкото разстояние.Процедурата на най-близкия съсед винаги изчертава най-малката стойност като новото разстояние между две групи Подходът на индивидуални разстояния -> следователно е подходящ за разпознаване на "отклонения", има тенденция да образува много малки и по-малко големи групи -> тенденция към формиране на вериги

Пълен метод на свързване Най-големите разстояния се използват като разстояния = метод на най-далечния съсед Разстоянието сега съответства на най-голямото индивидуално разстояние

по-скоро има тенденция да образува малки групи, които не са подходящи за откриване на „извънредни стойности“ поради използването на най-големите разстояния на отделните стойности

Метод на Уорд Цел: да се обединят възможно най-малко обектите, които увеличават разсейването на група -> като по този начин се образуват възможно най-хомогенни клъстери като мярка за хетерогенност, използва се критерий на дисперсията = изчисляване на квадратура на сумата на грешките на квадрат Евклид. Разстояние между всички обекти FQS в първата стъпка = 0, тъй като всеки обект има своя собствена група -> все още не е разпръснато

4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833

Методът на Уорд използва променливите за измерване на разстояние трябва да са метрични без отклонения некорелирани променливи важно очакване на групи с еднакъв размер. удължени групи или групи с малък брой елементи, които не се разпознават. Препоръка: - SLV първо да открие отклонения - „Елиминиране“ на отклонения - Преразгледайте намаления брой обекти с друг агломеративен метод - Методът трябва да бъде избран на фона на съответната ситуация на приложение

2.3. Определяне на броя на клъстерите Решение кой брой клъстери е "най-доброто" решение и трябва да се използва Решаване на конфликта на цели между изискванията за управляемост и хомогенност е сумата на грешките на квадратите в метода на Уорд) графичното уточнение се предоставя от дендрограмата

Развитието на хетерогенността се начертава спрямо свързания брой клъстери в координатна система -> 4-клъстерно решение