Корелация, ковариация и отклонение (част 3), SavePearlHarbor
Още едно копие на хабора
Главно меню
След навигация

В първата част говорихме за същността на трансформацията на отклоненията и нейното приложение към матрицата от квадрати на разстояния. Във втория те пускат малко мъгла върху спектрите на прости геометрични множества.
В тази статия ще се опитаме да разкрием значението на трансформацията на отклонението, за което ще се обърнем към приложни проблеми, свързани с обработката и анализа на данните. Нека покажем как трансформацията на отклонението на матрицата на разстоянието е свързана със статистиката - с дисперсия, корелация и ковариация.
7. Центриране и нормализиране на едномерни координати
Ще извършим загрявката върху просто и разбираемо нещо - центриране и нормализиране на данни. Да кажем, че имаме поредица от числа. След това операцията за центриране се свежда до намиране на средната стойност (центроида на множеството)
и конструиране на нов набор като разлика между оригиналните числа и техния центроид (средно):
Центрирането е първата стъпка към естествената координатна система (NSC) на оригиналния набор, тъй като сумата от центрираните координати е 0. Втората стъпка е да се нормализира сумата на квадратите на центрираните координати до 1. За да извършите тази операция, трябва да изчислим тази сума (по-точно средната стойност):
Сега можем да конструираме SSC на оригиналния набор като набор от собствени стойности С и нормализирани числа (координати):
Квадратите на разстоянията между точките на оригиналния набор се определят като разликите в квадратите на компонентите на собствения вектор, умножени по собствената стойност. Обърнете внимание на факта, че собствената стойност С се оказа равна на дисперсията на оригиналния набор (7.3).
Така че за произволен набор от числа можете да дефинирате вашата собствена координатна система, т.е. да изберете стойността на собствената стойност (известна още като дисперсия) и да изчислите координатите на собствения вектор, като центрирате и нормализирате оригиналните числа. Готино.
Упражнение за тези, които обичат да се чувстват с ръце. Изградете SSK за набор .
8. Центриране и ортонормализация многоизмерни координати
Ами ако вместо набор от числа ни бъде даден набор от вектори - двойки, тройки и други измерения на числата. Тоест точка (възел) се посочва не от една координата, а от няколко. Как да изградим SSK в този случай?
Да, можете да изградите матрица от квадратни разстояния, след това да определите матрицата на отклоненията и да изчислите спектъра за нея. Но научихме за това не толкова отдавна. Обикновено са действали (и правят) по различен начин.
Нека въведем обозначението на компонентите на комплекта. Дадени са ни точки (възли, променливи, вектори, кортежи) и всяка точка се характеризира с числови компоненти. Моля, обърнете внимание, че вторият индекс е номерът на компонента (матрични колони), а първият индекс е номерът на точката (възела) на набора (матричен ред).
Какво да правим по-нататък? Вдясно - центриране на компонентите. Тоест, за всяка колона (компонент) намираме центроида (средно) и го изваждаме от стойността на компонента:
Получихме матрицата с центрирани данни (IDC) .
В следващата стъпка изглежда трябва да изчислим дисперсията за всеки компонент и да ги нормализираме. Но ние няма да направим това. Защото, макар че по този начин наистина получаваме нормализирани вектори, но се нуждаем от нещо, което тези вектори да са независими, т.е. ортонормален. Операцията за нормализиране не върти векторите (тя само променя дължината им), но трябва да разгънем векторите перпендикулярно един на друг. Как да го направя?
Правилният (но все пак безполезен) отговор е да се изчислят собствени вектори и числа (спектър). Безполезно, защото не сме изградили матрица, за която може да се изчисли спектърът. Нашата матрица за центрирани данни (IDC) не е квадратна - не можете да изчислявате собствени стойности за нея. Съответно трябва да изградим определена квадратна матрица въз основа на IDC. Това може да стане чрез умножаване на MCD по себе си (квадрат).