Невронна мрежа на Кохонен (самоорганизираща се карта) за визуализация и анализ на данни

Самоорганизиращата се невронална мрежа (карта) на Кохонен проектира многоизмерни данни в пространство с по-ниски измерения (обикновено двумерни) и обикновено се използва на практика при визуализиране на данни, така че човек да може да „види“ наличието или отсъствието на клъстерна структура в данните, броят на клъстерите, законите за съвместно разпределение на характеристиките, зависимости между променливите. Мрежите на Кохонен (квантуващ слой неврони без странични взаимодействия) не са разгледани в статията - тяхното поведение не се различава от действието на метода на динамичните ядра (k-означава). Разглеждат се самоорганизиращите се карти на Кохонен - невронни мрежи, при обучение на неврони, от които се взема предвид топологията на мрежата и се използва функция, която определя влиянието на неврона върху съседите му. Въпреки че в литературата термините „мрежа на Кохонен“ и „карта на Кохонен“ често се използват еднакво при разглеждане на карти, но тук в случаите, когато се появяват думите „мрежа“, „невронна мрежа“, моля да разберете от тях не квантуване Кохоненска мрежа, но точно топологичната карта на Кохонен.

Когато се използват карти на Кохонен, никой обикновено не мисли, че самите тези невронни мрежи са задача на клъстерния анализ и идентифицирането на зависимости не решавайте. Те позволяват само „оцветяването“ на картата излагат хипотези за наличието на клъстерна структура и броя на клъстерите, зависимости между стойностите на отделни променливи. Изложените хипотези трябва да бъдат проверени и потвърдени по други начини. Освен това в [1,2] беше показано, че Картите на Кохонен могат да доведат както до формиране на фалшиви хипотези, така и до невъзможност да се видят отделни реално съществуващи и статистически надеждни връзки в данните. Но периодично появяващите се критични творби (например [1,2]) все още не са привлекли широко внимание. Жалко.

Бележката е написана именно защото още за първи път, когато се опитах да използвам реално картите на Кохонен (използвах и други методи за визуализация и анализ на изследователските данни), изживях напълно това безотговорно поведение на картите на Кохонен върху собствената си кожа. Добре е да са имали и други методи за визуализация на данни и специалист в предметната област, от която е анализирана извадката от данни (този експерт-експерт може теоретично да оцени правдоподобността на резултатите и хипотезите, получени в процеса на анализ на данните ). И не бива да обвинявате грешките в моя неврософт - първо се опитах да използвам широко разпространени стандартни невропрограми и едва след като получих стабилни незадоволителни резултати, програмирах няколко алгоритма за „картографиране“, за да вляза по-дълбоко „в вътрешностите“ на картите и да определя къде кучето е погребано.

Няма да рекламирам резултатите, които съм изкопал тук (нека засега остане моето ноу-хау), но ще се огранича само с разглеждане на методологични въпроси, тъй като те в много отношения са основни и решаващи.

Трябва да се изгради твърда теоретична методология за избор на настройки за карти на Кохонен за моделиране и визуализиране на данни, проверяване на адекватността на изградената мрежова карта. Изграждането на карта на Кохонен включва следните стъпки:

избор на топология на картата на невронната мрежа (например вида на клетките - правоъгълна или шестоъгълна);
избор на размера на картата (броя на невроните в невронната мрежа на Кохонен) и нейната геометрия;
първоначална инициализация на позицията на картата (произволно, в равнината на двата основни компонента на извадката от данни или по друг начин);
избор на критерия за близост между точката с данни и неврона на невронната мрежа (например евклидово разстояние);
избор на алгоритъма за обучение и неговите настройки, правилата за спиране на процеса на адаптация на картата на Кохонен;
потвърждение на адекватността на обучената мрежа, например, обосновка на правилния избор на размера на мрежата чрез сравняване на стойностите на остатъчни дисперсии и топологични грешки за няколко мрежи с различни размери;
анализ на топологичната грешка на построената карта, т.е. чувствителността на разпределението на векторите на данни върху невроните на невронната мрежа и чувствителността на оцветяването на картата към малки промени в позицията на точките от данни - локализация на области с относително висока топологична грешка;
избор на метод за проектиране на данни върху карта: в възел (т.е. неврон на карта), върху частично линейно непрекъснато приближение, изградено върху карта (например чрез триангулиране на клетки на картата), върху гладко приближение на карта или друг метод;
повтаряне на етапа на анализ на топологичната грешка, ако за проекция е избран различен критерий за близост, а не този, използван на етапа на изграждане на картата;
избор на метод за оцветяване на проекционни точки.