Омалала - PDF безплатно изтегляне

Импортиране на данни, описание ДАННИ 2

Импортиране на файл с данни, описателна статистика и графики # модификация на папката по подразбиране import os.chdir (") #data import import pandas fromage = pandas.read_table ("fromage.txt", sep = "\ t", header = 0, index_col = 0) # размери на данни отпечатване (fromage.shape) # дескриптивна статистика отпечатване (fromage.describe ()) #graphic - две по две пресичане на променливи от pandas.tools.plotting импорт scatter_matrix scatter_matrix (сирене, figsize = (9,9)) Този тип графика никога не е безобидна. Наблюдаваме например, че (1) „липидите“ са силно свързани с „калории“ и „холестерол“ (без твърде много изненади) (забележка: същата информация ще тежи 3 пъти при анализа); (2) в определени конфигурации изглежда, че групите изглеждат естествено (напр. Кръстосване на „протеини“ и „холестерол“, с доста изразена междугрупова корелация). 4

Йерархична възходяща класификация CAH 5

Йерархична възходяща класификация Използване на пакета "scipy" #librairies pour la CAH от matplotlib import pyplot as plt от scipy.cluster.hierarchy import dendrogram, linkage # генерира матрицата на връзките Z = link (fromage_cr, method = 'ward', metric = 'euclidean') # показване на дендрограмата plt.title ("cah") дендрограма (z, етикети = fromage.index, ориентация = 'вляво', color_threshold = 0) plt.show () Дендрограмата "предлага" разделяне на 4 групи. Отбелязваме, че един клас сирена, „пресни сирена“ (вляво), се откроява от останалите до такава степен, че ние също бихме могли да помислим за разделяне само на 2 групи. Ще се върнем към това по-дълго, когато смесим анализа с анализ на главния компонент (PCA). 6

Метод на мобилен център K-MEANS 8

Методът на мобилния център помага за откриване на адекватен брой групи K-MEANS, за разлика от CAH, не предоставя помощни средства за откриване на броя на класовете. Трябва да ги програмираме на Python или да използваме процедури, предлагани от специални пакети. Диаграмата често е една и съща: една променя броя на групите и една следи развитието на индикатор за качество на решението, т.е. способността на индивидите да бъдат по-близо до своите събратя от същата група, отколкото до индивидите от други групи. По-нататък показателят „силует“ се изчислява за различен брой групи, получени от метода на мобилния център. # библиотека за оценка на дялове от показатели за импортиране на sklearn # използване на метриката "silhouette" # варира броя на клъстерите от 2 до 10 res = np.arange (9, dtype = "double") за k в np.arange (9): km = cluster.kmeans (n_clusters = k + 2) km.fit (fromage_cr) res [k] = metrics.silhouette_score (fromage_cr, km.labels_) print (res) #graphic import matplotlib.pyplot as plt plt. title ( "silhouette") plt.xlabel ("# на клъстерите") plt.plot (np.arange (2,11,1), res) plt.show () Разделението в k = 2 групи изглежда най-доброто в смисъла на метриката „силует“. Забележка: Странно е, че нямахме същите резултати при R. 10