1、聚類(Clustering):
聚類是一個將數(shù)據(jù)集劃分為若干(class)或類(cluster)的過程,并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象是不相似的。
相似或不相似是基于數(shù)據(jù)描述屬性的取值來確定的,通常利用各數(shù)據(jù)對象間的距離來進(jìn)行表示。聚類分析尤其適合用來探討樣本間的相互關(guān)聯(lián)關(guān)系從而對一個樣本結(jié)構(gòu)做一個初步的評價。
2、聚類與分類的區(qū)別
聚類是一種無(教師)監(jiān)督的學(xué)習(xí)方法。與分類不同,其不依賴于事先確定的數(shù)據(jù)類別,以及標(biāo)有數(shù)據(jù)類別的學(xué)習(xí)訓(xùn)練樣本集合。 因此,聚類是觀察式學(xué)習(xí),而不是示例式學(xué)習(xí)。
3、什么是好的聚類
一個好的聚類方法將產(chǎn)生以下的高聚類:
最大化類內(nèi)的相似性
最小化類間的相似性
聚類結(jié)果的質(zhì)量依靠所使用度量的相似性和它的執(zhí)行。聚類方法的質(zhì)量也可以用它發(fā)現(xiàn)一些或所有隱含模式的能力來度量。
聚類分析有兩種:
一種是對樣品的分類,稱為Q型,
一種是對變量(指標(biāo))的分類,稱為R型。
R型聚類分析的主要作用:
(1) 不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。
(2) 根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析。(R2為選擇標(biāo)準(zhǔn))
Q型聚類分析的主要作用:
(1) 可以綜合利用多個變量的信息對樣本進(jìn)行分析
(2) 分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果
(3) 聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。
1、常用距離的定義
2、相似系數(shù)
3、類間距離
1、譜系聚類算法的步驟:
(1)選擇樣本間距離的定義及類間距離的定義
(2)計(jì)算n個樣本之間的距離,得到距離矩陣
(3)構(gòu)造個類,每類只含有一個樣本
(4)合并符合類間距離要求的兩類為一個新類
(5)計(jì)算新類與當(dāng)前各類的距離。若類的個數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4
(6)畫出聚類圖
(7)決定類的個數(shù)和類
1、K-平均聚類算法步驟:
(1)從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心
(2)循環(huán) (3)到 (4)直到每個聚類不再發(fā)生變化為止
(3)根據(jù)每個聚類對象的均值(中心對象 ),計(jì)算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分:
(4)重新計(jì)算每個(有變化)聚類的均值(中心對象)
2、算法的基本思想:
(1)首先,隨機(jī)的選擇k個對象,每個對象初始的代表了一個簇的平均值;
(2)對剩余的每個對象,根據(jù)其與各個簇中心的距離,將它賦給最近的簇;
(3)然后重新計(jì)算每個簇的平均值。
(4)這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。
3、算法的特點(diǎn):
只適用于聚類均值有意義的場合,在某些應(yīng)用中,如:數(shù)據(jù)集中包含符號屬性時,直接應(yīng)用k-means算法就有問題。
用戶必須事先指定k的個數(shù)。對噪聲和孤立點(diǎn)數(shù)據(jù)敏感,少量的該類數(shù)據(jù)能夠?qū)垲惥灯鸬胶艽蟮挠绊憽?/p>
本文轉(zhuǎn)自公眾號“數(shù)學(xué)建模老哥”