您所在位置: 网站首页 / 聚类分析00.ppt / 文档详情
聚类分析00.ppt 立即下载
2024-05-28
约2.2千字
约40页
0
1.3MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

聚类分析00.ppt

聚类分析.ppt

预览

免费试读已结束,剩余 35 页请下载文档后查看

7 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类分析目录1.1聚类产生的背景1.2聚类分析的定义2、聚类的依据样品相似性的度量变量相似性的度量(1)夹角余弦:(2)相关系数:无论是夹角余弦还是相关系数,他们的绝对值都小于等于1,作为变量近似值得工具,我们把它们统计为当=1时,说明两个变量完全相似;当近似于1时,说明两变量非常密切;当=0时,说明两变量完全不一样;当近似于0时,说明两变量差别很大。这样,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类中。3、聚类分析的方法(1)有序样品聚类法例如:为了了解儿童的生长发育规律,今随机抽样统计了男孩从出生到11岁平均增长的重量数据表如下,试问:男孩发育可分为几个阶段?记与年龄对应的儿童增重数的11个数据,表示儿童的增重数,例如表示8岁儿童的平均年增重为2(千克)。如果要把增重数分成保持次序的3个组.这时可以有种选择。例如,,就是一种可选择的分类方法。一个好的分类方法就是应该使处于同一类事物之间的差别尽可能地小,而使类与类之间的差别尽可能地大。为了表示类内部事物与事物的差别,我们借用统计中全距(直径)的计算方法,以、、这个分类为例来说明计算类内差别的方法:其中第一类对应的数据为9.3、1.8、1.9,最大值为9.3,最小值为1.8,这一类的差异我们用全距9.3-1.8=7.5第二类中最大值为2.0,最小值为1.3,则2.0-1.3=0.7第三类中的最大值为2.3,最小值为1.9,则2.3-1.9=0.4为衡量上述分类方法的优劣,我们计算此种分类方法中的三个类内的平均差异,即规定该分类方法的优劣指标K为对于另一种分类方法{1.、2、3、4}、{5、6}、{7、8、9、10、11}其第一类的类内差异为7.6,第二类的类内差异为0.2.第三类的类内差异为0.9。该分类方法的优劣指标K为2.9。相比之下,此分类方法不如前一种分类方法好。试问:分三类最好的分类方法应怎么分?把11个有序数据分成3类共有45种方法,计算每类分法的优劣指标并加以比较,可以得到最好的(分三类)方法为{1}、{2,3,4,5,6,7}、{8、9、10、11}此分类方法的优劣指标K是0.3那么这11个数据分成几类为宜呢?为此.我们分别找到把11个数据分成1类、2类、…、11类的最好的分类法,计算出各最好分类方法的优劣指标,列表如下:(2)系统聚类法最短距离法:定义:即中任一事物与任一事物距离的最小值。最短距离法进行聚类分析的步骤如下:(1)定义样品之间的距离,计算样品的两两距离,得一距离阵,开始时每个样品自成一类。(2)找出距离最小元素,设为,则将与合并成一个新类,记为={,}(3)将与其他类再进行求出最短距离,再进行合并。(4)重复上述步骤,直到所有元素并成一类为止。例1,设有6个样品,每个只测量一个指标,分别为1,2,5,7,9,10,试用最短距离法将他们分类。(1)样品采用绝对值距离,计算样品间的距离阵,如下表此处和均可以看作平面直角坐标系中点的两个坐标,每个古墓可以用该坐标平面上的一个点来表示,得图2.6.1。我们采用通常平面上点的距离作为对应的古墓与古墓间的差别。第一,从图和表都可看出.两个古墓的最小距离是1.其中下面几组古墓之间的距离都是1;1号与2号,5号与6号,11号与5号,8号与9号,12号与13号,17号与18号,17号与19号。把距离为1的点合成一类,就得到新的类,把这些新类用实线圈圈起来,分别记为G1,G2,G3,G4,G5;第二,以两个类元素中的最短距离作为两个类的类间的距离。可计算得目前两个类问的最短距离为。此处4号墓与G2中的11号墓距离为。同样,10号墓与G3的距离为,20号墓与G5的距离都是。把距离不大于收的类归为一类,则得到新类,如图2.6.3中实线所圈的集合。第三,仍以两个类中的最短距离作为两类之间的距离,则现在两个类间的最小距离为2,将类的距离小于2的类合并成新类。在图2.6.3中新的类用虚线围成。现在,除去16、21这两点外,所有的点全在这4个类中。(3)K均值法第一步:我们将这些项目先随意分成两个聚类,比如说(AB)和(CD),然后计算这两个聚类的中心(均值)的坐标第二步:计算某个样品到各类中心的欧几里得距离,然后将该样品分配到最近的一类,先计算A到两个类的平方距离:d2(A,(AB))=(5-2)2+(3-2)2=10d2(A,(CD))=(5+1)2+(3+2)2=61由于A到(A,B)的距离小于到(C,D),因此不用重新分配再计算B到两个类的平方距离:d2(B,(AB))=(-1-2)2+(1-2)2=10d2(B,(CD))=(-1+1)2+(1+2)2=9由于B到(A,B)的距离大于到(C,D),因此B要分配给CD。于是得到一个新的聚类(A)和(BCD)再重新计算中心坐标,如图所示:第三步:再次检查每个
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

聚类分析00

文档大小:1.3MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用