当前位置:萝卜系统 > 硬件软件教程 > 详细页面

集群区分

集群区分

更新时间:2023-06-20 文章作者:未知 信息来源:网络 阅读次数:

根据运行的环境,操作系统可以分为桌面操作系统,手机操作系统,服务器操作系统,嵌入式操作系统等。

维普查重超级高怎么破_spss系统聚类结果分析_高维聚类分析

集群分析(CA)是一种典型的无监督学习方法. 此方法根据对象的特征将对象分为不同的组. 将一组对象分组为相似对象的过程称为聚类. 类. 群集是同一群集中彼此相似但与其他群集中的对象不相似的数据对象的集合. 一组数据对象可以视为一组,因此聚类方法也可以视为一种数据压缩形式.

尽管分类是区分对象组或类别的有效手段,但是它通常需要昂贵的收集和标记大量训练元组或模式,并且分类器使用这些元组或模式对每个组进行建模. 作为一种无监督的学习方法,聚类在这方有天然的优势.

集群分析是一项重要的人类活动. 在儿童早期,我们学习如何区分猫和狗或动植物,并不断改进潜意识聚类方案. 通过自动聚类,我们可以识别对象空间中的密集区域和稀疏区域,从而发现整体分布模式和数据属性之间有趣的关联. 聚类分析已广泛应用于许多应用领域,包括市场研究,模式识别,数据分析和图像处理. 在业务中,集群可以帮助营销人员发现其客户组中的不同组,并根据购买模式来表征客户组. 在生物学中,它可以用于推导出动植物分类标准,对具有相似功能的基因进行分类,并深入了解种群的内部结构. 集群还可以帮助在地球观测中识别相似的土地使用区域,根据房屋类型,价值和地理位置确定城市中的住房类别,并为汽车保险集团保单持有人确定更高的平均理赔成本. 它也可以用于帮助分类信息发现和Web上的文档分类.

在某些应用程序中,聚类也称为数据分段,因为聚类分析会根据大型数据集的相似性将其分为几类. 聚类也可以用于离群值检测. 离群值检测的应用包括检测欺诈和监视电子商务中的活动. 例如,交易中的异常情况(例如非常昂贵和频繁购买)可能是欺诈活动的标志. 作为数据挖掘功能,聚类分析可以用作独立工具,以深入了解数据分布,观察每个聚类的特征,并专注于特定的聚类集以进行进一步分析. 或者,它可以用作其他算法的预处理步骤,例如表征,属性子集选择和分类,然后将对检测到的聚类和选定的属性或特征进行操作.

K均值是使用最广泛的聚类方法. 其他方法包括k-Medoid,分层聚类和DBSCAN. 期望最大化(EM)也是用于聚类分析的解决方案. 聚类分析在许多领域都有应用,例如数据挖掘,市场研究和离群值检测. 此外,降维技术也是一种类似于聚类分析的无监督学习方法,其典型代表是主成分分析(PCA),线性判别分析和Isomap.

[描述来源: Han J .;坎伯M.裴建(2011). 数据挖掘: 概念和技术. 摩根·考夫曼. ]

关于聚类分析的早期研究开始于60年前-K-means算法的出现,该算法由Steinhaus于1955年首次提出,然后Stuart Lloyd在1957年提出了K-means聚类算法. 推荐系统中使用的技术. 用户可以分为不同的组以获得有针对性的建议. 因此,聚类分析分为应用阶段. 1978年,David Harrison和Daniel L Rubinfeld使用K-means聚类算法研究房地产市场数据. 他们使用房地产市场数据来衡量购买清洁空气的意愿. 1987年,Kaufman和Rousseeuw提出了围绕Medoids聚类进行分区的方法,该方法是我们现在熟悉的许多聚类算法的基础. 1992年,Vladimir Batagelj,Anu?kaFerligoj和Patrick Doreian开发了一种改进的重定位算法和一种改进的聚集层次算法. 在1996年,Martin Ester,Hans-Peter Kriegel,J?rgSander和Xuxiaowei提出了使用噪声/ DBSCAN的基于密度的应用程序空间聚类.

此算法基于密度: 给定空间中的一组点,该算法可以将附近的点归为一组(具有许多相邻点的点),并标记出位于低密度区域中的点DBSCAN是最常用的聚类分析算法之一,也是最常被引用的科学文章之一,这对聚类分析产生了深远的影响. 2014年高维聚类分析,该算法在数据挖掘会议KDD上被授予“时间测试”奖,该奖项被授予在理论和实践水平上一直受到关注的某些算法. 同年高维聚类分析,诞生了使用层次结构的平衡迭代减少和聚类(BIRCH)方法. BIRCH(使用层次结构进行平衡的迭代约简和聚类)是一种无监督的数据挖掘算法,用于对特别大的数据集执行分层聚类. BIRCH的一个优点是,它可以递增地和动态地聚合输入的多维测量数据点,以便为给定的资源集(内存和时间限制)生成最佳质量的群集. 在大多数情况下,BIRCH只需要扫描一次. 它的发明者声称BIRCH是“领域中提出的第一个有效处理“噪声”(数据点不是基本模式的一部分)的聚类算法”,并在模型性能方面击败了DBSCAN. 该算法于2006年推出,荣获SIGMOD10年测试奖.

高维聚类分析_维普查重超级高怎么破_spss系统聚类结果分析

关于聚类分析的研究已经相当成熟,目前集中在聚类算法的工业应用上. 例如,自2005年以来,Netflix使用DBSCAN来查找异常速度比主流服务器慢得多的异常服务器. 2011年,Roman Filipovych其他学者引用了聚类分析来测试的健康状况,并评估了他们用于发现人脑MR图像聚类问题的聚类方法的性能.

使用IEEE搜索时,我们发现了1500万个与聚类分析有关的结果;但是,聚类分析仅受到回归分析关注的一半,因此该模型可能比公众的感知距离还小.

年份

事件

相关论文/参考文献

1955

Steinhaus提出了K-means算法的原型

Steinhaus,H.(1956). 参加团体联谊会. Bull.acad.polon.sci.cl.iii,801-804.

高维聚类分析_spss系统聚类结果分析_维普查重超级高怎么破

1957

Stuart Lloyd首先开发了K-means算法(也称为Lloyd算法)

劳埃德(Lloyd,S.P.)(1982). PCM中的最小二乘量化,IEEE信息理论学报,28(2): 129–137.

1978

Harrison D.和Rubinfeld D.L.用K-means聚类算法研究房地产市场数据

Harrison,D .; Rubinfeld,D.L.(1978),享乐主义的住房价格和对清洁空气的需求,《环境经济与管理》. 5(1): 81-102.

1987

Kaufman和Rousseeuw提出了围绕类固醇聚类的分区(围绕类固醇聚类的分区)

维普查重超级高怎么破_高维聚类分析_spss系统聚类结果分析

Kaufman,L .; Rousseeuw,P .; (1987). 借助类固醇进行聚类. 基于L1范数和相关方法的统计数据分析. 405-416页.

1992

Vladimir Batagelj,Anu?kaFerligoj,Patrick Doreian开发了一种改进的重定位算法和一种改进的聚集层次算法

Batagelj,V .; A. Ferligoj; Doreian,P.(1992年),《结构对等的直接和间接方法》,《社交网络》. 14(1-2): 63-90.

1996

Martin Ester,Hans-Peter Kriegel,J?rgSander和Xuxiaowei提出了基于密度的应用噪声/ DBSCAN的应用程序空间聚类

Ester,M.; Kriegel,H.-P .;桑德(J. Xu,X.(1996). 一种基于密度的算法,用于在带有噪声的大型空间中发现聚类. 第二届知识发现和数据挖掘国际会议论文集(KDD-96).

1996

spss系统聚类结果分析_维普查重超级高怎么破_高维聚类分析

诞生了使用层次/ BIRCH方法的均衡迭代约简和聚类

Zhang,T .;拉马克里希南(Ramakrishnan,R.) Livny,M. (1996). BIRCH: 一种用于大型的有效数据聚类方法. 1996年ACM SIGMOD国际数据管理大会(96年代)的会议录. pp. 103–114.

2011

罗马·费利波维奇(Roman Filipovych)等学者引用聚类分析法测试的健康状况

Filipovych,R .; Resnick,S.M .; Davatzikos,C.(2011年). 影像数据的半监督聚类分析. NeuroImage. 54(3): 2185-2197.

聚类是一个充满挑战的研究领域. 以下是聚类分析面临的一些典型挑战:

可扩展性: 许多聚类算法适用于包含少于几百个数据对象的小型数据集. 但是,大型可能包含数百万个对象. 聚类分析很容易受到规模(例如K均值)的影响,有时并不是很可靠. 特定大型数据集的样本聚类可能会导致结果有偏差,因此我们需要高度可扩展的聚类算法. 处理不同类型的属性的能力: 许多算法旨在对基于间隔的(数字)数据进行聚类. 但是,应用程序可能需要同时群集其他类型的数据,例如二进制,分类(标称)和有序数据,或者这些数据类型的混合. 不限于某个距离度量聚类算法(发现具有任意形状的聚类): 许多聚类算法都是基于欧几里得距离度量或Manhattan距离度量来确定聚类的. 基于这种距离度量的算法往往会找到大小和密度相似的球形簇. 但是,簇可以是任何形状. 开发可以检测任意形状的簇的算法非常重要. 强大的超参数值(确定输入参数的领域知识的最低要求): 许多聚类算法要求用户在聚类分析中输入某些超参数(例如所需的聚类数).

聚类结果可能对输入参数非常敏感,它取决于分析人员做出正确的选择,并且聚类分析的解决方案可能不是唯一的. 但是,这些超参数在实际情况下通常很难确定,尤其是对于包含高维对象的数据集. 这不仅给用户带来负担,而且使群集的质量难以控制. 另外,在DBSCAN中,如果数据集的密度不一致,则很难确定ε的选择. 处理噪声数据的能力: 大多数现实世界包含异常值或丢失,未知或错误的数据. 一些聚类算法对这些数据敏感,并可能导致质量较差的聚类结果. 增量聚类和对输入记录的顺序不敏感: 一些聚类算法无法将新插入的数据(即更新)合并到现有的聚类结构中. 相反,必须从头开始确定一个新的聚类. 其他聚类算法对输入数据的顺序敏感. 换句话说,给定一组数据对象,这种算法可以根据输入对象的表示顺序返回明显不同的聚类. 开发增量聚类算法和对输入顺序不敏感的算法非常重要. 高维度: 可以包含多个维度或属性.

许多聚类算法擅长处理低维数据,仅涉及二维到三维. 人眼非常擅长判断多达三个维度的聚类质量. 在高维空间中查找数据对象的群集非常具有挑战性,尤其是考虑到这些数据可能稀疏且高度偏斜. 基于约束的群集: 实际应用程序可能需要在各种约束下执行群集. 假设您的工作是在城市中选择给定数量的新自动银行机(ATM)的位置. 要做出这样的决定,您可以考虑城市河流和公路网等约束条件,以及每个集群中客户的类型和数量,对家庭进行分组. 找到满足指定约束并具有良好性能的聚类结果非常具有挑战性. 可解释性和可用性: 用户期望聚类结果是可解释的,可理解的和可用的. 换句话说,可能需要将聚类绑定到特定的语义解释和应用. 研究应用目标如何影响集群功能和方法的选择很重要.

此外,从理论上讲,聚类分析始终假设存在分组,但是这种假设可能是弱的或错误的.

在将来的应用中,聚类分析可用作“第一步”技术. 似乎还可以使用“后集群”技术来减少错误,使聚类分析更加可靠和稳定,并可以在更多行业中应用.

撰稿人: 李媛媛,张莫斯


本文来自本站,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-286583-1.html



温馨提示:喜欢本站的话,请收藏一下本站!

本类教程下载

系统下载排行

网站地图xml | 网站地图html