为数据集选择正确的聚类算法

发布时间：2021-03-14 14:16:00 所属栏目：外闻来源：互联网

导读：数据聚类是安排正确的整个数据模型的重要步骤。为了进行分析，应根据共同点整理信息。主要的问题是，什么样的公共参数提供最好的结果以及最好包含什么意思。本文介绍了最广泛的聚类算法及其深入阐述。根据每种方法的特殊性，提供了对使用其应用的建议。四

数据聚类是安排正确的整个数据模型的重要步骤。为了进行分析，应根据共同点整理信息。主要的问题是，什么样的公共参数提供最好的结果以及“最好”包含什么意思。

本文介绍了最广泛的聚类算法及其深入阐述。根据每种方法的特殊性，提供了对使用其应用的建议。

四种基本算法以及如何选择

根据聚类模型，可以区分四种常见的算法类别。一般而言，算法不少于100种，但是它们的流行程度以及应用领域都不是较为广泛。

基于整个数据集对象之间距离的计算，被称为基于连接的或分层的。根据算法的“方向”，它可以联合或相反地分割信息数组——聚集和分裂的名称就是从这种精确的变化中出现的。最流行或者说最合理的类型是凝聚型，您首先输入数据点的数量，然后将这些数据点合并成越来越大的集群，直到达到极限。

基于连接的集群化最突出的例子是植物分类。数据集的“树”开始于一个特定的物种，结束于一些植物“王国”，每个“王国”由更小的集群(门、类、目等)组成。

在应用了其中一种基于连接的算法之后，您将收到一个数据树状图，它将向您展示信息的结构，而不是其在集群上的明显分离。这样的特性既有好处也有坏处:算法的复杂性可能会变得过于复杂，或者根本不适用于层次结构很少甚至没有层次结构的数据集。还会出现糟糕的性能:由于大量的重复，完整的处理将花费大量时间。最重要的是无法得到精确的结构使用层次算法。

（编辑：潍坊站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

加强和虚拟现实技术支	继LG电子现代汽车后三
评论少数政客的拙劣表	生鲜杂货配送商Instac