临沂网站建设的聚类算法简介-尚景信息

　　临沂网站建设的聚类算法简介

　　已经开发出许多种不同的聚类算法，比如：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等。每种算法在伸缩性对数据类型的要求等方面具有不同的特性，算法的选择取决于数据的类型、聚类的目的和应用。上述算法中，许多算法只能发现球形的簇。在本章的推荐系统中，需要发现任意形状的簇，因此采用了基于密度的方法。

　　基于密度的方法的主要思想是：只要邻近区域的密度(对象或数据点的数目）超过了某个阈值，就继续聚类。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤孤立点数据,发现任意形状的簇。

　　DBSCAN 是一个有代表性的基于密度的聚类方法。该算法将具有足够高密度的区域划分为簇，并可以在带有“噪声”的空间数据库中发现任意形状的聚类。它定义簇为密度相连的点的最大集合。

　　DBSCAN算法不但在二维和三维的欧几里得空间，而且在高维空间也工作得很好。关键是对于聚簇中的每一个点，在给定的半径内至少需要包含一定数量的点，也就说密度需要超过某个阈值。点相邻的形态取决于所采取的两个点p和q之间的早离计算函数，表示为dist。基于密度的聚类算法涉及一些新的定义：8-邻域：给定对象半径6内的区域成为该对象的邻域。

　　核心对象：如果一个对象的-邻域至少包含最小数目个对象，则称该对象为核心对象。

　　直接密度可达：给定一个对象集合D，如果p是在q的-邻域内，而q是一个核心对象，我们就说对象p从对象q出发是直接密度可达的。

　　密度相连：如果对象集合D中存在一个对象o，使得对象p和q是从o关于6和MinPts密度可达的，那么对于对象p和q是关于6和MinPts密度相连的。

(责任编辑：admin)

公司新闻

临沂网站建设的聚类算法简介