临沂网站建设的聚类算法简介
已经开发出许多种不同的聚类算法,比如:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等。每种算法在伸缩性对数据类型的要求等方面具有不同的特性,算法的选择取决于数据的类型、聚类的目的和应用。上述算法中,许多算法只能发现球形的簇。在本章的推荐系统中,需要发现任意形状的簇,因此采用了基于密度的方法。
基于密度的方法的主要思想是:只要邻近区域的密度(对象或数据点的数目)超过了某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤孤立点数据,发现任意形状的簇。
DBSCAN 是一个有代表性的基于密度的聚类方法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。它定义簇为密度相连的点的最大集合。
DBSCAN算法不但在二维和三维的欧几里得空间,而且在高维空间也工作得很好。关键是对于聚簇中的每一个点,在给定的半径内至少需要包含一定数量的点,也就说密度需要超过某个阈值。点相邻的形态取决于所采取的两个点p和q之间的早离计算函数,表示为dist。基于密度的聚类算法涉及一些新的定义:8-邻域:给定对象半径6内的区域成为该对象的邻域。
核心对象:如果一个对象的-邻域至少包含最小数目个对象,则称该对象为核心对象。
直接密度可达:给定一个对象集合D,如果p是在q的-邻域内,而q是一个核心对象,我们就说对象p从对象q出发是直接密度可达的。
密度相连:如果对象集合D中存在一个对象o,使得对象p和q是从o关于6和MinPts密度可达的,那么对于对象p和q是关于6和MinPts密度相连的。
(责任编辑:admin) |