关于SEM信息发布特殊符号过滤公告 互联网行业解读 企业通全面升级测试提升用户体验
当前位置: 主页 > 新闻中心 > 公司新闻 >

临沂网站建设的聚类算法简介

时间:2020-10-20 14:42来源:未知 作者:admin 点击:
  临沂网站建设的聚类算法简介
  已经开发出许多种不同的聚类算法,比如:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等。每种算法在伸缩性对数据类型的要求等方面具有不同的特性,算法的选择取决于数据的类型、聚类的目的和应用。上述算法中,许多算法只能发现球形的簇。在本章的推荐系统中,需要发现任意形状的簇,因此采用了基于密度的方法。
  基于密度的方法的主要思想是:只要邻近区域的密度(对象或数据点的数目)超过了某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤孤立点数据,发现任意形状的簇。
  DBSCAN 是一个有代表性的基于密度的聚类方法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。它定义簇为密度相连的点的最大集合。
  DBSCAN算法不但在二维和三维的欧几里得空间,而且在高维空间也工作得很好。关键是对于聚簇中的每一个点,在给定的半径内至少需要包含一定数量的点,也就说密度需要超过某个阈值。点相邻的形态取决于所采取的两个点p和q之间的早离计算函数,表示为dist。基于密度的聚类算法涉及一些新的定义:8-邻域:给定对象半径6内的区域成为该对象的邻域。
  核心对象:如果一个对象的-邻域至少包含最小数目个对象,则称该对象为核心对象。
  直接密度可达:给定一个对象集合D,如果p是在q的-邻域内,而q是一个核心对象,我们就说对象p从对象q出发是直接密度可达的。
  密度相连:如果对象集合D中存在一个对象o,使得对象p和q是从o关于6和MinPts密度可达的,那么对于对象p和q是关于6和MinPts密度相连的。
(责任编辑:admin)
------分隔线----------------------------