《互联网大数据ppt第7章大数据分析中的四种常见聚类算法.pptx》由会员分享,可在线阅读,更多相关《互联网大数据ppt第7章大数据分析中的四种常见聚类算法.pptx(13页珍藏版)》请在文库网上搜索。
1、第7章大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.2 K均值聚类算法7.3 基于密度的DBSCAN聚类方法7.4 高斯混合模型聚类算法7.5 层次聚类算法7.1 大数据分析聚类算法概述7.1.1 聚类分析的相关概念及应用场景1.聚类分析的概念聚类分析(Cluster Analysis)又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析也就是将一些具有相似性质的数据划分到一起,得到多个具有不同性质的数据类集合。从数据挖掘的角度看,聚类分析可以大致分为以下四种。1)划分聚类2)层次聚类3)基于密度的聚类4)基于网格的聚类第7章
2、大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.1.1 聚类分析的相关概念及应用场景2.聚类算法应用场景1)基于用户位置信息的商业选址 2)中文地址标准化处理3)非人恶意流量识别4)国家电网用户画像5)求职信息完善6)搜索引擎查询聚类以进行流量推荐7)保险投保者分组8)生物种群固有结构认知9)图像分割10)网站关键词整合第7章大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.1.2 聚类算法运行基础:簇与距离度量聚类算法中,将数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇(样本簇或类别)。距离度量的方法主要包括以下一些。1.闵可夫斯基距离2.曼哈顿距离
3、3.欧式距离4.切比雪夫距离5.马氏距离6.余弦相似度7.皮尔逊相关系数8.汉明距离9.杰卡德相似系数10.编辑距离11.动态时间归整距离第7章大数据分析中的四种常见聚类算法7.2 K均值聚类算法7.2.1 基于划分的K均值聚类算法K均值聚类算法(K-Means Clustering Algorithm),也叫K-means聚类算法,它属于无监督学习,其样本所属的类别是未知的,只是根据特征将样本分类,且类别空间也由人为需要而选定。K-means聚类算法的思想是最小化所有样本到所属类别中心的欧式距离和,采用迭代的方式实现收敛。K-means聚类算法是最著名的划分聚类算法,它的特点是简洁和效率高,
4、因此它作为聚类算法中主要采用的方法而被广泛使用。第7章大数据分析中的四种常见聚类算法7.2 K均值聚类算法7.2.2 二分K均值聚类算法运行原理二分K均值(BisectingK-means)聚类算法是基于经典K-均值算法实现的,作为K-means聚类算法的改进算法,其调用经典K-均值(k=2),把一个聚簇分成两个,迭代到分成k个停止。第7章大数据分析中的四种常见聚类算法7.3 基于密度的DBSCAN聚类方法7.3.1 DBSCAN算法原理解析1.DBSCAN算法的相关定义DBSCAN(密度聚类)算法可以解决不规则形状聚类,它是一种具有代表性的基于密度的聚类算法。DBSCAN算法不同于划分和层次
5、聚类方法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。2.DBSCAN算法的思想DBSCAN使用的方法很简单,它任意选择一个没有类别的核心对象,然后找到由这个对象密度可达的所有样本组成的集合,这个集合即为一个满足连接性与最大性的聚类簇。接着选择另一个没有类别的核心对象,以同样的方法得到另一个聚类簇,这样一直执行到所有核心对象都有类别为止。第7章大数据分析中的四种常见聚类算法7.3 基于密度的DBSCAN聚类方法7.3.2 DBSCAN算法的基本运行流程第7章大数据分析中的四种常见聚类算法7.4 高斯混合模型聚类算法7.4.
6、1 GMM算法原理分析第7章大数据分析中的四种常见聚类算法二维高斯数据分布图混合高斯分布产生的数据用单高斯模型对样本进行分析的结果用混合高斯模型对数据样本进行分析的结果7.4 高斯混合模型聚类算法7.4.2 GMM的最大期望算法GMM的最大期望算法即EM算法(Expectation Maximization Algorithm,又叫期望最大化算法),是一种迭代算法,用于含有隐变量(Latent Variable)的概率参数模型的最大似然估计或极大后验概率估计。由于迭代规则容易实现并可以灵活考虑隐变量,EM算法被广泛应用于处理数据的缺测值,以及很多机器学习算法,包括GMM和隐马尔可夫模型(Hid
7、den Markov Model,HMM)的参数估计。第7章大数据分析中的四种常见聚类算法7.5 层次聚类算法7.5.1 层次聚类算法的算法思想层次聚类算法是对给定的数据集进行层次的分解,直到某种条件满足为止。层次聚类算法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接每个节点。该方法的优点是可随时停止划分。主要步骤如下:(1)移除网络中的所有边,得到有n个孤立节点的初始状态;(2)计算网络中每对节点的相似度;(3)根据相似度从强到弱连接相应节点对,形成树状图;(4)根据实际需求横切树状图,获得社区结构。第7章大数据分析中的四种常见聚类算法7.5 层次聚类算法7.5.2 层次聚类算法的运行原理层次聚类算法可分为凝聚和分裂两种方法。1.凝聚的层次聚类算法凝聚的层次聚类算法是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。2.分裂的层次聚类算法分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象初始化到一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值(终止条件)。第7章大数据分析中的四种常见聚类算法感谢观看