文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PPTX文档下载
分享到微信 分享到微博 分享到QQ空间

互联网大数据ppt第7章大数据分析中的四种常见聚类算法.pptx

  • 资源ID:20014341       资源大小:389.59KB        全文页数:13页
  • 资源格式: PPTX        下载积分:10文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要10文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

互联网大数据ppt第7章大数据分析中的四种常见聚类算法.pptx

1、第7章大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.2 K均值聚类算法7.3 基于密度的DBSCAN聚类方法7.4 高斯混合模型聚类算法7.5 层次聚类算法7.1 大数据分析聚类算法概述7.1.1 聚类分析的相关概念及应用场景1.聚类分析的概念聚类分析(Cluster Analysis)又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析也就是将一些具有相似性质的数据划分到一起,得到多个具有不同性质的数据类集合。从数据挖掘的角度看,聚类分析可以大致分为以下四种。1)划分聚类2)层次聚类3)基于密度的聚类4)基于网格的聚类第7章

2、大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.1.1 聚类分析的相关概念及应用场景2.聚类算法应用场景1)基于用户位置信息的商业选址 2)中文地址标准化处理3)非人恶意流量识别4)国家电网用户画像5)求职信息完善6)搜索引擎查询聚类以进行流量推荐7)保险投保者分组8)生物种群固有结构认知9)图像分割10)网站关键词整合第7章大数据分析中的四种常见聚类算法7.1 大数据分析聚类算法概述7.1.2 聚类算法运行基础:簇与距离度量聚类算法中,将数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇(样本簇或类别)。距离度量的方法主要包括以下一些。1.闵可夫斯基距离2.曼哈顿距离

3、3.欧式距离4.切比雪夫距离5.马氏距离6.余弦相似度7.皮尔逊相关系数8.汉明距离9.杰卡德相似系数10.编辑距离11.动态时间归整距离第7章大数据分析中的四种常见聚类算法7.2 K均值聚类算法7.2.1 基于划分的K均值聚类算法K均值聚类算法(K-Means Clustering Algorithm),也叫K-means聚类算法,它属于无监督学习,其样本所属的类别是未知的,只是根据特征将样本分类,且类别空间也由人为需要而选定。K-means聚类算法的思想是最小化所有样本到所属类别中心的欧式距离和,采用迭代的方式实现收敛。K-means聚类算法是最著名的划分聚类算法,它的特点是简洁和效率高,

4、因此它作为聚类算法中主要采用的方法而被广泛使用。第7章大数据分析中的四种常见聚类算法7.2 K均值聚类算法7.2.2 二分K均值聚类算法运行原理二分K均值(BisectingK-means)聚类算法是基于经典K-均值算法实现的,作为K-means聚类算法的改进算法,其调用经典K-均值(k=2),把一个聚簇分成两个,迭代到分成k个停止。第7章大数据分析中的四种常见聚类算法7.3 基于密度的DBSCAN聚类方法7.3.1 DBSCAN算法原理解析1.DBSCAN算法的相关定义DBSCAN(密度聚类)算法可以解决不规则形状聚类,它是一种具有代表性的基于密度的聚类算法。DBSCAN算法不同于划分和层次

5、聚类方法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。2.DBSCAN算法的思想DBSCAN使用的方法很简单,它任意选择一个没有类别的核心对象,然后找到由这个对象密度可达的所有样本组成的集合,这个集合即为一个满足连接性与最大性的聚类簇。接着选择另一个没有类别的核心对象,以同样的方法得到另一个聚类簇,这样一直执行到所有核心对象都有类别为止。第7章大数据分析中的四种常见聚类算法7.3 基于密度的DBSCAN聚类方法7.3.2 DBSCAN算法的基本运行流程第7章大数据分析中的四种常见聚类算法7.4 高斯混合模型聚类算法7.4.

6、1 GMM算法原理分析第7章大数据分析中的四种常见聚类算法二维高斯数据分布图混合高斯分布产生的数据用单高斯模型对样本进行分析的结果用混合高斯模型对数据样本进行分析的结果7.4 高斯混合模型聚类算法7.4.2 GMM的最大期望算法GMM的最大期望算法即EM算法(Expectation Maximization Algorithm,又叫期望最大化算法),是一种迭代算法,用于含有隐变量(Latent Variable)的概率参数模型的最大似然估计或极大后验概率估计。由于迭代规则容易实现并可以灵活考虑隐变量,EM算法被广泛应用于处理数据的缺测值,以及很多机器学习算法,包括GMM和隐马尔可夫模型(Hid

7、den Markov Model,HMM)的参数估计。第7章大数据分析中的四种常见聚类算法7.5 层次聚类算法7.5.1 层次聚类算法的算法思想层次聚类算法是对给定的数据集进行层次的分解,直到某种条件满足为止。层次聚类算法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接每个节点。该方法的优点是可随时停止划分。主要步骤如下:(1)移除网络中的所有边,得到有n个孤立节点的初始状态;(2)计算网络中每对节点的相似度;(3)根据相似度从强到弱连接相应节点对,形成树状图;(4)根据实际需求横切树状图,获得社区结构。第7章大数据分析中的四种常见聚类算法7.5 层次聚类算法7.5.2 层次聚类算法的运行原理层次聚类算法可分为凝聚和分裂两种方法。1.凝聚的层次聚类算法凝聚的层次聚类算法是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。2.分裂的层次聚类算法分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象初始化到一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值(终止条件)。第7章大数据分析中的四种常见聚类算法感谢观看


注意事项

本文(互联网大数据ppt第7章大数据分析中的四种常见聚类算法.pptx)为本站会员(bubibi)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png