互联网大数据ppt第5章如何利用关联规则进行大数据挖掘.pptx
《互联网大数据ppt第5章如何利用关联规则进行大数据挖掘.pptx》由会员分享,可在线阅读,更多相关《互联网大数据ppt第5章如何利用关联规则进行大数据挖掘.pptx(21页珍藏版)》请在文库网上搜索。
1、第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.2 关联规则挖掘实战流程分析5.3 关联规则发掘中重要的Apriori算法5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.1 关联规则5.1.1 什么是关联规则关联规则是形如XY的蕴含式,其中,X和Y分别称为关联规则的先导(Antecedent或Left-Hand-Side,LHS)和后继(Consequent或Right-Hand-Side,RHS)。其中,关联规则XY,存在支持度和信任度。关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多地了解顾客的购物习惯
2、,特别是想知道哪些商品顾客可能会在一次购物时同时购买。为解决这个问题,可对顾客购物篮中的不同物品进行关联分析,得出顾客的购物习惯。这种关联的发现可以了解到顾客喜好购买商品的类型,从而帮助零售商开发出更好的营销策略,来应对客户的需求。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景关联规则挖掘技术目前主要应用领域包括金融行业、市场数据分析(从庞大复杂的市场数据中筛选有用信息,从而用于市场的经营)、电商行业(电子商务网站使用关联规则中的规则进行挖掘,然后设置用户有意要一起购买的捆绑包,同时可使用它们设置相应的交叉销售。也就是向购买某种商品的顾客推荐相关的另外一
3、种商品)等。关联规则挖掘的应用场景主要包括以下一些。1.银行营销方案推荐在西方金融行业中已广泛应用到关联规范挖掘的技术,它能提前预测出银行客户的需求。2.穿衣搭配推荐基于搭配专家和达人生成的搭配组合数据、千百万级别的商品的文本和图像数据,以及用户的行为数据,期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景3.互联网情绪指标和生猪价格的关联关系挖掘和预测生猪价格变动的主要原因在于受市场供求关系的影响。基于大量的数据基础,挖掘出互联网情
4、绪指标与生猪价格之间的关联关系,从而形成基于互联网数据的生猪价格预测模型,挖掘互联网情绪指标与生猪价格之间的关联关系。4.依据用户轨迹的商户精准营销我们根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景5.地点推荐系统可以利用用户的签到记录和地点的位置、类别等信息,为每个用户推荐感兴趣的地点。6.气象关联分析为了更深入地挖掘气象资源的价值,可基于过去一些年的地
5、面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间及气象与其他事物之间的相互关系,让气象数据发挥更多元化的价值。7.交通事故成因分析挖掘交通事故的潜在诱因,带动公众关注交通安全,现在部分城市开放交通事故数据及多维度参考数据,希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景8.基于兴趣的实时新闻推荐通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设
6、计及时准确的推荐系统预测用户未来可能感兴趣的新闻。9.银行金融客户交叉销售分析某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销售的机会,这就是银行金融客户交叉销售的应用体现。10.电子商务搭配购买推荐购买某种商品的顾客会看到相关的另外一种商品的广告。第5章如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.1 关联规则常见分类与四个基本属性1.关联规则的常见分类关联规则常见分类包括以下几种。(1)基于规则中处理的变量的类别,关联规则可分为布尔型和数值型。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中涉及的数据的
7、维数,关联规则中的数据可以分为单维的和多维的。第5章如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.1 关联规则常见分类与四个基本属性2.关联规则的四个基本属性关联规则的四个基本属性具体如下。(1)置信度(Condifence)。置信度用来衡量规则的可信程度。(2)支持度(Support)。支持度用来表示项目集在数据库中的出现频率。(3)期望可信度(Expected Confidence)。假设W中有e%的事务支持物品集B,那么e%称为关联规则的期望可信度。(4)作用度(Lift)。作用度是可信度与期望可信度的比值,描述的是物品集A的出现对物品集B的出现有多大影响。第5章
8、如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.2 快速找出最大高频项目组的实战技巧MFSA(Maximum Frequent Itemset Algorithm)算法是集合Parameterised算法与Pincer-Search算法的优点,它可以快速找到最大高频项目组,并更进一步改善效能。第5章如何利用关联规则进行大数据挖掘MFSA算法概念图第5章如何利用关联规则进行大数据挖掘MFSA算法中出现的符号说明符 号说 明T出现次数加总表(sum table)sup最小支持度阈值MFCI最大候选项目组集合MFS最大高频项目组集合inf非高频项目组tf代表单一项目中某一事务长
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网大数据ppt第5章 如何利用关联规则进行大数据挖掘 互联网 数据 ppt 如何 利用 关联 规则 进行 挖掘