阿里巴巴大数据及Al实战.pdf
《阿里巴巴大数据及Al实战.pdf》由会员分享,可在线阅读,更多相关《阿里巴巴大数据及Al实战.pdf(113页珍藏版)》请在文库网上搜索。
1、阿里云实时计算MaxCompute 开发者交流钉钉群DataWorks 开发者交流钉钉群扫码关注阿里技术扫一扫二维码图案,关注我吧2020 年我们如果问企业 IT 最大的趋势是什么,我觉得云计算必然会排在前列。今天,上云是 IT 基础设施继续向企业提供能力升级的必然趋势,通过稳定、快捷、高性能和高弹性的底座,帮助企业迅速实现已有业务的数字化,以及推动现有数字信息的实现业务价值。IT 的基础设施上云只是一个开始。云的最大价值,用一句话来说,就是“数据让应用智能化”。从阿里巴巴经济体的角度来说,未来数据智能技术发展的两大方向,一是实时化的大数据能力,二是人工智能技术。云时代的数据智能,可以真正处理
2、海量的数据,可以真正实时地进行数据的分析,也可以真正把人工智能和大数据完美结合,提炼数据的内在规律。在阿里云提供的统一技术平台上,阿里巴巴的各个业务部门沉淀了很多优秀的方法论。我们非常高兴用这一本实践手册作为给开发者社区和企业用户的献礼。通过这些最佳实践的分享,我们希望能够和企业,和开发者一起探索,进一步推动数据智能领域的创新和落地。序言贾扬清阿里云智能计算平台事业部总裁 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 5优酷背后的大数据秘密 18阿里集团风控大脑关于大数据应用的探索与实践 29可闭环、可沉淀、可持续的企业级数据赋能体系友盟云数据中台产品实践 44MaxCompute 在
3、高德大数据上的应用 59MaxCompute 在阿里妈妈数据字化营销解决方案上的典型应用 74实时计算助力 1688 打造实时挑货系统 93实时计算在阿里影业实时报表业务技术解读 103目录解密淘宝推荐实战,打造“比你还懂你”的个性化 APP作者:欧文武(三桐)阿里集团 淘宝事业群 资深算法专家简介:如今,推荐系统已经成为各大电商平台的重要流量入口,谁才能够做到比用户更懂用户,谁占据了新零售时代的主动权。手机淘宝的推荐更是淘宝最大的流量入口和最大的成交渠道之一,其背后是最为复杂的业务形态和最复杂的场景技术,那么究竟如何打造手淘背后的推荐系统呢?本次首席技术官大数据专享会上,阿里巴巴搜索推荐事业
4、部资深算法专家欧文武(三桐)为大家解密了淘宝的推荐实战。手淘推荐简介手淘推荐的快速发展源于 2014 年阿里“All in 无线”战略的提出。在无线时代,手机屏幕变小,用户无法同时浏览多个视窗,交互变得困难,在这样的情况下,手淘借助个性化推荐来提升用户在无线端的浏览效率。经过近几年的发展,推荐已经成为手淘上面最大的流量入口,每天服务数亿用户,成交量仅次于搜索,成为了手淘成交量第二大入口。6解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 今天的推荐不仅仅包含商品,还包含了直播、店铺、品牌、UGC,PGC 等,手淘整体的推荐物种十分丰富,目前手淘的整体推荐场景有上百个。推荐与搜索不同,搜索中
5、用户可以主动表达需求,推荐很少和用户主动互动,或者和用户互动的是后台的算法模型,所以推荐从诞生开始就是大数据+AI 的产品。手淘推荐特点相比于其他推荐产品,手淘推荐也有自身的如下特点:1.购物决策周期:手淘推荐的主要价值是挖掘用户潜在需求和帮助用户购买决策,用户的购物决策周期比较长,需要经历需求发现,信息获取,商品对比和下单决策的过程,电商推荐系统需要根据用户购物状态来做出推荐决策。2.时效性:我们一生会在淘宝购买很多东西,但是这些需求通常是低频和只在很短的时间窗口有效,比如手机 12 才买一次但决策周期只有几小时到几天,因此需要非常强的时效性,需要快速地感知和捕获用户的实时兴趣和探索未知需求
6、,因此,推荐诞生之初就与 Flink、Blink 实时计算关系非常紧密。3.人群结构复杂:手淘中会存在未登录用户、新用户、低活用户以及流式用户等,因此需要制定差异化的推荐策略,并且针对性地优推荐模型。4.多场景:手淘推荐覆盖了几百个场景,每个场景都独立进行优化显然是不可能的,而且每个场景的条件不同,因此超参也必然不同,无法依靠人工逐个优化场景模型的参数,因此需要在模型之间进行迁移学习以及自动的超参学习等,通过头部场景的迁移学习来服务好尾部场景。5.多目标和多物种。解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 接下来将主要围绕数据、基
7、础设施以及算法模型进行介绍。数据-基础数据手淘的推荐数据主要包括几种,即描述型数据比如用户画像,关系数据比如二部图或稀疏矩阵,行为序列和图数据等。基于用户行为序列推荐模型在手淘商品推荐应用最为广泛,图模型则是近两年发展较快的模型,因为序列通常只适合于同构的数据,而在手淘里面,用户的行为有很多种,比如看视频、搜索关键词等,通过 graph embedding 等技术可以将异构图数据对齐或做特征融合。数据-样本数据样本主要包含两部分元素,label 和特征。label 一般在手淘推荐中有几类,比如曝光、点击、成交以及加购等。特征则比较多了,比如用户自己的特征、用户上下文特征、商品本身特征以及两两组
8、合特征等。根据用户的特征和行为日志做 Join就形成样本表,这些表格存储的时候就是按照稀疏矩阵方式进行存储,一般而言是按天或者按照时间片段形成表格,样本生成需要占用很大一部分离线计算资源。解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 离线计算-模型训练模型训练也有三种主要的模式,即全量学习、增量学习和在线学习。全量学习这里是指模型初始化从 0 开始学习,如果日志规模比较小,模型简单并不需要频繁更新时,可以基于全量日志定期训练和更新模型,但当日志和模型参数规模较大时,全量学习要消耗大量计算资源和数天时间,性价比很低,这时通常会在历史模
9、型参数基础上做增量学习,用小时/天日志增量训练模型和部署到线上,降低资源消耗和较高的模型更新频率。如果模型时效性非常强需要用秒/分钟级别样本实时更新模型,这是就需要用到在线学习,在学习和增量学习主要差别是依赖的数据流不一样,在线学习通常需要通过流式计算框架实时产出样本。离线计算-训练效率因为机器资源总是不够的,训练优化是如何用更快的速度,更少的计算和更少的数据训练出更好的模型,这里为大家提供一些加速训练的方式:1.热启动:模型需要不断升级和优化,比如新加特征或修改网络结构,由于被修复部分模型参数是初始值,模型需要重新训练,热启动就是在模型参数只解密淘宝推荐实战,打造“比你还懂你”的个性化 AP
10、P 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 云和端随着 5G 和 IOT 的发展数据会出现爆炸式的膨胀,将数据放在云上集中存储和计算,这样做是否是一个最合理的方式呢?一些数据和计算能否放在端上来做?端上相对于云上而言,还有几个较大的优势,首先延时低,其次是隐式性,各个国家对于隐私的保护要求越来越严厉,因此需要考虑当数据不能发送到云端的时候如何做个性化推荐。解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 召回技术-动态实时多兴趣表达(MIND)早些年大家在做推荐协同过滤可能使用 Item2Vec 召回、标签召回等,比如像I
11、tem2Vec 召回而言,确实比较简单,而且时效性非常好,在很长一段时间内主导了推荐技术发展的进程,后续才诞生了矩阵分解等。但是 Item2Vec 召回存在很大的问题,如果商品的曝光点不多其实是很难被推荐出来的,因此推荐的基本上都是热门的Item。其次 Item2Vec 召回认为每个点击都是独立的,缺少对于用户的全局认知,此时需要做的是就是将用户的行为和标签进行全局感知并做召回。基于这样的出发点,我们提出了基于行为序列的召回模型,但这种方式存在的问题就是用户的兴趣不会聚焦在同一个点,单个向量召回通常只能召回一个类目或者兴趣点,因此如何通过深度学习做用户的多需求表达等都是挑战。这样的问题,阿里巴
12、巴已经解决了,并且将论文发表在 CIKM 2019 上面。现在,淘宝所使用的是在线多向量化并行召回。解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 推荐序列优化-生成式推荐推荐一般都是基于打分的,打完分之后在做一个贪心排序和打散,这样的做法得到的结果其实并不是最优的,因为这样做并没有考虑结果与结果之间的依赖性,使用贪心算法得到的结果并不是最优的。推荐本质上应该是对于集合而不是序列的优化,因此手淘推荐是用的是生成式排序模型。更多可以参考我们在 KDD 2019 发表的论文。多目标均衡优化在推荐时,大家往往会遇到多目标均衡问题,比如商品推
13、荐的浏览深度,点击和成交,由于目标量纲不一致,不存在全局唯一最优解,需要同时优化多个目标或在多个目标之间做合理取舍,对此我们提出了基于帕累托的多目标优化排序模型。更多可参考我们发表在 RecSys 2019 的文章。解密淘宝推荐实战,打造“比你还懂你”的个性化 APP 17优酷背后的大数据秘密作者:门德亮阿里集团 新零售技术事业群 数据技术专家在本文中优酷数据中台的数据技术专家门德亮分享了优酷从 Hadoop 迁移到阿里云 MaxCompute 后对业务及平台的价值。大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有 MaxCompute 到有的这样一个历程
14、,因为刚刚好我就是入职优酷差不多 5 年的时间,我们正好是在快到 5 年的时候,去做了从 Hadoop 到MaxCompute 的这样一个升级。这个是 2016 年 5 月到 2019 年现在的 5 月优酷的发展历程,上面是计算资源,下面是储存资源。大家可以看到整个用户数,还有表的数据,实际上是在呈一个指数式增长的。但是在 2017 年 5 月,当优酷完成了整个Hadoop 迁移 MaxCompute 后,优酷的计算消耗,还有储存的消耗实际上是呈下降趋势的,整个迁移得到了一个非常大的收益。优酷背后的大数据秘密优酷背后的大数据秘密第一个,简单易用。第二个,完善的生态。第三个,性能非常强悍。第四个
15、,资源使用非常弹性。第一个特点,简单易用。MaxCompute 有一个非常完整的链路,不管是从数据开发,还是数据运维,包括数据集成,数据质量的管控,还有整个数据地图,数据安全。当年优酷从 Hadoop 迁到 MaxCompute 之后,我们最大的体会是自己不用半夜经常起来去维护集群了,不用去跑任务了,写一个任务,别人之前提一个需求过来,我可能要给他排几周,而现在我可以告诉他,我给你马上跑一下,就可以出来了。包括之前像分析师 BI 还要登录客户端,写脚本,自己写调度,经常会说我的数今天为什么没出来?包括高层看的数,可能要到 12 点钟才能出来。而现在基本上所有重要的数据都会在 7 点钟产出,包括
16、一些基本的业务需求,其实分析师或者产品,他们自己都可以实现了,不需要所有需求都提到数据这边。优酷背后的大数据秘密优酷背后的大数据秘密第四个特点,资源使用的弹性。我们在 2016 年迁移之前,其实优酷的 Hadoop集群规模已经达到了一千多台,这个当时还是一个比较大的规模。当时我们遇到了很多问题,包括像 NameNode 这种内存的问题,机房没有办法再扩容的问题,当时是非常痛苦的,包括一些运维管理上面的问题。我们不断的去问运维要资源,运维告诉说,说你们已经花了多少多少资源,花了多少多少钱。我们面临的问题是计算资源如何按需使用,夜里的时候作业很多,到了下午之后,我的整个集群都空下来了,没有人用,造
17、成了浪费。其实 MaxCompute 完美的解决了这个问题。优酷背后的大数据秘密优酷背后的大数据秘密数据源上,比如 DB 也好或者服务器的本地日志 Log 也好,我们通过 TT&Datahub存储到 MaxCompute 上面做分析。当然现在非常火的 Flink 实时计算,其实是作为一个实时处理的链路。包括 DB 的同步,除了实时的链路,DB 也会去通过按天/按小时,把数据同步到 MaxCompute,数据计算结果也可以同步到 Hbase、Mysql 这种 DB 上面。再通过统一的服务层对应用提供服务。下面这个是机器学习 Pai 做的一些算法训练,再把训练的结果通过 OSS 传到一个算法的应用
18、上面去。这张图可能也是业界比较流行的一个数仓分层的图,因为我们这边是数据中台,所有的数据都是统一从 ods 层 cdm 层,然后 ads 层,去一层一层的往上去做精细,再到最上面,通过接口服务、文件服务、SQL 服务,去提供多样化的服务。再往上面,提供对内的一些数据产品,对高管、对小二,可能还有一些对外的,比如说像优酷的播放数,包括热度这些对应用的数据。优酷背后的大数据秘密优酷背后的大数据秘密这张图大部分互联网公司不太会涉及到,就是关于反作弊的问题。这个是我们在 MaxCompute 做的一个反作弊的架构,通过原始的数据去提取它的特征,然后再通过算法模型,包括机器学习、深度学习、图模型去支持流
19、量反作弊、渠道反作弊等等。再通过业务场景上反作弊的监控工具,把监控到的作弊信息去打一个黑白样本,再把这个黑白样本跟特征一起来不断的迭代优化算法模型。同时针对算法模型,做一个模型的评价,不断来完善反作弊体系。最后一点,其实还是跟成本相关,在日常使用中,一定是有小白用户或者一些新来的用户去错误的使用或者不在乎的使用一些资源,比如经常会有一些实习生或者是非技术的同学,如分析师,一个 SQL 消费比较高,这个其实是非常浪费资源,而且可能他一个任务,让其他所有人的任务都在这儿等着排队,实际上我们会去对整个的资源做一个治理。从节点的粒度上,通过大数据来治理大数据,我们可以算出哪些表产出来之后,多少天没有被
20、读取的,包括它的访问跨度可能没有那么大的,我们会去做下线或者去做治理,有一些业务场景可能并不是非常的重要或者它的时间要求没有那么高,比如一些算法训练,可以去做一些错峰的调度,保证水位不要太高。从 MaxCompute 任务的角度,可以算出哪些任务有数据倾斜、哪些数据可能会有相似计算,哪些任务需要去做 MapJoin,哪些任务需要去做一些裁剪,然后来节省它的 IO。还有哪些任务会去做暴力扫描,扫一个月、扫一年的数据,哪些数据可能会有这样一个数据膨胀,比如说它做了 CUBE 之类的这种复杂计算,一些算法模型的迭代;我们通过数据计算出来的这些迹象,去反推用户,来去提高它的这样一个数据的质量分,来去达
21、到我们降低整个计算资源的目的。在计算平台的角度,我们也持续的在使用 MaxCompute 推出的一些非常高级的用法,比如我们这边的 HBO、Hash Cluster、Aliorc;优酷背后的大数据秘密优酷背后的大数据秘密最后一页是存储的优化,因为像一些关键的原始数据或者是需要审计的数据是不能删的,永久不能删的。实际上就会造成我们数据存储的趋势是一直往上不减的,计算会在某一个时间点达到一个平衡。当前用这么多的计算资源,再往后,其实应该也不会再大涨了,比如说旧的业务逻辑下掉了,会换新的业务逻辑,这样会保持在一个相对平稳的波动上面。但是储存,因为它有一些历史的数据是永远不能删的,可能会出现一直在增长
22、,而且是指数级的。所以我们也会持续关注存储的情况,还是通过大数据来治大数据,去看哪些表的访问跨度比较小,来去做生命周期的优化,来去控制它的增速。还有刚才提到的 Aliorc,实际上也是做压缩的。我们会去做一些大字段的拆分,来提高压缩的比例。OK,这个是优酷在 MaxCompute 中的一些应用场景,感谢大家的聆听。阿里集团风控大脑关于大数据应用的探索与实践作者:丁明峰(山蜂)阿里集团 新零售技术事业群 高级数据技术专家简介:2019 年双 11 阿里风控保护了约 388 亿消费者的操作行为,同时挡住了约 22 亿次恶意攻击。在首席技术官大数据专享会,阿里巴巴新零售技术事业群高级数据技术专家丁明
23、峰为大家介绍了阿里风控大脑关于大数据应用的探索与实践,即风控领域如何应用大数据来构建风控体系?并详细介绍风控架构以及链路。本次分享主要围绕以下三个方面:一、阿里风控大脑整体介绍二、近线引擎三、离线引擎一、阿里风控大脑整体介绍1.阿里风控大脑是什么?阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富,可以有不同的解读,但基本上代表了几个方向。首先,阿里风控大脑是“大中台小前台”战略,由于阿里风控管的风险业务很多,领域非常杂,所以允许不同的领域、不同的风控场景可以有自己独特的交互,有自己的
24、 console,但是用到的底层引擎必须是中心化的,由风控引擎做统一计算和处理。第二,阿里风控大脑代表高智能,后续会有深度学习和无监督学习模型大量上线,防控策略及防控方式都会更加智能化。如下图所示,右侧是目前阿里风控覆盖的主要业务和防控的风控场30阿里集团风控大脑关于大数据应用的探索与实践景,如黑客攻击、消费者保护、商家保护等。左侧是阿里风控 2019 年双 11 的部分数据,保护了约 388 亿消费者的操作行为,同时挡住了约 22 亿次恶意攻击。2.典型防控链路用户通过阿里的 APP 或网站访问阿里的业务会产生大量操作。这些操作进来之后大概会经过如下图所示的七层防控环节。首先会是端上防控,主
25、要在应用层,比如应用的加固,应用的代码混淆等。然后是端上安全策略。第二层是在网络层,在网络层做流量清洗和流量保护。基础安全防控:网络层之后会有人机判断。人机部分在风控领域占比非常大,网络层+人机的防控方式和下面几层差异比较大,主要针对基础流量做防控,不会加入具体的业务逻辑,所以称其为基础安全防控。实施安全防控:人机比较复杂,一部分与流量相关,另一部分偏业务。其中偏业务的部分与下面几层称为业务防控范围。人机之后,在业务防控侧做白/黑判断,主要是出于成本考虑。如果能先判定用户行为的白/黑,后面则不需要做太多进一步判定,可以节约大量成本。然后是比较复杂的灰的判定,需要从多个维度来识别风险。阿里集团风
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阿里巴巴 数据 Al 实战