德勤税务培训：中国企业境外并购的税务安排.pdf

上传人：peixunshi

文档编号：436649

上传时间：2019-06-18

格式：PDF

页数：11

大小：636.40KB

《德勤税务培训：中国企业境外并购的税务安排.pdf》由会员分享，可在线阅读，更多相关《德勤税务培训：中国企业境外并购的税务安排.pdf（11页珍藏版）》请在文库网上搜索。

1、ment language, a distributed development environment based on Spark platform was built to implement the proposed algorithm for parallel frequent itemsets mining.(4) A number of duplicate candidate sets are generated for DHP when the number of itemsets in the first statistics bucket, and a compressio

2、n DHP algorithm based on Spark single node is proposed. The algorithm replaces the number of duplicate items with the image digital form. , and it is implemented when scanning the transaction database for the first time. It is proved through actual experiments that the proposed compression improveme

3、nt algorithm is significantly lower in time complexity than the single-node DHP algorithm without compressed DHP.(5) Based on the deficiencies of a single node with only one computing unit, the cluster-based Spark distributed computing framework is studied. The distributed DHP algorithm and distribu

4、ted FP-Growth algorithm are implemented using the Spark multi-node cluster distributed architecture, which fully utilizes the advantages of the cluster. The experimental results on the simulated data and the UUC data set Pumsb star show that the cluster-based parallel strategy has better time effici

5、ency than the single node-based parallel environment.Key Words: Spark platform; Association rules; Frequent itemsets; Mining algoriths并行关联规则频繁项集挖掘算法研究1目录1.1 研究背景及意义 .21.1.1 课题背景 .21.1.2 研究意义 .31.2 国内外研究现状 .41.2.1 国外研究现状 .41.2.2 国内研究现状 .51.3 本文研究内容 .51.4 本文的组织结构 .6第 2 章相关技术分析 .72.1 Spark 相关技术 .72.1.

6、1 Spark 体系结构 .72.1.2 Spark 编程模型 .72.1.3 Spark 调度管理原理 .82.2 频繁项集挖掘算法 .92.2.1 单机挖掘算法 .92.2.2 基于 MPI 的挖掘算法 .102.2.3 基于 MapReduce 的挖掘算法 .122.2.4 基于 Spark 的挖掘算法 .12第 3 章基于单机和单节点处理的频繁项集挖掘算法及改进 .143.1 FP-Growth 算法 .143.2 Apriori 算法及基于 Apriori 的二维表改进算法 .243.2.1 Apriori 算法设计概述 .243.2.2 Apriori 算法的二维表改进算法 .2

7、73.2.3 实验结果和分析 .283.3 DHP 算法及基于单节点的 DHP 改进算法 .313.3.1 DHP 算法设计概述 .313.3.2 基于 Spark 单节点的串行 DHP 压缩算法 .373.3.3 实验结果和分析 .40第 4 章基于 Spark 集群的优化策略 .464.1 Spark 集群的 DHP 优化具体实现 .464.1.1 建立哈希函数，生成集合数据 .464.1.2 将集合中数据添加到 Tuple2 数据集中 .464.1.3 压缩求和 .484.1.5 条件聚合数据集 .494.1.6 实验结果和分析 .504.2 Spark 集群的 FP-Growth 优

8、化 .524.2.1 计算频繁 1-项集 .534.2.2 数据分组 .544.2.3 并行挖掘频繁项集 .554.2.4 数据聚合 .564.2.5 实验结果和分析 .57第 5 章结论与展望 .605.1 全文总结 .605.2 展望 .60致谢 .66四川师范大学士学位论文21.1 研究背景及意义1.1.1 课题背景随着信息时代和互联网+时代的到来，面对大数据的多样性(复杂数据类型)以及准确性(高信息真实性) 1, 2，目前主流的传统处理数据的工具无法在可承受的时间内实现对信息的捕获、管理、处理和组织，以帮助企业做出更积极的公司决策。Spark 是为即将到来的大数据时代而开发的更好的

9、大数据处理技术之一。面对海量数据，在一台计算机上挖掘频繁项集时，受处理器 3性能和内存的限制，传统数据挖掘算法没有能力处理大数据集，因此需要考虑分布式挖掘处理 4。本章主要从理论层面研究了 Spark大数据内存处理引擎结合频繁项集挖掘算法相关技术来分析。随着数据和网络时代的到来，海量数据的生成，而在这些海量数据中，肯定隐藏着有价值或潜在的关联信息。通过从这些海量数据快速提取有用信息，对国家的发展和企业的高层决策具有重要意义。有了这些信息，决策制造商不再像以前那样依赖于经验决策，而是具备更值得信赖的参考信息。因此，如何有效地利用这些信息成为国家和企业决策者关注的问题。在此背景下，数据挖掘技术应运

10、而生，被称为数据挖掘技术。由于各个领域都需要数据挖掘技术来处理和分析不同行业的数据，所以获取数据中所包含的信息，成为了数据挖掘技术持续受到学术界和工业界热议的问题，这其中涌现出了大量优秀的算法。频繁模式挖掘是数据科学挖掘领域的重要研究方向之一。频繁模式有许多用途，例如作为分类算法 5或者聚类算法的特征等。根据数据类型的不同，可将频繁样式分为事务数据模型上的频繁项集和序列数据上的频繁子序列。频繁项集是在频繁子序列之前提出的，但它们之间又有很多相似之处。自从频繁项集挖掘算法提出到现在的二十年间，各种频繁项集挖掘算法层出不穷，在此基础上产生了频繁子序列挖掘算法 6。由于序列挖掘算法与频繁项集挖掘算法

11、之间的关联，本文在频繁项集挖掘标准上重点研究了两种频繁项集挖掘算法。近年来，随着人类社会的发展，计算机和互联网越来越深入地渗透到人们生产生活的各个方面，各个领域的个人可用数据量也呈数量级增长。如果你能合理地利用大数据，你就能在数据中找到更多隐藏的关联性，可以帮助你更好地进行数据分析、高层决策，提高人们生产生活的各个方面的质量，具有很重要的意义。然而如今的趋势是，数据量级的增加需要的计算能力远远超过目前单机串行计算的能力，因此，研究如何利用大数据进行数据挖掘是迫在眉睫的。几年前，在一家著名的百货超市沃尔玛，发生了一件关于尿布和啤酒的故事。一家商店的营销经理跟踪了商店的销售额，并在数据中找到了两者

12、之间的隐藏链接，因此将它们放在一起。一是方便买家，二是提高销售，为您的超市赢得了实惠。通过这个例子，我们发现我们每天面对的数据，对我们有很多有用的知识。但是我们都不知道什么知识是预先存在的，它们是隐藏的，以及使用价值是可能的，因此我们需要采并行关联规则频繁项集挖掘算法研究3取某种方式来获取信息。这一点上，继续提出一个数据挖掘的概念。数据挖掘的方法很多，我们想要挖掘这些知识之间的关系时，我们就利用数据挖掘的方法关联规则挖掘技术。关联规则挖掘可以通过 Arm 从大量的事务数据集中发现事务项之间有关联的数据。为了满足社会的需求，各种串行挖掘算法相继出现，其中最具代表性的就是Apriori 算法。1.

13、1.2 研究意义2016 年，李彦宏首次在百度公司开发者大会上，提出了 AI(人工智能)的新理念，即用用机器模仿人类的思考方式，以协助人类进行生产生活，这就是大数据和机器学习挖掘算法的结合。百度率先推出的阿波罗 AI 平台使得开发者能够在此平台上，调用百度提供的 API，开发属于自己的 AI 产品。阿波罗平台主要基于四种技术构成的，分别是人脸识别技术；自然语言理解与处理；图像识别和海量数据分析，它和百度公司之前提出的框计算搜索引擎的原理不谋而合，通过将框计算搜索和阿波罗大数据人工智能平台结合，形成了手机百度 APP 人工搜索，如此以来，我们检索信息的时候，比如打开百度 APP，我们可以利用 A

14、PP 的虚拟技术，感受兵马俑的场景，和你在现场观看一样效果，身临其境；再比如 APP 推出的语音识别，你只要对着手机说一句话:”请帮我找最近的饭店” ，APP 就能识别你的语言，并且通过自然语言理解回答你想要的信息。该 APP 推出的，宣告了大数据新时代到来了，这会不会是第四次互联网革命，我们拭目以待。现今人们可以足不出户，也可以随时行走在马路上，坐在交通工具里，随时实时地接发聊天信息，办理邮件，登录网上银行进行缴费转账，也改变了人们的消费方式。越来越多的开发者开始关注基于分布式处理器系统的频繁项集挖掘算法，也开始关注基于 Hadoop 和其他分布式集群的频繁项集挖掘算法。然而，在面对海量数据

15、时，现有的基于多线程处理器系统的并发频繁项集挖掘算法以及基于 Hadoop 的分布式频繁项集挖掘算法和其他分布式聚类算法 7仍存在一定需要提升的空间。首先，基于多线程处理器技术的并行挖掘算法需要在处理器之间进行大量的通信，同时还需要处理同步问题，这需要耗费资源；其次，基于 Hadoop 的并行挖掘算法，是 Apriori 算法的优化，那么这些类型的算法都会以产生大量的 I/O 开销为代价，换取时间上的高效性。甚至 FP-Growth 算法 8的实现和优化，也基于此种原因，以致每个节点都需要挪动大量的数据，耗费大量的时间。所以，现有的基于 Spark 的频繁项集挖掘算法都是基于Apriori 算

16、法改进的。虽然 I/O 开销代价问题得到了缓解，但是产生大量候选项集的问题仍然存在。此外，在每个迭代过程中，每个节点之间需要大量的通信耗费，协调问题需要同步，这些都相当耗时。因此，面对海量的信息，如何设计一种高效、容错、四川师范大学士学位论文4完全分布的频繁项集挖掘算法显得非常必要。基于 Spark 挖掘频繁项集的技术，可以减少挖掘时间，达到最短时间挖掘数据信息的目的。直接用于挖掘频繁子序列的序列都是由符号信息组成的，但并非所有序列都是符号。例如日常生活中常见的统计时间序列。时间序列是存在于我们生活各个方面的各种时间标记文件。记录与时间序列之间的关系，无疑是时间序列中最有用的信息，但涉及频繁子

17、序列的挖掘算法不能立即作用于数值时间序列，还需要一些信息处理过程。本文采用的方法是利用感知显著点压缩时间节点 9。由于压缩周期序列可以减少大量噪声，使信息可以更加突出。因此压缩时间节点可以用于我们自己挖掘频繁子序列。压缩矩序列不仅能突出实用信息，而且能有效减少数据量，提高处理效率。1.2 国内外研究现状频繁项集（frequent itemsets）是在多次扫描事务库的数据集上出现频率不少于最小支持度的项的集合（itemsets）。每一个商品称为一个项（item)。如果两项集经常同时出现在一张购物单上，那么这两项构成的项的集合（itemset）就是一个频繁项集。从已有的海量数据中提取有用的信息，

18、这样的技术就叫做数据挖掘技术。数据分析是数据挖掘任务中的一个重要任务，其目的是从数据中发现项与项之间潜在的关联关系，而频繁项集的挖掘是并行频繁项集挖掘中最为关键和耗时的一步。随着时间的推移，关联规则分析技术现今已获得高速发展。1.2.1 国外研究现状信息挖掘( DM )10有时被称为数据库中的信息发现( KDD )技术。KDD 技术的一个简单定义是从数据库中提取或挖掘有价值数据。它在 1980 年代后期有所发展，并在1990 年代实现飞跃。1989 年，第 11 届国际人工智能联席会议 11首次提出了数据源知识发现的话题。1995 年，在加拿大蒙特利尔举行了 ACM SEJ 知识发现和信息挖掘

19、国际会议(SIG KDD) 12。自 1995 年在蒙特利尔召开第一届专家和数据探索 13国际会议以来，信息挖掘技术被作为重点突出问题，引起了不少参会者的热议和追捧。目前，数据挖掘主要从决策树、粗糙集 14、遗传公式 15、关联规则分析以及模糊集等概念、技术和应用三个方面进行分析。结合不同的方法也是一种非常有效的技术。国内外的最新发展是对数据挖掘方法的深入研究，在近年来，频繁项集的挖掘研究热点包括乨乨泓域咨询MACRO/ 铁合金项目投资备案报告全球经济增长将温和放缓，我国工业新旧动能将加速转换，工业经济仍将在合理区间稳定运行，工业投资增速有望稳中有进、工业品消费将继续保持平稳增长、工业企业出口增速可能会小幅放缓、企业效益和发展质量将继续稳步提升。工经所所长秦海林表示，未来必须按照高质量发展要求，深化改革，继续改善营商环境，增强发展信心；扩大开放，营造良好的发展环境，拓展发展空间；锐意创新，提高关键核心技术攻关能