德勤税务培训:中国企业境外并购的税务安排.pdf
《德勤税务培训:中国企业境外并购的税务安排.pdf》由会员分享,可在线阅读,更多相关《德勤税务培训:中国企业境外并购的税务安排.pdf(11页珍藏版)》请在文库网上搜索。
1、ment language, a distributed development environment based on Spark platform was built to implement the proposed algorithm for parallel frequent itemsets mining.(4) A number of duplicate candidate sets are generated for DHP when the number of itemsets in the first statistics bucket, and a compressio
2、n DHP algorithm based on Spark single node is proposed. The algorithm replaces the number of duplicate items with the image digital form. , and it is implemented when scanning the transaction database for the first time. It is proved through actual experiments that the proposed compression improveme
3、nt algorithm is significantly lower in time complexity than the single-node DHP algorithm without compressed DHP.(5) Based on the deficiencies of a single node with only one computing unit, the cluster-based Spark distributed computing framework is studied. The distributed DHP algorithm and distribu
4、ted FP-Growth algorithm are implemented using the Spark multi-node cluster distributed architecture, which fully utilizes the advantages of the cluster. The experimental results on the simulated data and the UUC data set Pumsb star show that the cluster-based parallel strategy has better time effici
5、ency than the single node-based parallel environment.Key Words: Spark platform; Association rules; Frequent itemsets; Mining algoriths并行关联规则频繁项集挖掘算法研究1目录1.1 研究背景及意义 .21.1.1 课题背景 .21.1.2 研究意义 .31.2 国内外研究现状 .41.2.1 国外研究现状 .41.2.2 国内研究现状 .51.3 本文研究内容 .51.4 本文的组织结构 .6第 2 章 相关技术分析 .72.1 Spark 相关技术 .72.1.
6、1 Spark 体系结构 .72.1.2 Spark 编程模型 .72.1.3 Spark 调度管理原理 .82.2 频繁项集挖掘算法 .92.2.1 单机挖掘算法 .92.2.2 基于 MPI 的挖掘算法 .102.2.3 基于 MapReduce 的挖掘算法 .122.2.4 基于 Spark 的挖掘算法 .12第 3 章 基于单机和单节点处理的频繁项集挖掘算法及改进 .143.1 FP-Growth 算法 .143.2 Apriori 算法及基于 Apriori 的二维表改进算法 .243.2.1 Apriori 算法设计概述 .243.2.2 Apriori 算法的二维表改进算法 .2
7、73.2.3 实验结果和分析 .283.3 DHP 算法及基于单节点的 DHP 改进算法 .313.3.1 DHP 算法设计概述 .313.3.2 基于 Spark 单节点的串行 DHP 压缩算法 .373.3.3 实验结果和分析 .40第 4 章 基于 Spark 集群的优化策略 .464.1 Spark 集群的 DHP 优化具体实现 .464.1.1 建立哈希函数,生成集合数据 .464.1.2 将集合中数据添加到 Tuple2 数据集中 .464.1.3 压缩求和 .484.1.5 条件聚合数据集 .494.1.6 实验结果和分析 .504.2 Spark 集群的 FP-Growth 优
8、化 .524.2.1 计算频繁 1-项集 .534.2.2 数据分组 .544.2.3 并行挖掘频繁项集 .554.2.4 数据聚合 .564.2.5 实验结果和分析 .57第 5 章 结论与展望 .605.1 全文总结 .605.2 展望 .60致 谢 .66四川师范大学士学位论文21.1 研究背景及意义1.1.1 课题背景随着信息时代和互联网+时代的到来,面对大数据的多样性(复杂数据类型)以及准确性(高信息真实性) 1, 2,目前主流的传统处理数据的工具无法在可承受的时间内实现对信息的捕获、管理、处理和组织,以帮助企业做出更积极的公司决策。Spark 是为即将到来的大数据时代而开发的更好的
9、大数据处理技术之一。面对海量数据,在一台计算机上挖掘频繁项集时,受处理器 3性能和内存的限制,传统数据挖掘算法没有能力处理大数据集,因此需要考虑分布式挖掘处理 4。本章主要从理论层面研究了 Spark大数据内存处理引擎结合频繁项集挖掘算法相关技术来分析。随着数据和网络时代的到来,海量数据的生成,而在这些海量数据中,肯定隐藏着有价值或潜在的关联信息。通过从这些海量数据快速提取有用信息,对国家的发展和企业的高层决策具有重要意义。有了这些信息,决策制造商不再像以前那样依赖于经验决策,而是具备更值得信赖的参考信息。因此,如何有效地利用这些信息成为国家和企业决策者关注的问题。在此背景下,数据挖掘技术应运
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 税务 培训 中国企业 境外 并购 安排