《德勤税务培训:中国新企业并购税务法规.pdf》由会员分享,可在线阅读,更多相关《德勤税务培训:中国新企业并购税务法规.pdf(55页珍藏版)》请在文库网上搜索。
1、国家自然科学基金委员会立法工作小组 关于国家自然科学基金项目科研不端行为处理办法为了规范和加强国家自然科学基金项目科研不端行为的处理,我们起草了国家自然科学基金项目科研不端行为处理办法(草案),现向社会公开征求意见。公众可通过以下途径和方式提出反馈意见: 1电子邮件: 2.通信地址:北京市海淀区双清路83号国家自然科学基金委员会监审局 邮政编码:100085 (请在信封上注明“国家自然科学基金项目科研不端行为处理办法 征求意见”字样) 意见反馈截止时间为2014年3月10日。 附件:国家自然科学基金项目科研不端行为处理办法(草案) 国家自然科学基金委员会立法工作小组 2014年1月24日 国家
2、自然科学基金项目科研不端行为处理办法(草案) (2014年1月23日立法工作小组修改) 第一章 总 则 第一条【立法目的】为了规范和加强国家自然科学基金项目科研不端行为的处理,维护国家自然科学基金(以下简称科学基金)的公正性和科学工作者的权益,推动科学道德建设,促进科学基金事业健康发展,根据国家自然科学基金条例制定本办法。 第二条【适用范围】本办法适用于各类科学基金项目在申请、受理、评审以及实施等管理活动中发生的伪造、篡改和剽窃等违背科学共同体公认的行为准则且违反科学基金法规、规章以及规范性文件规定的行为。 第三条【主要职责】国家自然科学基金委员会(以下简称自然科学基金委)在科学基金项目科研不
3、端行为处理中履行以下职责: (一)受理对科研不端行为投诉或举报; (二)组织开展对科研不端行为调查; (三)作出对科研不端行为处理决定; (四)执行对科研不端行为处理决定; (五)其他职责。 自然科学基金委设立监督委员会,按照国家自然科学基金委员会监督委员会章程的规定具体实施。 第四条【处理原则】自然科学基金委在处理科研不端行为活动中应当坚持事实清楚、定性准确、程序合法和惩教结合的基本原则。 第五条【信誉记录】自然科学基金委对科学基金项目申请、评审、实施等过程中发生的科研不端行为实行信誉管理制度。 第二章 处理措施 第六条【申请人、负责人处理】对项目申请人、项目负责人、参与者的科研不端行为可以
4、采取以下的处理措施: (一)警告; (二)撤销项目; (三)中止项目; (四)一定期限内取消申请或参与申请资格; (五)一定期限内不得晋升专业技术职务(职称)。 第七条【评审专家处理】对评审专家的科研不端行为可以采取以下的处理措施: (一)警告; (二)通报批评,不再聘用。 第八条【依托单位处理】对依托单位的科研不端行为可以采取以下的处理措施: (一)警告; (二)通报批评,一定期限内取消资格。 第九条【警告】警告可以包括一般警告和严重警告两种具体方式。 第十条【中止项目】中止项目适用于已经获得资助的项目负责人或者参与者,表现形式为暂缓拨付基金资助经费,并责令限期改正。 第十一条【撤销项目】撤
5、销项目适用于已经获得资助的项目负责人或者参与者,表现形式为:撤销原资助决定,追回已拨付的资助经费。 第十二条【限制资格】对于申请人、项目负责人、参与者、评审专家、依托单位分别采取如下处理措施,取消其相应的从事特定行为资格。 (一)申请人、参与者3-5年不得申请或者参与申请国家自然科学基金资助,不得晋升专业技术职务(职称); (二)项目负责人、参与者5-7年不得申请或者参与申请国家自然科学基金资助,不得晋升专业技术职务(职称); (三)评审专家终身不得被聘为科学基金项目评审专家; (四)通报批评,依托单位3-5年不得作为依托单位; (五)申请人、项目负责人、参与者终身不得申请或参与申请国家自然科
6、学基金资助。 第十三条【量刑】根据不端行为的情节轻重及科研不端行为违法者的态度,给予从轻、从重处理。 第十四条 【从轻处理】有下列情形之一的,给予从轻处理: (一)一般过失行为的; (二)主动承认错误并积极配合调查的; (三)主动挽回损失或有效阻止危害结果发生的; (四)经批评教育确有悔改表现的。 第十五条 【从重处理】有下列情形之一的,给予从重处理: (一)伪造、销毁、藏匿证据的; (二)阻止他人举报或提供证据的; (三)干扰、妨碍调查核实的; (四)打击、报复举报人的; (五)其他影响恶劣的。 第十六条【累犯】 科研不端行为受到处理后再次发生科研不端行为的,应当从重处理。 第十七条【合并处
7、理】 对同时涉及几种科研不端行为的,应当合并处理。合并处理的幅度不得超过条例规定的上限。 第十八条【共同不端行为】二人以上共同故意形成的科研不端行为,按照各自所起的作用和应负的责任,分别按本办法处理。 第三章 不端行为及处理 第十九条【申请中伪造、变造】申请人、参与者有下列伪造或者变造申请材料行为之一的,自然科学基金委应当给予警告;其申请项目已决定资助的,撤销原资助决定,追回已拨付的基金资助经费;情节严重的,3至5年不得申请或者参与申请国家自然科学基金资助,不得晋升专业技术职务(职称)。 (一)冒他人签名; (二)伪造项目申请人或参与者姓名; (三)职务(职称)虚假; (四)学历(学位)虚假;
8、 (五)工作履历虚假; (六)学术记录虚假; (七)抄袭、剽窃他人项目申请书或研究成果; (八)伪造、变造科学伦理方面的证明材料; (九)隐瞒申请项目研究内容已获得资助的情况或者重复申请; (十)其他伪造和变造行为。 前款第(八)项内容是指申请人或参与者在申请时已经做出了科学伦理方面的承诺,但其违背了该承诺,其行为可能给人类、动物或者环境造成一定的风险。 第二十条【实施过程不端行为】项目负责人、参与者有下列提交弄虚作假材料行为之一的,自然科学基金委应当给予警告,暂缓拨付基金资助经费,并责令限期改正;逾期不改正的,撤销原资助决定,追回已拨付的基金资助经费;情节严重的,5至7年不得申请或者参与申请
9、国家自然科学基金资助, 5至7年不得晋升专业技术职务(职称)。 (一)项目年度进展报告弄虚作假的; (二)结题报告或者研究成果报告弄虚作假的; (三)原始记录弄虚作假的; (四)在标注科学基金资助的学术论文、专著或其他科学成果中,抄袭、剽窃他人成果,一稿多发的; (五)其他相关材料弄虚作假的。 前款中提交弄虚作假材料包括向自然科学基金委提交,也包括公开发表有关基金项目资助成果。 第二十一条【评审专家处理】评审专家有下列科研不端行为之一的,自然科学基金委应当给予警告,责令限期改正;情节严重的,通报批评,自然科学基金委不得再聘请其为评审专家: (一)利用评审工作便利抄袭、剽窃评审项目研究内容或成果
10、等行为谋取不正当利益的 ; (二)披露评审过程、结果等未公开的与评审有关的信息的; (三)擅自委托他人代替自己评审项目等不履行自然科学基金委规定的评审职责的; 第二十二条【依托单位不端行为】依托单位有下列纵容、包庇申请人、项目负责人弄虚作假情形之一的,自然科学基金委应当给予警告,责令限期改正;情节严重的,通报批评,3至5年不得作为依托单位: (一)对自然科学基金委的科研不端行为调查不配合的; (二)组织、提供虚假证明材料的; (三)帮助湮灭、隐藏、转移或毁灭证据的; (四)其他纵容、包庇行为。 第二十三条【终身限制资格】申请人或者项目负责人、参与者因下列行为之一受到刑事处罚的,终身不得申请或者
11、参与申请国家自然科学基金资助。 (一)侵吞、挪用基金资助经费的; (二)伪造、变造国家机关公文、证件或者伪造、变造印章的; (三)为谋取不正当利益,给自然科学基金委工作人员、评审专家以财物的; (四)泄露国家秘密的。 第四章 处理程序 第二十四条【举报】任何组织或个人都可以向自然科学基金委提出书面举报,举报内容应当符合下列要求: (一)有明确的举报对象; (二)属于本办法所列的具体不端行为; (三)有准确的证据或者能够提供证据线索; (四)所举报的科研不端行为与科学基金项目具有相关性。 自然科学基金委鼓励实名举报,应当严格保护举报者的合法权益,为举报者保密。 自然科学基金委反对恶意举报,确属恶
12、意举报的,将按照国家有关法律法规进行处理。 第二十五条【举报处理】自然科学基金委应当及时审查举报者的举报内容,符合本办法第二十四条第一款的,应当作出受理的决定,并通知实名举报者。不符合的,应当作出不予受理的决定,并告知举报者理由;属于其他违规违法行为的,应当按照有关法律法规规定移交有关部门处理。 第二十六条【职权受理】自然科学基金委依职权发现的涉嫌不端行为的,应当及时审查并按照本办法有关程序及时作出处理。 第二十七条【调查组织】对于已经受理的科研不端行为举报,自然科学基金委应当组成调查组,认真研究举报材料以及相关档案资料,拟定调查方案。 必要时可以邀请委外专家参加调查组或者组建专家鉴定组。 第
13、二十八条【调查方式】自然科学基金委可以采用书面调查、现场调查以及委托依托单位调查等方式开展对涉嫌科研不端行为的调查。 第二十九条【委托调查】自然科学基金委将涉嫌科研不端行为委托依托单位调查的,依托单位应当组成专门调查组,认真开展调查,形成完整的加盖依托单位公章的调查报告,及时向自然科学基金委报告有关情况。 调查过程中,依托单位应当与当事人面谈,并向自然科学基金委提供如下材料: (一)事实和本单位意见; (二)有关证明材料; (三)当事人及调查人员签字的谈话记录; (四)其他要求的材料。 第三十条【现场调查】自然科学基金委现场调查时,调查人员不得少于两人,并应当向当事人或者有关人员出示证件。 当
14、事人或者有关人员应当如实回答询问,并协助调查,不得隐瞒或者提供虚假信息。询问或者检查应当制作笔录,当事人以及相关人员应当在笔录上签字。 第三十一条【公正要求】调查过程中,当事人以及其所在依托单位,不得单独与调查人员私下接触,影响调查工作。 第三十二条【证明材料】除了不可抗力因素外,当事人应当向调查人员出示原始记录、观察笔记、有关照片及实验样品等证明材料。 第三十三条【当事人权利】自然科学基金委在调查时候,必须认真听取当事人的陈述或者申辩,对当事人提出的事实、理由和证据,应当进行复核;当事人提出的事实、理由或者证据成立的,自然科学基金委应当采纳。 第三十四条【调查结论】调查终结后,自然科学基金委
15、应当形成调查报告,其主要内容包括: (一)调查的对象和内容; (二)主要事实和依据; (三)调查结论和处理建议; (四)其他需要说明的内容。 第三十五条【处理决定】自然科学基金委根据调查报告以及当事人申辩情况对不端行为作出最终处理决定。 处理决定应当包括如下内容: (一)当事人的姓名或者名称、地址; (二)违反法律、法规或者规章的事实和证据; (三)处理的措施和依据; (四)其他按照法律规定应当包括的内容。 第三十六条【回避与保密制度】自然科学基金委在处理科研不端行为过程中,其调查人员、受委托专家、监督委员会委员等工作人员应当严格遵守回避与保密的规定。 工作人员与涉嫌科研不端行为的当事人存在近
16、亲属关系、同一法人单位、师生关系、合作关系等可能影响公正处理的,应当主动申请回避。自然科学基金委也可以不经申请直接作出回避决定。 工作人员不得披露未公开的有关处理过程、处理结果、证明材料等与科研不端行为处理相关的信息。 第三十七条【决定生效】最终处理决定送达当事人即为生效,当事人采取救济措施的不影响生效处理决定的执行。 前款中的送达时间以当事人签收为准,当事人拒绝签收或者无法签收的,自然科学基金委应当公告处理决定,公告期为15日,公告期届满后视为送达。 第三十八条【经费执行】自然科学基金委做出撤销原资助项目处理决定的,依托单位应当按照本办法要求在处理决定生效后3个月内将该项目经费退还。 第五章
17、 附 则 第三十九条【杰青异议期】在国家自然科学基金国家杰出青年基金项目异议期内不端行为处理适用本办法。 第四十条【生效日期】本办法自2014年 月 日起实施。2005年4月28日公布的国家自然科学基金委员会监督委员会对科学基金资助工作中不端行为的处理办法(试行)同时废止。 嚮嚮, 请 咨 询 合 资 格 的 专 业 顾 问 。 上 述 资 料 及 其 所 含 信 息 均 按 原 貌 提 供 , 德 勤 对 该 等 资 料 或 其 所 含 信 息 不 做 任 何 明 示 或 暗 示 的 表 述 或 保 证 。 除 前 述 免 责 内 容 外 , 德 勤 亦 不 担 保 该 等 资 料 或 其
18、所 含 信 息 准 确 无 误 或 者 满 足 任 何 特 定 的 业 绩 或 者 质 量 标 准 。 德 勤 明 确 表 示 不 提 供 任 何 隐 含 的 保 证 , 包 括 但 不 限 于 , 对 可 商 售 性 、 所 有 权 、 对 某 种 特 定 用 途 的 适 用 性 、 非 侵 权 性 、 适 配 性 、 安 全 性 及 准 确 性 的 保 证 。 您 需 自 行 承 担 使 用 这 些 资 料 及 其 所 含 信 息 的 风 险 , 并 承 担 因 使 用 这 些 资 料 及 其 所 含 信 息 而 导 致 的 全 部 责 任 及 因 使 用 它 们 而 导 致 损 失 的
19、风 险 。 德 勤 不 承 担 与 使 用 这 些 资 料 或 其 所 含 信 息 有 关 的 的 任 何 专 项 、 间 接 、 附 带 、 从 属 性 或 惩 罚 性 损 害 赔 偿 或 者 其 他 赔 偿 责 任 , 无 论 是 否 涉 及 合 同 、 法 定 或 侵 权 行 为 ( 包 括 但 不 限 于 疏 忽 行 为 ) 。 倘 若 前 述 条 款 的 任 何 部 分 因 任 何 原 因 不 能 完 全 执 行 , 其 余 部 分 内 容 仍 然 有 效 。 2 0 0 9 D e l o i t t e T o u c h e T o h m a t s u . 德 勤 全 球
20、D e l o i t t e ( “ 德 勤 ” ) 泛 指 根 据 瑞 士 法 律 组 成 的 社 团 性 质 的 组 织 D e l o i t t e T o u c h e T o h m a t s u ( “ 德 勤 全 球 ” ) 、 其 成 员 所 / 公 司 、 以 及 他 们 的 附 属 机 构 和 关 联 机 构 。 德 勤 全 球 是 一 个 由 全 球 各 地 众 多 的 成 员 所 / 公 司 组 成 的 组 织 , 致 力 于 提 供 卓 越 的 专 业 服 务 及 咨 询 。 德 勤 全 球 重 视 客 户 服 务 , 并 在 约 1 4 0 个 国 家 切
21、实 执 行 其 全 球 性 客 户 服 务 战 略 。 德 勤 依 托 由 约 1 6 5 , 0 0 0 名 专 业 人 士 组 成 的 全 球 网 络 , 在 审 计 、 税 务 、 企 业 管 理 咨 询 和 财 务 咨 询 等 四 个 领 域 为 超 过 八 成 的 全 球 最 大 型 企 业 以 及 全 国 性 大 型 企 业 、 公 共 机 构 、 当 地 的 重 要 客 户 以 及 众 多 发 展 迅 速 的 全 球 性 公 司 提 供 专 业 服 务 。 作 为 社 团 组 织 的 德 勤 全 球 并 不 提 供 上 述 服 务 , 由 于 法 律 规 定 及 其 他 原 因
22、, 某 些 成 员 所 / 公 司 不 会 在 所 有 四 个 专 业 领 域 提 供 服 务 。 作 为 一 家 根 据 瑞 士 法 律 组 成 的 社 团 性 质 的 组 织 , 德 勤 全 球 和 其 任 何 成 员 所 / 公 司 之 间 对 其 相 互 的 行 为 、 疏 忽 或 遗 漏 不 承 担 任 何 责 任 。 每 一 成 员 所 / 公 司 是 一 个 冠 以 “ D e l o i t t e ” 、 “ D e l o i t t e & T o u c h e ” 、 “ D e l o i t t e T o u c h e T o h m a t s u ” 、
23、“ 德 勤 ” 或 其 他 相 关 名 称 独 立 运 营 的 法 律 实 体 。 2 0 0 9 D e l o i t t e T o u c h e T o h m a t s u .入新天地。应对全球气候变化助推绿色低碳发展大潮,清洁生产技术应用规模持续拓展,新能源革命正在改变现有国际资源能源版图。数字技术与文化创意、设计服务深度融合,数字创意产业逐渐成为促进优质产品和服务有效供给的智力密集型产业,创意经济作为一种新的发展模式正在兴起。以上领域的加速成长,必然需要资本的推波助澜,从而诞生众多的投资机遇。综合以上两方面的分析,2017年是中国经济的一个重要泓域咨询MACRO/ 基本金属项
24、目投资备案报告分水岭,中国经济的换挡已经临近完成,新生力量将会在未来几年重新把中国经济拉上一个新的台阶。站在一个新的起点上,此时的投资机遇将是历史性的,值得把握。2、投资项目建设有利于促进项目建设地先进制造业的发展,有利于形成市场规模和良好经济社会效益的产业集群,推动产业结构转型升级;坚持自主创新与技术引进、利用全球创新资源有机结合;推进产学研联合攻关,构建“政府企业高校科研院所金融机构”相结合的产业技术研发模式,推动一批关键共性技术开发,大力推进科技成果产业化;同时,积极引进境外先进技术,加快引进、消化、吸收和再创新。全球经济增长将温和放缓,我国工业新旧动能将加速转换,工业经济仍将在合理区间
25、稳定运行,工业投资增速有望稳中有进、工业品消费将继续保持平稳增长、工业企业出口增速可能会小幅放缓、企业效益和发展质量将继续稳步提升。工经所所长秦海林表示,未来必须按照高质量发展要求,深化改革,继续改善营商环境,增强发展信心;扩大开放,营造良好的发展环境,拓展发展空间;锐意创新,提高关键核心技术攻关能力,保障产业安全。二、必要性分析1、从长期视角来看,全球性的经济发展面临着新矛盾和新挑战,从本质角度来讲,经济发展是一项长期任务,所以针对这样一种现象,要采用 学校代码:10255 学 号:2141552 基于Spark的分布式频繁项集挖掘算法研究 Research on Distributed F
26、requent Itemset Mining Algorithm based on Spark 学科专业: 软件工程 作 者: 陈少总 指导教师: 乐嘉锦 答辩日期: 2017 年 1 月 东华大学 计算机科学与技术学院 School of Computer Science and Technology Donghua University 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的 学位论文,是本人在导师的指导下,独立进行研究工作所取得的 成果。除文中已明确注明和引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的作品及成果的内容。 论文为本
27、 人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律 结果由本人承担。 学位论文作者签名: 日期: 年 月 日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允 许论文被查阅或借阅。 本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密 ,在 年解密后适用本版权书。 本学位论文属于 不保密 。 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 I 基于Spark的分布式频繁项
28、集挖掘算法研究 摘 要 自 20世纪 80年代以来,尤其是互联网技术的兴起,导致了海量 数据的产生。如何自动、充分利用这些海量数据,顺利解决海量数据 中存在的“数据丰富,知识困乏”问题,成为一个迫切需要解决的难 题,数据挖掘技术正是在这样的背景下孕育而生的。 频繁项集挖掘技术是数据挖掘研究课题中一个很重要的研究基 础,它是关联规则分析、序列项集、相关性分析等许多重要数据挖掘 任务的基石。随着大数据时代的到来,如何快速、有效地从海量数据 中挖掘出有用的信息就变得尤为重要了。近几年,大数据处理引擎 Spark 的出现,为海量数据的高效处理提供了一个新的解决思路。本 文针对频繁项集挖掘技术,充分利用
29、 Spark计算引擎的优势,研究基 于 Spark的分布式频繁项集挖掘算法,主要工作如下: 首先,设计一个数据分区策略,使算法能够达到数据独立。针对 基于多处理器系统和 Hadoop集群的频繁项集挖掘算法通信负载高的 问题,通过本文的分区策略,将原始数据进行转换,使得集群中各个 节点的数据彼此相互独立,进而可以并行地挖掘频繁项集,从 而 避 免 了节点之间的通信,提高了算法的效率。 其次,提出均衡分配任务的方法,使集群达到负载均衡。针对传 统频繁项集挖掘算法没有负载均衡能力的问题, 本文根据原始数据集 的划分,通过对数据的重分区和任务的合理分配,将子任务合理地分 配到各个计算节点,使集群能够达
30、到负载均衡。 然后,研究和选择合适的大数据处理平台,设计分布式频繁项集 挖掘算法。 针对基于多处理器系统的频繁项集挖掘算法没有容错机制, 而基于 Hadoop 集群的频繁项集挖掘算 I/O 开销大,不适合迭代计算 的问题, 我们采用了 Apache Spark大数据快速处理引擎来设计分布式 频繁项集挖掘算法,从而使算法在高效处理、可伸缩性、负载均衡和 容错机制上拥有着优秀的表现。 接着,提出两个优化策略以优化本文提出的 DFPS算法,使得它 I I 在面对大规模计算集群的时候能够充分利用集群的资源。 针对本文提 出的 DFPS算法运行在大规模集群上可能会出现的并行度不够高、没 有充分利用集群的
31、计算能力的问题, 本文提出了用户自定义和集群自 适应两种优化策略来完善 DFPS算法。通过将任务划分为更加细小的 子任务这种方式, 提高了算法的并行度, 充分利用了集群的计算能力, 使得算法的效率更高。 最后,将本文提出的 DFPS算法应用到实际的科研项目中。为了 验证 DFPS算法的实用性和性能,我们将它应用在SAP大数据技术 平台的搭建和技术研究项目中。项目包括大数据平台的研究设计和 搭建、HANA 与 R 语言的集成,以及基于大数据平台的相关技术研 究。DFPS 算法是本项目研究的数据挖掘技术之一,在项目的实施过 程中,检验了 DFPS算法的实用性和挖掘效率。 关键词:频繁项集挖掘;关联
32、规则挖掘;大数据;FP-growth;Spark I II RESEARCH ON DISTRIBUTED FREQUENT ITEMSET MINING ALGORITHM BASED ON SPARK ABSTRACT Since the 1980s, the rapid development of database and information technology makes the number of large database increasing. When the era of Internet technology comes, massive data generat
33、ed by many industries. How to make use of this massive data automatically, deal with the problem of “Data Rich, Knowledge Poor” becomes an urgent problem. Data Mining technology is born in such background. Frequent Itemset Mining is an important research of Data Ming. Frequent Itemset Mining is the
34、basement of Association Rules Mining, Correlation Analysis, Regression Analysis, Series Analysis, Local Periodicity, Episode Fragment and other important Data Mining tasks. With the advent of the era of Big Data, how to dig out the useful information quickly in the huge amounts of data becomes very
35、important. In recent years, Apache Spark, a fast and general engine for large-scale data processing, provides a new solution to analyze massive data efficiently. For the Frequent Itemset Mining technology, the paper makes full use of the advantage of general engine Spark, design a distributed algori
36、thm for mining frequent itemsets based on Spark. The research mainly contains the follow tasks: Firstly, for the problem of frequent itemset mining algorithms, which are based on multiprocessor systems and Hadoop cluster, have high communication load. We use a partition strategy to transform the ori
37、ginal data. This will make each node Data Independent. So they can mine frequent itemset in parallel without communication between nodes. Secondly, for the problem of the traditional frequent itemset mining algorithms have load imbalance. In this paper, the algorithm distributes tasks to each comput
38、ation nodes in the cluster reasonably by the partition of original data set and the distribution of tasks. It makes the algorithm has load balancing. Then, for the problem of frequent itemset mining algorithms based on multiprocessor systems have no fault tolerance, and the algorithms based on Hadoo
39、p cluster are not suitable for iterative computation and have heavy disk I/O cost. In this paper, we decide to use Apache Spark to design the distributed frequent itemset mining algorithm. It makes the algorithm has an excellent performance about efficiency, scalability, load balancing and fault tol
40、erance. As for the problem that DFPS algorithm, proposed by this paper, may appear the issue that the parallel degree is not high and do not make full use of the computing ability of the cluster when the cluster is massive. This paper presents two optimization strategies to improve DFPS algorithm. O
41、ne is user-defined strategy and the other is cluster-adaptived strategy. By the way of cutting task into subtasks, improving the parallelism of DFPS algorithm and making full use of the computing power of the cluster. This method makes the algorithm more efficient. At last, in order to verify the DF
42、PS algorithms practicability and performance, we apply it in the project named Reseach on Constructing Big Data Platform and Studing Big Data Skills Based on SAP Technology. The project including design a Big Data Platform, combine HANA database with R language and do some researches about Data Mini
43、ng. During the project, we verify the I V DFPS algorithms practicability and mining efficiency in the real project. Shaozong Chen (Software Engineering) Supervised by Jiajin Le KEY WORDS: frequent itemset mining; association rules mining; FP-growth; Spark; RDD; Big Data, distributed algorithm V目录 摘 要. I ABSTRACT . III 目录. V 第一章 绪论. 1 1.1 课题研究背景与意义. 1 1.2 国内外研究现状. 2 1.2.1数据挖掘. 3 1.2.2频繁项集挖掘算法. 3 1.3 研究的主要内容和创新点. 4 1.4 论文的结构安排. 5 第二章 相关技术分析. 7 2.1 Spark . 7 2.1.1 Spark 体系结构 . 7 2.1.2 Spark 编程模型 .