《超大规模数据挖掘架构及方法论.pdf》由会员分享,可在线阅读,更多相关《超大规模数据挖掘架构及方法论.pdf(26页珍藏版)》请在文库网上搜索。
1、更深入地洞察更科学地决策Copyright 2007, Geni-sage Technology CO.,LTD. All rights reserved超大规模数据挖掘架构及方法论Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved2议题 超大规模数据挖掘架构主流并行计算架构 数据挖掘并行特点 GDM并行架构 数据分析方法论Further Insight,Better DecisionsCopyright 2007, Geni-sage Technol
2、ogy CO.,LTD. All rights reserved3议题 超大规模数据挖掘架构主流并行计算架构 数据挖掘并行特点 GDM并行架构 数据分析方法论Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reservedMPI4设计目标(1)设计一套应用程序接口,使编程者不需要面对编译器、操作系统执行包。(2)允许高效通信:避免内存到内存的拷贝( memory-to-memory copying),允许 overlap计算和通信,任务分解到各线程。(3)支持异构环
3、境。(4)采取可靠的通信接口:编程者不用应对通信失败。(5)支持多用户平台,而不需要明显的程序修改。(6)线程安全。缺点:串行代码 cpu、内存资源重复占用;Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved5MPI_INIT: 启动 MPI环境MPI_COMM_SIZE: 确定进程数MPI_COMM_RANK: 确定自己的进程标识符MPI_SEND: 发送一条消息MPI_RECV: 接收一条消息MPI_FINALIZE: 结束 MPI环境 MPI基本
4、函数Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved4 种消息 传递函数 阻塞发送 MP I_ Send (buf fer ,cou nt ,t ype,dest,t ag,co mm ) 非阻塞发送 MP I_ Isend (b uf fer ,cou nt ,t ype,dest,t ag,co mm ,r equ est) 阻塞接收 MP I_ Rec v( bu f fer ,cou nt ,t ype,sou rce,tag,co mm ,
5、 status) 非阻塞接收 MP I_ Irecv(b uf fer ,cou nt ,t ype,sou rce,tag,co mm ,r equ es t) 点对点通信4种通信模式标准通信模式 (MPI_SEND)缓存通信模式 (MPI_BSEND)同步通信模式 (MPI_SSEND)就绪通信模式 (MPI_RSEND)Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved通信 :MPI_Bcast(广播 )MPI_Scatter(发布 )MPI_G
6、ather(搜集 )同步: MPI_Barrier规约: MPI_Reduce 集合通信Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reservedOpenMPI8设计目标(1)提供一个标准 的共享内存并行 架构。(2)建立一个简单的标示符集合,使得通过 3、 4个标示符就可以将程序并行化。(3)能够同时提供粗粒度和细粒度并行。(4)不需要编程人员学习消息通信包和撰写底层消息通信代码。编程 及执行 流程(1)基于 OpenMPI思想 编写并行程序;(2)利用 O
7、penMPI编译器 执行并行程序,生成多线程程序(包含线程、共享变量、子线程变量、barriers等);(3)在多核计算机 上执行编译后的并行程序。 支持 for循环和 sections并行缺点:(1)需要预编译并行程序,流程复杂;(2)编译后的并行代码可读性较差。Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved其它并行计算思想或平台缺点 Map-Reduce( Fork/Join)需要对程序进行 map、 reduce设计,对串行代码调整较大;由于是分布式并行,因此仅适合比较容易 map、 reduce设计的场景,适用算法有限。 Terracotta集群平台虚拟机层面并行,基本无需调整串行代码,但调度和负载均衡机制考虑较少。9Further Insight,Better DecisionsCopyright 2007, Geni-sage Technology CO.,LTD. All rights reserved10议题 超大规模数据挖掘架构主流并行计算架构 数据挖掘并行特点 GDM并行架构 数据分析方法论