互联网大数据ppt第2章互联网大数据采集与获取实战要领.pptx

资源ID：20014354 资源大小：133.33KB 全文页数：17页
资源格式： PPTX 下载积分：10文币

微信登录下载

快捷下载

账号登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要10文币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

互联网大数据ppt第2章互联网大数据采集与获取实战要领.pptx

1、第2章互联网大数据采集与获取实战要领2.1 互联网大数据采集与处理技术概述2.2 Web页面数据获取实战方法2.3 利用爬虫抓取互联网大数据实战技巧2.1 互联网大数据采集与处理技术概述互联网网页数据是大数据领域的一个重要组成部分，它具有分布广、格式多样、非结构化等大数据的典型特点，我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储。2.1.1 数据采集的基本流程与关键技术1数据采集的整体框架Web爬虫是一种互联网网页数据的采集工具。Web爬虫的整个抓取过程主要包括以下6个部分。(1)网站页面(Site Page)(2)内容抽取(Content Extractor)(3)链接抽取(U

2、RL Extractor)(4)链接过滤(URL Filter)(5)URL队列(URL Queue)(6)数据(Data)第2章互联网大数据采集与获取实战要领2.1.1 数据采集的基本流程与关键技术2数据采集的基本流程(1)将需要抓取数据的网站的URL信息(Site URL)写入URL队列。(2)Web爬虫从URL队列中获取需要抓取数据的网站的Site URL信息。(3)获取某个具体网站的网页内容。(4)从网页内容中抽取出该网站正文页内容的链接地址。(5)从数据库中读取已经抓取过内容的网页地址(Spider URL)。(6)过滤URL，将当前的URL和已经抓取过的URL进行比较。(7)如果该

3、网页地址没有被抓取过，则将该地址写入Spider URL数据库；如果该地址已经被抓取过，则放弃对这个地址的抓取操作。(8)获取该地址的网页内容，并抽取出所需属性的内容值。(9)将抽取的网页内容写入数据库。第2章互联网大数据采集与获取实战要领2.1.1 数据采集的基本流程与关键技术3数据采集的关键技术链接过滤链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中，可以采用布隆过滤器(Bloom Filter)来实现对链接的过滤。布隆过滤器在空间和时间方面的优势体现在以下三方面。(1)复杂度方面：布隆过滤器的存储空间和插入/查询时间都是常数(

4、即复杂度为O(k)。(2)关系方面：散列函数相互之间没有关联关系，方便由硬件并行实现。(3)存储方面：布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。第2章互联网大数据采集与获取实战要领2.1.2 数据处理的基本流程与关键技术1数据处理的整体框架数据处理的整个过程主要包括以下4个部分。(1)分词(Words Analyze)：用来对抓取到的网页内容进行切词处理。(2)排重(Content Deduplicate)：用来对众多的网页内容进行排重。(3)整合(Integrate)：用来对不同来源的数据内容进行格式上的整合。(4)数据：包含Spider Data(Web爬虫从网页

5、中抽取出来的数据)和DP Data(在整个数据处理过程中产生的数据)两部分数据。第2章互联网大数据采集与获取实战要领2.1.2 数据处理的基本流程与关键技术2数据处理的基本流程一个完整的数据处理过程包括以下6个步骤。(1)对抓取来的网页内容进行分词。(2)将分词处理的结果写入数据库。(3)对抓取来的网页内容进行排重。(4)将排重处理后的数据写入数据库。(5)根据之前的处理结果，对数据进行整合。(6)将整合后的结果写入数据库。第2章互联网大数据采集与获取实战要领2.1.2 数据处理的基本流程与关键技术3数据处理的关键技术排重排重就是排除掉与主题相重复项的过程，网页排重就是通过两个网页之间的相似度

6、来排除重复项。SimHash算法是一种高效的海量文本排重算法，相比于余弦角、欧式距离、Jaccard相似系数等算法，SimHash算法避免了对文本两两进行相似度比较的复杂方式，从而大大提高了效率。4数据处理的关键技术整合整合是把抓取来的网页内容与各个公司之间建立对应关系。对于网页内容的分词结果来说，存在以下两个特点。(1)分词结果的数量很大。(2)大多数的分词对描述该网页内容来说是没有贡献的。第2章互联网大数据采集与获取实战要领2.2 Web页面数据获取实战方法2.2.1 Jsoup技术与页面数据获取Jsoup是一款比较好的Java版HTML解析器，它可以直接解析某个URL地址、HTML文本内

7、容，并有一套好用的API，可通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。1.Jsoup的功能Jsoup的功能如下。(1)从一个URL、文件或字符串中解析HTML。(2)使用DOM或CSS选择器来查找、取出数据。(3)可操作HTML元素、属性、文本。第2章互联网大数据采集与获取实战要领2.2 Web页面数据获取实战方法2.2.1 Jsoup技术与页面数据获取1.Jsoup的功能Jsoup的功能如下。(1)从一个URL、文件或字符串中解析HTML。(2)使用DOM或CSS选择器来查找、取出数据。(3)可操作HTML元素、属性、文本。2.Jsoup的使用方法Jsoup可从字符

8、串、URL地址以及本地文件来加载HTML 文档，并生成Document对象实例。(1)Document对象(一个文档的对象模型)(2)一个元素包含一个子节点集合，并拥有一个父元素第2章互联网大数据采集与获取实战要领2.2 Web页面数据获取实战方法2.2.2 应对特定领域的Deep Web数据获取技术1.Deep Web概述Deep Web(深网)，即深层网络，也叫不可见网、隐藏网，是指万维网上那些不能被标准搜索引擎索引的非表面网络内容。我们平常使用搜索引擎上网接触到的即为表层网络(Surface Web)。与Surface Web相比，Deep Web隐藏着更丰富及“专业”的信息。2.Dee

9、p Web不可直接索引的原因(1)某些Deep Web的内容由于未与外网连接，网络爬虫无法通过URL获取到这些内容。(2)Deep Web的内容属于非表面网络上的内容，用户想获取内容一般需填写表单发送请求后生成动态页面才可获取，但爬虫软件一般无法填写表单。(3)被限制访问的内容也是爬虫无法获取的，比如一些涉及相关秘密任务数据的服务器和网站，这些内容网络爬虫无法取得。第2章互联网大数据采集与获取实战要领2.2 Web页面数据获取实战方法2.2.2 应对特定领域的Deep Web数据获取技术3.对Deep Web进行索引的方法目前Deep Web内容覆盖了各行各业，在互联网中占有巨大比例。(1)D

10、eep Web的规模、分布和结构。(2)Deep Web信息搜索中的关键技术。Deep Web搜索引擎的原理是：可以模仿用户访问数据库的流程，然后通过以下步骤自动访问数据库。(1)Deep Web搜索引擎发现互联网上的Deep Web数据源。(2)对之前获得的表单页面进行分析和抽取。(3)模仿用户自动填充并提交表单。第2章互联网大数据采集与获取实战要领2.3 利用爬虫抓取互联网大数据实战技巧2.3.1 Python爬虫工作原理1.Web爬虫的基本流程第2章互联网大数据采集与获取实战要领Web爬虫的基本流程2.3 利用爬虫抓取互联网大数据实战技巧2.3.1 Python爬虫工作原理2.HTTP协

11、议的请求与响应1)Request(请求)(1)请求方式。常见的请求方式有：GET/POST。(2)请求的URL。URL(全球统一资源定位符)，用来定义互联网上一个唯一的资源。例如一张图片、一个文件、一段视频都可以用URL唯一确定。(3)请求头。一般的Web爬虫都会加上请求头，请求头需要注意以下参数。(4)请求体。如果是GET方式，请求体没有内容(GET方式请求的请求体放在URL后面参数中，直接能看到)；如果是POST方式，请求体是format data(格式化数据)。第2章互联网大数据采集与获取实战要领2.3 利用爬虫抓取互联网大数据实战技巧2.3.1 Python爬虫工作原理2.HTTP协议

12、的请求与响应2)Response(响应)(1)响应状态码及其含义如下。200：代表成功。301：代表跳转。404：文件不存在。403：无权限访问。502：服务器错误。(2)Respone Header(响应头)。Respone Header需要注意的参数如下。Set-Cookie:BDSVRTM=0;path=/：可能有多个，是来告诉浏览器，把cookie保存下来。Content-Location：服务端响应头中包含Location，返回浏览器之后，浏览器就会重新访问另一个页面。(3)preview就是网页源代码。包含了所请求资源的内容，如网页HTML、图片、二进制数据等。

13、第2章互联网大数据采集与获取实战要领2.3 利用爬虫抓取互联网大数据实战技巧2.3.2 利用HtmlParser实现网页链接的提取实战1.HtmlParser概述HtmlParser是一个通过线性和嵌套两种方式来解析网页的Java开源类库，主要用于网页元素的转换以及网页内容的抽取。HtmlParser的特点是：过滤器、访问者模式、自定义标签、易于使用的Java组件。说明：HtmlParser是一个快速的、健壮的、经过严格测试的工具包。2.NodeFilter的使用HtmlParser具备过滤器的特性，我们可以通过这个特性过滤并提取网页中的链接。HtmlParser中与过滤相关的基本接口是NodeFilter，接口中只定义了一个方法。第2章互联网大数据采集与获取实战要领2.3 利用爬虫抓取互联网大数据实战技巧2.3.2 利用HtmlParser实现网页链接的提取实战3.简易链接提取器使用HtmlParser提取链接，需要经过以下步骤：(1)使用URL或者网页源码创建一个Parser对象；(2)构建满足需求的过滤器对象；(3)通过Parser的extractAllNodesThatMatch(NodeFilter filter)方法提取过滤后的节点；(4)通过节点获取链接信息。第2章互联网大数据采集与获取实战要领感谢观看

注意事项: 本文（互联网大数据ppt第2章互联网大数据采集与获取实战要领.pptx）为本站会员（bubibi）主动上传，文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知文库网（点击联系客服），我们立即给予删除！