《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]_计算机类

如何自学 占星术 占星教程网盘 塔罗牌教程百度网盘

《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]

《网络爬虫全解析——技术、原理与实践》封面图片

内容简介:

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。*后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

作者简介:

罗刚,猎兔搜索创始人,带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》,获得广泛好评。在北京和上海等地均有猎兔培训的学员。

目  录:

第1章 技术基础 1

1.1 第一个程序 1

1.2 准备开发环境 2

1.2.1 JDK 2

1.2.2 Eclipse 3

1.3 类和对象 4

1.4 常量 5

1.5 命名规范 6

1.6 基本语法 6

1.7 条件判断 7

1.8 循环 8

1.9 数组 9

1.10 位运算 11

1.11 枚举类型 13

1.12 比较器 14

1.13 方法 14

1.14 集合类 15

1.14.1 动态数组 15

1.14.2 散列表 15

1.15 文件 19

1.15.1 文本文件 19

1.15.2 二进制文件 23

1.16 多线程 27

1.16.1 基本的多线程 28

1.16.2 线程池 30

1.17 折半查找 31

1.18 处理图片 34

1.19 本章小结 35

第2章 网络爬虫入门 36

2.1 获取信息 36

2.1.1 提取链接 37

2.1.2 采集新闻 37

2.2 各种网络爬虫 38

2.2.1 信息采集器 40

2.2.2 广度优先遍历 41

2.2.3 分布式爬虫 42

2.3 爬虫相关协议 43

2.3.1 网站地图 44

2.3.2 Robots协议 45

2.4 爬虫架构 48

2.4.1 基本架构 48

2.4.2 分布式爬虫架构 51

2.4.3 垂直爬虫架构 54

2.5 自己写网络爬虫 55

2.6 URL地址查新 57

2.6.1 嵌入式数据库 58

2.6.2 布隆过滤器 60

2.6.3 实现布隆过滤器 61

2.7 部署爬虫 63

2.7.1 部署到Windows 64

2.7.2 部署到Linux 64

2.8 本章小结 65

第3章 定向采集 69

3.1 下载网页的基本方法 69

3.1.1 网卡 70

3.1.2 下载网页 70

3.2 HTTP基础 75

3.2.1 协议 75

3.2.2 URI 77

3.2.3 DNS 84

3.3 使用HttpClient下载网页 84

3.3.1 HttpCore 94

3.3.2 状态码 98

3.3.3 创建 99

3.3.4 模拟浏览器 99

3.3.5 重试 100

3.3.6 抓取压缩的网页 102

3.3.7 HttpContext 104

3.3.8 下载中文网站 105

3.3.9 抓取需要登录的网页 106

3.3.10 代理 111

3.3.11 DNS缓存 112

3.3.12 并行下载 113

3.4 下载网络资源 115

3.4.1 重定向 115

3.4.2 解决套接字连接限制 118

3.4.3 下载图片 119

3.4.4 抓取视频 122

3.4.5 抓取FTP 122

3.4.6 网页更新 122

3.4.7 抓取限制应对方法 126

3.4.8 URL地址提取 131

3.4.9 解析URL地址 134

3.4.10 归一化 135

3.4.11 增量采集 135

3.4.12 iframe 136

3.4.13 抓取JavaScript动态页面 137

3.4.14 抓取即时信息 141

3.4.15 抓取暗网 141

3.5 PhantomJS 144

3.6 Selenium 145

3.7 信息过滤 146

3.7.1 匹配算法 147

3.7.2 分布式过滤 153

3.8 采集新闻 153

3.8.1 网页过滤器 154

3.8.2 列表页 159

3.8.3 用机器学习的方法抓取新闻 160

3.8.4 自动查找目录页 161

3.8.5 详细页 162

3.8.6 增量采集 164

3.8.7 处理图片 164

3.9 遍历信息 164

3.10 并行抓取 165

3.10.1 多线程爬虫 165

3.10.2 垂直搜索的多线程爬虫 168

3.10.3 异步IO 172

3.11 分布式爬虫 176

3.11.1 JGroups 176

3.11.2 监控 179

3.12 增量抓取 180

3.13 管理界面 180

3.14 本章小结 181

第4章 数据存储 182

4.1 存储提取内容 182

4.1.1 SQLite 183

4.1.2 Access数据库 185

4.1.3 MySQL 186

4.1.4 写入维基 187

4.2 HBase 187

4.3 Web图 189

4.4 本章小结 193

第5章 信息提取 194

5.1 从文本提取信息 194

5.2 从HTML文件中提取文本 195

5.2.1 字符集编码 195

5.2.2 识别网页的编码 198

5.2.3 网页编码转换为字符串编码 201

5.2.4 使用正则表达式提取数据 202

5.2.5 结构化信息提取 206

5.2.6 表格 209

5.2.7 网页的DOM结构 210

5.2.8 使用Jsoup提取信息 211

5.2.9 使用XPath提取信息 217

5.2.10 HTMLUnit提取数据 219

5.2.11 网页结构相似度计算 220

5.2.12 提取标题 222

5.2.13 提取日期 224

5.2.14 提取模板 225

5.2.15 提取RDF信息 227

5.2.16 网页解析器原理 227

5.3 RSS 229

5.3.1 Jsoup解析RSS 230

5.3.2 ROME 231

5.3.3 抓取流程 231

5.4 网页去噪 233

5.4.1 NekoHTML 234

5.4.2 Jsoup 238

5.4.3 提取正文 240

5.5 从非HTML文件中提取文本 241

5.5.1 PDF文件 242

5.5.2 Word文件 245

5.5.3 Rtf文件 247

5.5.4 Excel文件 253

5.5.5 PowerPoint文件 254

5.6 提取标题 254

5.6.1 提取标题的一般方法 255

5.6.2 从PDF文件中提取标题 259

5.6.3 从Word文件中提取标题 261

5.6.4 从Rtf文件中提取标题 261

5.6.5 从Excel文件中提取标题 267

5.6.6 从PowerPoint文件中提取标题 270

5.7 图像的OCR识别 270

5.7.1 读入图像 271

5.7.2 准备训练集 272

5.7.3 图像二值化 274

5.7.4 切分图像 279

5.7.5 SVM分类 283

5.7.6 识别汉字 287

5.7.7 训练OCR 289

5.7.8 检测行 290

5.7.9 识别验证码 291

5.7.10 JavaOCR 292

5.8 提取地域信息 292

5.8.1 IP地址 293

5.8.2 手机 315

5.9 提取新闻 316

5.10 流媒体内容提取 317

5.10.1 音频流内容提取 317

5.10.2 视频流内容提取 321

5.11 内容纠错 322

5.11.1 模糊匹配问题 325

5.11.2 英文拼写检查 331

5.11.3 中文拼写检查 333

5.12 术语 336

5.13 本章小结 336

第6章 Crawler4j 338

6.1 使用Crawler4j 338

6.1.1 大众点评 339

6.1.2 日志 342

6.2 crawler4j原理 342

6.2.1 代码分析 343

6.2.2 使用Berkeley DB 344

6.2.3 缩短URL地址 347

6.2.4 网页编码 349

6.2.5 并发 349

6.3 本章小结 352

第7章 网页排重 353

7.1 语义指纹 354

7.2 SimHash 357

7.3 分布式文档排重 367

7.4 本章小结 369

第8章 网页分类 370

8.1 关键词加权法 371

8.2 机器学习的分类方法 378

8.2.1 特征提取 380

8.2.2 朴素贝叶斯 384

8.2.3 支持向量机 393

8.2.4 多级分类 401

8.2.5 网页分类 403

8.3 本章小结 403

第9章 案例分析 404

9.1 金融爬虫 404

9.1.1 中国能源政策数据 404

9.1.2 世界原油现货交易和期货交易数据 405

9.1.3 股票数据 405

9.1.4 从PDF文件中提取表格 408

9.2 商品搜索 408

9.2.1 遍历商品 410

9.2.2 使用HttpClient 415

9.2.3 提取价格 416

9.2.4 水印 419

9.2.5 数据导入ECShop 420

9.2.6 采集淘宝 423

9.3 自动化行业采集 424

9.4 社会化信息采集 424

9.5 微博爬虫 424

9.6 微信爬虫 426

9.7 海关数据 426

9.8 医药数据 427

9.9 本章小结 429

后记 430

《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]大小:181MB已经过安全软件检测无毒,请您放心下载。浏览器不支持脚本!购买本书:当当图书商城 | | 淘宝购书

有需要联系v;zhanxzhanx

摘要:《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]_计算机类是一本详细介绍网络爬虫技术的书籍。本文将从四个方面对这本书进行阐述,分别是网络爬虫的概念和原理、网络爬虫的应用领域、网络爬虫的实践案例和网络爬虫的技术难点与挑战。通过对这本书的详细分析,读者可以全面了解网络爬虫的相关知识。

1、网络爬虫的概念和原理

网络爬虫是一种自动化程序,可以模拟人的操作在互联网上抓取信息。它通过从一个网页跳转到另一个网页,从而获取到网页上的信息。网络爬虫的原理主要包括URL管理、页面下载、页面解析和数据存储等步骤。URL管理负责维护待抓取的URL队列,页面下载将网页的内容下载到本地,页面解析从下载的网页中提取有用的信息,数据存储将提取到的信息保存到数据库或文件中。网络爬虫的概念和原理是理解网络爬虫的基础。

网络爬虫的应用领域

网络爬虫在各个领域都有广泛的应用。在搜索引擎中,网络爬虫被用来抓取互联网上的网页,建立搜索引擎的索引库。在舆情监测中,网络爬虫可以抓取新闻、微博、论坛等网站上的信息,帮助分析舆情动态。在金融领域,网络爬虫可以获取股票、基金等金融产品的信息,辅助投资决策。在电子商务中,网络爬虫可以抓取商品信息,帮助商家了解市场动态。网络爬虫的应用领域非常广泛,可以为各行各业提供有力的支持。

2、网络爬虫的实践案例

网络爬虫的实践案例展示了网络爬虫在实际项目中的应用。通过实际案例的介绍,读者可以更好地理解网络爬虫的实际应用方法和效果。例如,可以介绍一个用于抓取天气信息的网络爬虫,通过抓取各大气象网站上的数据,实现天气预报的自动更新。又或者介绍一个用于抓取新闻信息的网络爬虫,通过抓取新闻网站上的新闻文章,实现新闻聚合和推送。网络爬虫的实践案例是理论知识与实际应用的结合,对读者来说具有很好的参考价值。

3、网络爬虫的技术难点与挑战

网络爬虫的技术难点和挑战主要包括反爬虫策略、数据量大、数据质量、分布式爬虫等方面。反爬虫策略是网站为了阻止爬虫抓取数据而采取的一系列措施,如验证码、IP封禁、动态页面等。数据量大和数据质量是爬取大规模数据时面临的问题,如何高效地存储和处理这些数据,以及如何保证数据的准确性和完整性。分布式爬虫是为了提高爬虫的效率和可靠性而采取的一种方式,但也带来了一些挑战,如任务分配、数据一致性等。网络爬虫的技术难点和挑战需要通过不断的实践和优化来解决。

4、总结

《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]_计算机类是一本详细介绍网络爬虫技术的书籍。通过对这本书的阐述,我们了解了网络爬虫的概念和原理、网络爬虫的应用领域、网络爬虫的实践案例以及网络爬虫的技术难点与挑战。网络爬虫作为一种重要的数据获取方式,对于各行各业来说都具有重要的意义。通过学习和实践网络爬虫,我们可以更好地应对信息时代的挑战。

本文由nayona.cn整理

点击联系需要东西方神秘学学习资料,专业的咨询

有需要联系v;hx-hx3 有需要联系v;hx-hx3 有需要联系v;hx-hx3 如果对你有一点点帮助,欢迎打赏~~~  
本文来自用户投稿或整理于网络,版权归作者所有,如有侵权,请联系我们删除。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
雅书雅书

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

记得加这个v;hx-hx3