《自己动手做大数据系统》张魁【扫描版_PDF电子书_推荐】_计算机类

如何自学 占星术 占星教程网盘 塔罗牌教程百度网盘

《自己动手做大数据系统》张魁【扫描版_PDF电子书_推荐】

《自己动手做大数据系统》封面图片

书名:自己动手做大数据系统
作者:张魁/张粤磊/刘未昕/吴茂贵
出版社:电子工业出版社
译者:
出版日期:2016-10-1
页数:248
ISBN:9787121295867
0.0
豆瓣评分
孔网购买全网资源sm.nayona.cn

内容简介:

如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。本书的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。

作者简介:

张魁

虚拟化工程师,Openstack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。先后在美企担任虚拟化应用运维、服务器集群开发运维工程师或系统开发架构师,高校信息中心云平台架构师,主要关注Openstack、Docker及分布式存储等。

张粤磊

DBA、大数据架构师,十余年一线数据处理数据分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。主要关注大数据基础平台、大数据模型构建和大数据分析。

刘未昕

从事IT研发和项目管理工作十余年以上。使用多种程序设计语言,目前研究方向主要是大数据生态系统,从事金融、数据仓库等领域研发。五年以上IT行业授课、培训经验,并在多所高校担任外聘讲师。

吴茂贵

运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。近期主要做复杂数据存储、清理、转换等工作,同时在大数据方面也很有兴趣并投入大量时间和精力,且将持续为之。

目  录:

目 录

第1章 为什么要自己动手做大数据系统 1

1.1 大数据时代 1

1.2 实战大数据项目 2

1.3 大数据演练平台 2

第2章 项目背景及准备 4

2.1 项目背景 4

2.2 项目简介 4

2.3 项目架构 4

2.4 操作系统 5

2.5 数据存储 7

2.6 数据处理 8

2.7 开发工具 9

2.8 调试工具 10

2.9 版本管理 10

第3章 大数据环境搭建和配置 11

3.1 各组件功能说明 11

3.1.1 各种数据源的采集工具 12

3.1.2 企业大数据存储工具 12

3.1.3 企业大数据系统的数据仓库工具 12

3.1.4 企业大数据系统的分析计算工具 13

3.1.5 企业大数据系统的数据库工具 13

3.2 大数据系统各组件安装部署配置 13

3.2.1 安装的前期准备工作 13

3.2.2 Hadoop基础环境安装及配置 15

3.2.3 Hive安装及配置 21

3.2.4 Sqoop安装及配置 24

3.2.5 Spark安装及配置 30

3.2.6 Zookeeper安装及配置 31

3.2.7 HBase安装及配置 33

3.3 自动化安装及部署说明 35

3.3.1 自动化安装及部署整体架构设计 35

3.3.2 大数据系统自动化部署逻辑调用关系 36

3.4 本章小结 43

第4章 大数据的获取 44

4.1 使用爬虫获取互联网数据 45

4.2 Python和Scrapy 框架的安装 45

4.3 抓取和解析招聘职位信息 47

4.4 职位信息的落地 51

4.5 两个爬虫配合工作 53

4.6 让爬虫的架构设计更加合理 55

4.7 获取数据的其他方式 57

4.8 使用Sqoop同步论坛中帖子数据 57

4.9 本章小结 59

第5章 大数据的处理 60

5.1 Hive是什么 60

5.2 为什么使用Hive做数据仓库建模 60

5.3 飞谷项目中Hive建模步骤 61

5.3.1 逻辑模型的创建 62

5.3.2 物理模型的创建 67

5.3.3 将爬虫数据导入stg_job表 74

5.4 使用Hive进行数据清洗转换 77

5.5 数据清洗转换的必要性 78

5.6 使用HiveQL清洗数据、提取维度信息 79

5.6.1 使用HQL清洗数据 79

5.6.2 提取维度信息 82

5.7 定义Hive UDF封装处理逻辑 85

5.7.1 Hive UDF的开发、部署和调用 86

5.7.2 Python版本的UDF 89

5.8 使用左外连接构造聚合表rpt_job 92

5.9 让数据处理自动调度 96

5.9.1 HQL的几种执行方式 96

5.9.2 Hive Thrift服务 99

5.9.3 使用JDBC连接Hive 100

5.9.4 Python调用HiveServer服务 103

5.9.5 用crontab实现的任务调度 105

5.10 本章小结 107

第6章 大数据的存储 108

6.1 NoSQL及HBase简介 108

6.2 HBase中的主要概念 110

6.3 HBase客户端及JavaAPI 111

6.4 Hive数据导入HBase的两种方案 114

6.4.1 利用既有的JAR包实现整合 114

6.4.2 手动编写MapReduce程序 116

6.5 使用Java API查询HBase中的职位信息 122

6.5.1 为什么是HBase而非Hive 122

6.5.2 多条件组合查询HBase中的职位信息 123

6.6 如何显示职位表中的某条具体信息 132

6.7 本章小结 133

第7章 大数据的展示 134

7.1 概述 134

7.2 数据分析的一般步骤 135

7.3 用R来做数据分析展示 135

7.3.1 在Ubuntu上安装R 135

7.3.2 R的基本使用方式 137

7.4 用Hive充当R的数据来源 139

7.4.1 RHive组件 139

7.4.2 把R图表整合到Web页面中 145

7.5 本章小结 151

第8章 大数据的分析挖掘 152

8.1 基于Spark的数据挖掘技术 152

8.2 Spark和Hadoop的关系 153

8.3 在Ubuntu上安装Spark集群 154

8.3.1 JDK和Hadoop的安装 154

8.3.2 安装Scala 154

8.3.3 安装Spark 155

8.4 Spark的运行方式 157

8.5 使用Spark替代Hadoop Yarn引擎 160

8.5.1 使用spark-sql查看Hive表 160

8.5.2 在beeline客户端使用Spark引擎 161

8.5.3 在Java代码中引用Spark的ThriftServer 163

8.6 对招聘公司名称做全文检索 168

8.6.1 从HDFS数据源构造JavaRDD 169

8.6.2 使用Spark SQL操作RDD 173

8.6.3 把RDD运行结果展现在前端 174

8.7 如何把Spark用得更好 175

8.8 SparkR组件的使用 177

8.8.1 SparkR的安装及启动 177

8.8.2 运行自带的Sample例子 179

8.8.3 利用SparkR生成职位统计饼图 179

8.9 本章小结 181

第9章 自己动手搭建支撑大数据系统的云平台 182

9.1 云平台架构 182

9.1.1 一期云基础平台架构 182

9.1.2 二期云基础平台架构 184

9.2 云平台搭建及部署 185

9.2.1 安装组件前准备 185

9.2.2 Identity(Keystone)组件 190

9.2.3 Image(Glance)组件 198

9.2.4 Compute(Nova)组件 201

9.2.5 Storage(Cinder)组件 206

9.2.6 Networking(Neutron)组件 210

9.2.7 Ceph分布式存储系统 221

9.2.8 Dashboard(Horizon)组件 230

9.3 Identity(Keystone)与LDAP的整合 232

9.4 配置Image组件大镜像部署 235

9.5 配置业务系统无缝迁移 236

9.6 本章小结 237

参考文献 238

浏览器不支持脚本!

摘要:在大数据技术蓬勃发展的今天,如何从零开始构建一个属于自己的大数据系统,成为众多技术从业者关注的焦点。《自己动手做大数据系统》张魁【扫描版_PDF电子书_推荐】_计算机类 正是这样一部极具实践价值的指南。本书摒弃了枯燥的理论说教,以项目驱动的方式,引领读者亲手搭建从数据采集、存储、计算到可视化的完整链路。它不仅是技术的集合,更是工程思维的体现,帮助读者在动手过程中深刻理解Hadoop、Spark等核心组件的运作机理。通过这本书,读者能够跨越理论与实践的鸿沟,真正掌握大数据系统的构建方法,为后续的深入学习和职业发展打下坚实基础。

1、从零到一的构建路径

本书最鲜明的特色在于其“手把手”的教学风格。作者张魁深知初学者在面对庞大技术栈时的迷茫,因此精心设计了一条从环境搭建开始的渐进式学习路径。读者无需具备深厚的分布式系统背景,只需跟随书中的步骤,即可在个人电脑上部署出一套可运行的大数据实验环境。这种低门槛的入门方式,极大地降低了学习者的心理负担。

在构建过程中,书籍详细讲解了Linux系统的配置、Java环境的安装以及各类依赖库的整合。这些看似基础的操作,恰恰是许多初学者容易绊倒的地方。作者通过清晰的截图和命令注释,将每一个细节都呈现得淋漓尽致。无论是网络配置的调整,还是内存参数的优化,书中都给出了具体且可行的方案,确保读者能够顺利迈出第一步。

更为难得的是,本书并未停留在简单的“照做”层面。每完成一个构建步骤,作者都会穿插解释其背后的设计原理。例如,在配置HDFS时,会说明为何采用主从架构,以及数据块的大小如何影响读写性能。这种将实践与理论深度融合的方式,让读者不仅知其然,更知其所以然,从而真正具备独立解决问题的能力。

2、核心组件实战解析

大数据系统的核心在于其分布式存储与计算能力。本书对Hadoop生态系统的剖析堪称详尽。从HDFS的分布式文件系统入手,作者通过上传、下载、备份等实际操作,展示了数据如何被切分并冗余存储在多台节点上。读者可以直观地感受到数据容错与高可用性的实现机制。

在计算层面,MapReduce编程模型的讲解是本书的重头戏。作者并没有直接抛出复杂的数学公式,而是用经典的WordCount案例,逐步拆解Map与Reduce两个阶段的执行流程。通过编写代码、打包运行到查看结果的全过程,读者能够清晰理解数据如何在集群中被并行处理。书中还针对Shuffle阶段的性能调优给出了宝贵建议。

除了Hadoop,本书还重点介绍了Spark这一现代化的计算框架。作者对比了Spark与MapReduce在内存计算上的差异,并通过迭代算法和实时流处理的案例,展示了Spark的高效与灵活。对于Spark的核心RDD概念,书中用大量图示和代码示例进行诠释,帮助读者建立起弹性分布式数据集的内存模型认知,从而在实际项目中能够合理选择计算引擎。

3、数据采集与预处理

一个完整的大数据系统离不开数据的“源头活水”。本书在数据采集环节投入了大量篇幅,详细介绍了如何使用Flume从Web服务器日志中实时抓取数据,以及如何使用Sqoop将关系型数据库中的数据批量导入HDFS。这些工具的使用方法被拆解为清晰的步骤,读者可以轻松上手。

数据进入系统后,预处理是必不可少的一环。书中引入了数据清洗与转换的实战案例,例如处理缺失值、去除重复记录以及格式化时间戳。作者演示了如何利用MapReduce或Spark的DataFrame API编写高效的ETL脚本。这些内容不仅实用,而且能够帮助读者理解数据质量对于后续分析的重要性。

此外,本书还探讨了消息队列Kafka在数据缓冲与解耦中的作用。通过构建一个生产者和消费者的简单示例,读者能够理解如何在高吞吐场景下保证数据不丢失、不重复。作者将Kafka与Flume、Spark Streaming进行整合,构建了一个端到端的实时数据处理管道,让读者看到数据从产生到被消费的完整生命周期。

4、数据可视化与系统运维

数据经过计算后,最终需要以直观的形式呈现给用户。本书在可视化环节介绍了如何使用ECharts等前端库,将分析结果绘制成柱状图、折线图或热力图。书中提供了完整的Web应用开发示例,将后端查询结果通过REST API传递给前端展示,实现了从数据仓库到仪表板的闭环。

系统搭建完毕后的运维管理同样不容忽视。本书专门用一章讲解了大数据集群的监控与调优。作者介绍了如何通过Ambari或Cloudera Manager等工具查看集群的健康状态,以及如何分析NameNode的日志来定位故障。对于常见的OOM问题、磁盘IO瓶颈等,书中给出了基于实际经验的排查思路。

最后,本书还涉及了数据安全与权限管理的基本概念。通过配置Kerberos认证和HDFS的ACL规则,读者可以了解如何防止数据被非法访问。这些内容虽然属于高阶话题,但作者以平实的语言和简单的实验将其呈现,使得读者能够建立起初步的安全意识,为未来在生产环境中部署系统打下基础。

总结:

《自己动手做大数据系统》张魁【扫描版_PDF电子书_推荐】_计算机类 是一部不可多得的实战宝典。它通过完整的项目流程,将复杂的大数据技术拆解为一个个可执行的任务,让读者在亲自动手的过程中,逐步建立起系统化的知识体系。无论是初学者还是有一定基础的开发者,都能从中获得宝贵的实践经验。

本书的价值不仅在于传授技术,更在于培养一种工程化的思维方式。它教会读者如何从需求出发,设计合理的架构,并解决实际部署中遇到的各类问题。通过阅读和实践这本书,读者将真正具备从零构建大数据系统的能力,从而在技术浪潮中占据主动。

本文由nayona.cn整理

点击联系需要东西方神秘学学习资料,专业的咨询

只要网页介绍资料,全部都有,还有很多还没来得及更新
每天更新200-300款资料
全网最大最全的神秘学资料平台
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
有看中网站记得联系我
图片2            

联系我们

图片2

关注公众号

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
雅书雅书
《重新定义Spring Cloud实战》许进【扫描版_PDF电子书_推荐】_计算机类
上一篇 2026年6月8日 下午7:35
《自己动手写神经网络》(Java实现)葛一鸣【扫描版_PDF电子书_推荐】_计算机类
下一篇 2026年6月8日 下午7:36
易学资料

对占星塔罗感兴趣关注公众号

相关推荐