当前位置:首页 > 图书中心 > 图书 > 人文社科 > 大数据分析与应用基础
大数据分析与应用基础
ISBN:978-7-5689-4338-3
万卷方法
作者:兰晓红 马燕
策划编辑:林佳木
编辑:付勇
字数(千):276 页数:208 印次:1-1
开本:16开  平装
出版时间: 2024-03-20
定价:¥58
内容简介

本书重点介绍大数据分析的主要算法及主流计算框架,强调理实一体化的教学模式和方法。在讲解各种计算分析方法的同时,本书对核心技术配以相应的实训项目或案例,真正训练学生解决大数据问题的实践能力。本书内容包括:大数据计算分析技术概述、大数据计算分析常用算法及场景、大数据离线计算分析技术、大数据流式计算分析技术、机器学习在大数据计算分析中的应用。最后本书还以进出口管理风险评估大数据平台设计与实现为例,设置了综合前述知识的实战项目。
本书可作为高等学校大数据、云计算、人工智能等相关专业教材,同时也适合希望深入了解大数据计算分析技术的开发人员学习使用。

目录
第1章 大数据计算分析技术概述 1
1.1 大数据核心技术 2
1.1.1 分布式存储 2
1.1.2 分布式计算 3
1.2 大数据技术生态圈 5
1.3 数据分析与大数据分析 9
1.3.1 数据分析 9
1.3.2 大数据分析 10
1.3.3 大数据计算分析的价值 11
1.4 大数据计算框架 13
1.4.1 大数据计算框架分类 13
1.4.2 批处理框架 15
1.4.3 流式计算框架 16
1.4.4 内存计算框架 16
1.4.5 图计算框架 17
1.5 大数据计算分析平台 19
1.5.1 DANA Studio 19
1.5.2 MaxCompute 20
1.5.3 LeapHD 21
1.6 本章小结 22
1.7 课后作业 22
第2章 大数据计算分析常用算法及场景 23
2.1 分类 24
2.1.1 什么是分类 24
2.1.2 分类过程 25
2.1.3 典型分类算法 26
2.1.4 案例:海洋生物分类 30
2.2 聚类 32
2.2.1 什么是聚类 32
2.2.2 聚类过程 32
2.2.3 典型聚类算法 36
2.2.4 案例:鸢尾花分类 38
2.3 回归分析 39
2.3.1 什么是回归分析 40
2.3.2 回归分析分类 40
2.3.3 常用回归分析软件 42
2.3.4 案例:广告投入与产品销量预测 45
2.4 关联规则 46
2.4.1 什么是关联规则 47
2.4.2 关联规则挖掘过程 48
2.4.3 关联规则典型算法 48
2.4.4 案例:毒蘑菇的相似特征 49
2.5 Web数据挖掘 51
2.5.1 什么是Web数据挖掘 51
2.5.2 Web数据挖掘的类型及流程 52
2.5.3 典型Web数据挖掘技术 54
2.5.4 案例:支付中的交易欺诈侦测 55
2.6 本章小结 55
2.7 课后作业 55
第3章 大数据离线计算分析技术 57
3.1 MapReduce计算模型 58
3.1.1 并行计算 59
3.1.2 分布式计算 60
3.1.3 MapReduce计算框架 61
3.1.4 MapReduce键值对和输入输出 65
3.1.5 MapReduce工作流程 65
3.1.6 MapReduce应用编程 67
3.2 交互式计算模式 75
3.2.1 交互式数据处理 76
3.2.2 Hive在交互式计算中的应用 76
3.2.3 HBase在交互式计算中的应用 84
3.2.4 Spark SQL在交互式计算中的应用 91
3.2.5 Eagles在交互式计算中的应用 96
3.3 图并行计算框架 98
3.3.1 图并行计算 99
3.3.2 图存储模式 99
3.3.3 图计算框架 100
3.3.4 Spark GraphX框架及编程实例 101
3.4 大数据离线分析案例:Web日志数据分析 106
3.4.1 需求描述 106
3.4.2 数据来源 106
3.4.3 数据处理 106
3.4.4 效果呈现 113
3.5 本章小结 113
3.6 课后作业 114
第4章 大数据流式计算分析技术 115
4.1 大数据流式计算概述 116
4.1.1 流式计算 117
4.1.2 分布式流计算 119
4.2 Storm流式计算框架 120
4.2.1 Storm流计算概述 120
4.2.2 Storm流计算架构 122
4.2.3 Storm工作机制 126
4.2.4 Storm流计算编程案例 128
4.3 Spark Streaming流计算框架 130
4.3.1 Spark关键组件 130
4.3.2 Spark Streaming数据流 133
4.3.3 Spark Streaming工作原理 136
4.3.4 Spark Streaming流计算编程模型 139
4.3.5 Spark Streaming流计算编程案例 145
4.4 大数据内存计算框架 146
4.4.1 内存计算概述 146
4.4.2 内存计算中分布式缓存体系 148
4.4.3 内存数据库 151
4.4.4 Spark SQL在内存计算中的应用 152
4.5 大数据流式计算应用案例:Storm单词计数 153
4.5.1 功能描述 153
4.5.2 关键代码 153
4.5.3 RandomSentenceSpout的实现及生命周期 154
4.5.4 SplitSentenceBolt的实现及生命周期 154
4.5.5 WordCountBolt的实现及生命周期 155
4.6 本章小结 155
4.7 课后作业 156
第5章 机器学习在大数据计算分析中的应用 158
5.1 机器学习概述 159
5.1.1 机器学习的定义 159
5.1.2 大数据与机器学习 160
5.1.3 人工智能、机器学习及深度学习 162
5.1.4 机器学习的类型 165
5.2 Spark MLlib机器学习库 168
5.2.1 Spark MLBase分布式机器学习系统 168
5.2.2 Spark MLlib支持的机器学习算法 169
5.2.3 Spark MLlib与Spark ML Pipeline 170
5.2.4 使用Spark MLlib实现K⁃means聚类分析 171
5.3 TensorFlow计算框架 178
5.3.1 TensorFlow概述 178
5.3.2 TensorFlow编程思想 181
5.3.3 TensorFlow架构 182
5.3.4 基于TensorFlow的机器学习应用实例 184
5.4 本章小结 185
5.5 课后作业 186
第6章 项目实战——进出口管理风险评估大数据平台设计与实现 187
6.1 项目背景 188
6.2 进出口管理风险评估大数据平台需求分析 189
6.2.1 平台功能需求 189
6.2.2 平台开发软件需求 190
6.2.3 平台硬件环境需求 191
6.2.4 平台数据需求 191
6.3 进出口管理风险评估大数据平台设计及实现 191
6.3.1 基于DANA 4.0的大数据开发流程 192
6.3.2 进出口管理风险评估大数据平台的系统架构 193
6.3.3 进出口管理风险评估大数据平台的数据采集 193
6.3.4 进出口管理风险评估大数据平台的数据存储 194
6.3.5 进出口管理风险评估大数据平台的数据分析 196
6.3.6 进出口管理风险评估大数据平台的实现效果 203
6.4 本章小结 207
6.5 课后作业 208
参考文献 209