整理大数量期末考试复习提纲

大数据简要介绍

大数目的概念

Volume(数据体量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数量的属性

非结构性、不完备性、时效性、安全性、可信性

大数量管理的全经过

数量收罗与记录 –>  数据抽出、洗刷、标记  –> 
数据集成、调换、简约  –>  数据分析与建立模型  –>  数遗闻明

大数目技能的特征

1.分析宏观的数码而非随机取样

2.讲究数量的纷纷,弱化准确性

3.体贴数据的相关性,而非因果关系

大数据的关键能力

流处理、并行化、摘要索引、可视化

大数据选取趋势

分割市集、带动公司升高、大数据深入分析的新办法出现、大数量与云总括中度融合、大数目完全设施时断时续出现、大数额安全

调查研商范式

先是范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型总结)

Gray法则

1.科学计算数据爆炸式增进

2.消除方案为横向扩展的体系布局

3.将总结用于数据而不是数据用于计算(把程序向数据迁移。以总计为骨干调换为以多少为基本)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统不恐怕还要知足一致性、可用性、分区容错性四个系统须求,最三只可以同期知足三个。

CAP选择

1.抛弃分区容错,导致可扩张性不强:MySQL、Postgres

2.废弃可用性,导致质量不是极其高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.扬弃一致性,对一致性要求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容减价的硬件装备

2.流数量读写

3.大数据集

4.简易的文书模型

5.无敌的跨平台包容性

HDFS首要组件(图来源波尔多理文高校大额课程李先生的课件)

图片 1

HDFS读文件

图片 2


 

图片 3

HDFS写文件

图片 4

HDFS容错

1.心跳检验:NameNode和DataNode之间

2.文书块完整性:记录新建文件全数块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文书删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中布局

MapReduce

函数式编制程序优点

1.逻辑可证

2.模块化

3.组件化

4.便于调节和测验

5.易于测验

6.更加高的生产率

函数式编制程序的特点

1.未有副效能:未有退换过函数在其成效域之外的量并被别的函数使用

2.无状态的编程:将状态保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编制程序中,唯有输入值和输出值。函数是主导的单位。在面向对象编制程序中,将对象传来传去;在函数式编制程序中,是将函数字传送来传去。

MapReduce流程图(图来自南大黄宜华先生的课件)

图片 5

大数量流式计算

流式数据的性格

实时性、易失性、突发性、无序性、无限性、准确性

大数据流式总括模型

数据流管理连串:固定查询、ad hoc查询

大数量流式总括:Facebook Storm、Yahoo S4

Storm总体架构

主节点Nimbus:担负全局能源分配、职分调节、状态监察和控制、故障检查测量试验

从节点Supervisor:接收任务,运维或终止职业进程Worker。各个Worker内部有多少个Executor。每一种Executor对应三个线程。各个Executor对应叁个或多个Task。

Zookeeper:和睦、存款和储蓄元数据、从节点心跳音信、存款和储蓄整个集群的持有景况新闻、全部配置消息

Storm特征

1.编制程序轻易

2.援助多语言

3.作业级容错

4.水准扩展

5.底层使用Zero音讯队列,快

Storm缺点

1.财富分配未有设想职务拓扑的结构特征,不大概适应数据负载的动态变化

2.利用聚焦式的作业级容错,限制了系统的可扩张性

寻找引擎

寻觅引擎的概念

基于早晚的国策、运用特定的微型Computer程序、从互联互连网收集新闻,对音讯进行组织和处理现在,将那一个音讯呈现给用户的系统叫搜索引擎。

搜求引擎的重组

找寻器:搜罗音信

索引器:收取索引

检索器:在库中找找,排序。

用户接口:显示

搜索引擎的劳作经过

爬行 -> 抓取存款和储蓄 -> 预管理 -> 排行

查找引擎的褒贬指标

查全率、查准率、响应时间、覆盖范围、用户方便性

大数量深入分析

多少深入分析的目标

对乌烟瘴气的数码开始展览汇总、萃取、提炼,进而寻找所切磋对象的内在规律,开采其股票总市值。

多少分析的意思

在纷纭扬扬的数目中分析出有价值的剧情,获得对数码的回味。

数量深入分析的花色

1.索求性数据深入分析(为了形成值得假若的验证)

2.定性数据剖析(非数值型数据)

3.离线数据解析(先存于磁盘,批管理)

4.在线数据深入分析(实时)

相关文章