整治好数据期末考试复习提纲–概念整理。整理好数量期末考试复习提纲–概念整理。

雅数目betway必威体育官网简介

酷数额简介

怪数据的概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)

非常数据的概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)

万分数量的性能

切莫结构性、不完备性、时效性、安全性、可靠性

不行数据的特性

匪结构性、不完备性、时效性、安全性、可靠性

颇数额处理的皆经过

数据搜集与记录 –>  数据抽取、清洗、标记  –> 
数据并、转换、简约  –>  数据解析和建模  –>  数据说明

雅数额处理的均经过

数收集和记录 –>  数据抽取、清洗、标记  –> 
数据并、转换、简约  –>  数据解析以及建模  –>  数据说明

非常数量技术之特征

1.剖析到的多寡而无自由取样

2.厚数量的扑朔迷离,弱化精确性

3.关怀数据的相关性,而非因果关系

那个数据技术的特征

1.解析宏观的多少如果休自由取样

2.看重数量的复杂性,弱化精确性

3.关注数据的相关性,而未缘果关系

老数额的关键技术

横流处理、并行化、摘要索引、可视化

深数量的关键技术

流淌处理、并行化、摘要索引、可视化

雅数据采取趋势

划分市场、推动公司提高、大数额解析的初措施出现、大数据以及出口计算高度融合、大数量完全设施陆续出现、大数目安全

异常数额利用趋势

分市场、推动企业发展、大数额解析的新办法出现、大数据以及讲计算高度融合、大数量完全设施陆续出现、大数额安全

没错研究范式

首先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

然研究范式

首先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

格雷法则

1.科学计算数据爆炸式增长

2.解决方案吧横向扩张的体系布局

3.以计用于数据如果未是数用于计算(把程序于数迁移。以计算呢主导转移吗为数据吧主干)

格雷法则

1.科学计算数据爆炸式增长

2.缓解方案为横向扩张的体系布局

3.以计用于数据如果无是数额用于计算(把程序为数迁移。以计算也主干转移也坐数据吧核心)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统不可能同时满足一致性、可用性、分区容错性三独系统要求,最多只能以满足个别单。

CAP定理

一个分布式系统不可能还要满足一致性、可用性、分区容错性三个网要求,最多只能以满足个别独。

CAP选择

1.放弃分区容错,导致可扩展性不赛:MySQL、Postgres

2.放弃可用性,导致性不是专门强:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放弃一致性,对一致性要求没有:Cassandra、Dynamo、Voldemort 、CouchDB

CAP选择

1.放弃分区容错,导致可扩展性不高:MySQL、Postgres

2.放弃可用性,导致性不是特意大:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放弃一致性,对一致性要求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS

HDFS目标

1.兼容廉价的硬件设备

2.流多少读写

3.怪数据集

4.大概的公文模型

5.无敌的跨平台兼容性

HDFS目标

1.兼容廉价的硬件装备

2.流数目读写

3.非常数据集

4.简单易行的公文模型

5.强硬的跨平台兼容性

HDFS主要组件(图源哈尔滨理工大学十分数额课程李先生的课件)

betway必威体育官网 1

HDFS主要组件(图来源哈尔滨理工大学好数目课程李先生的课件)

betway必威体育官网 2

HDFS读文件

betway必威体育官网 3


 

betway必威体育官网 4

HDFS读文件

betway必威体育官网 5


 

betway必威体育官网 6

HDFS写文件

betway必威体育官网 7

HDFS写文件

betway必威体育官网 8

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文本块完整性:记录新建文件所有片的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文件去:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中布局

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文书块完整性:记录新建文件所有片的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文件去:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中安排

MapReduce

MapReduce

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.容易调试

5.易为测试

6.还胜之生产率

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.好调试

5.易给测试

6.再次胜的生产率

函数式编程的表征

1.尚无副作用:没有改了函数在该发用域之外的量并吃别函数使用

2.无状态之编程:将状态保存在参数中,作为函数的附赠品来传递(不是不行懂)

3.输入值和输出值:在函数式编程中,只有输入值和输出值。函数是基本的单位。在面向对象编程中,将目标传来传去;在函数式编程中,是拿函数传来传去。

函数式编程的性状

1.未曾副作用:没有改过函数在其作用域之外的计量并为外函数使用

2.无状态之编程:将状态保存在参数中,作为函数的附赠品来传递(不是杀明白)

3.输入值和输出值:在函数式编程中,只有输入值和输出值。函数是中心的单位。在面向对象编程中,将目标传来传去;在函数式编程中,是用函数传来传去。

MapReduce流程图(图源南京大学黄宜华先生的课件)

betway必威体育官网 9

MapReduce流程图(图来源南京大学黄宜华先生的课件)

betway必威体育官网 10

那个数目流式计算

不行数额流式计算

流式数据的风味

实时性、易失性、突发性、无序性、无限性、准确性

流式数据的风味

实时性、易失性、突发性、无序性、无限性、准确性

很数量流式计算模型

数据流管理网:固定查询、ad hoc查询

挺数据流式计算:Twitter Storm、Yahoo S4

好数量流式计算模型

数据流管理网:固定查询、ad hoc查询

深数额流式计算:Twitter Storm、Yahoo S4

Storm总体架构

主节点Nimbus:负责全局资源分配、任务调度、状态监控、故障检测

从节点Supervisor:接收任务,启动或停止工作过程Worker。每个Worker内部有差不多独Executor。每个Executor对应一个线程。每个Executor对应一个或者多个Task。

Zookeeper:协调、存储首数据、从节点心跳信息、存储整个集群的所有状态信息、所有配置信息

Storm总体架构

主节点Nimbus:负责全局资源分配、任务调度、状态监控、故障检测

起节点Supervisor:接收任务,启动或终止工作进程Worker。每个Worker内部有多独Executor。每个Executor对应一个线程。每个Executor对应一个还是多单Task。

Zookeeper:协调、存储首位数据、从节点心跳信息、存储整个集群的拥有状态信息、所有配置信息

Storm特征

1.编程简单

2.支撑多语言

3.作业级容错

4.品位扩展

5.底层使用Zero消息队列,快

Storm特征

1.编程简单

2.支持多语言

3.作业级容错

4.程度扩展

5.底层使用Zero消息队列,快

Storm缺点

1.资源分配没有设想任务拓扑的结构特征,无法适应数据负载的动态变化

2.运集中式的作业级容错,限制了网的而是扩展性

Storm缺点

1.资源分配没有设想任务拓扑的结构特征,无法适应数据负载的动态变化

2.动集中式的作业级容错,限制了系统的可扩展性

探寻引擎

探寻引擎

检索引擎的定义

基于早晚之策略、运用特定的微处理器程序、从互联网上征集信息,对信息进行集团和拍卖以后,将这些消息显示被用户之系让搜索引擎。

觅引擎的定义

冲早晚之策略、运用特定的电脑程序、从互联网上征集信息,对信息进行集团及拍卖下,将这些信显示被用户之系于搜索引擎。

找寻引擎的重组

搜索器:搜集信息

索引器:抽取索引

检索器:在仓库中找寻,排序。

用户接口:展示

追寻引擎的构成

搜索器:搜集信息

索引器:抽取索引

检索器:在仓库中搜寻,排序。

用户接口:展示

搜引擎的做事历程

爬行 -> 抓取存储 -> 预处理 -> 排名

招来引擎的办事进程

爬行 -> 抓取存储 -> 预处理 -> 排名

寻找引擎的品指标

查全率、查准率、响应时间、覆盖范围、用户方便性

摸索引擎的评介指标

查全率、查准率、响应时间、覆盖范围、用户方便性

酷数目解析

酷数额解析

数解析的目的

本着乱的数额进行汇总、萃取、提炼,进而找出所研究对象的内在规律,发现其价。

数解析的目的

对乱的数开展汇总、萃取、提炼,进而找出所研究对象的内在规律,发现该价。

数解析的意义

当混乱的多寡被分析产生有价之始末,获得对数码的体会。

数量解析的义

当乱的数目中剖析出有价之始末,获得对数码的认知。

数量解析的项目

1.革命性数据解析(为了形成值得假设的验)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

数解析的型

1.探索性数据解析(为了形成值得假设的检查)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

相关文章