概念整理

大数据简单介绍

大数指标概念

Volume(数据体量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数据的属性

非结构性、不完备性、时效性、安全性、可信赖性

大数量管理的全经过

数据收罗与记录 –>  数据收取、清洗、标志  –> 
数据集成、转换、简约  –>  数据分析与建立模型  –>  数听他们注明

大数目技能的风味

1.解析宏观的数量而非随机取样

2.讲究数量的复杂,弱化准确性

3.珍惜数据的相关性,而非因果关系

大数据的关键手艺

流管理、并行化、摘要索引、可视化

大数据接纳趋势

分割市镇、拉动公司提升、大数据深入分析的新办法出现、大数量与云总括中度融入、大数目完全设施断断续续出现、大额安全

不错研究范式

先是范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型总括)

格雷法规

1.科学总结数据爆炸式增进

2.减轻方案为横向扩充的系统布局

3.将总计用于数据并非数量用于总计(把程序向数据迁移。以计算为主干转移为以数量为大旨)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

betway必威体育官网,CAP定理

贰个遍及式系统不容许同期满意一致性、可用性、分区容错性多少个连串供给,最五只好同期满足五个。

CAP选择

1.放任分区容错,导致可扩充性不强:MySQL、Postgres

2.遗弃可用性,导致品质不是非常高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.屏弃一致性,对一致性须求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容巨惠的硬件设施

2.流数量读写

3.大数据集

4.轻松易行的文书模型

5.无敌的跨平台宽容性

HDFS主要组件(图来源萨拉热窝理法大学大数额课程李先生的课件)

betway必威体育官网 1

HDFS读文件

betway必威体育官网 2


 

betway必威体育官网 3

HDFS写文件

betway必威体育官网 4

HDFS容错

1.心跳检查测量检验:NameNode和DataNode之间

2.文书块完整性:记录新建文件全体块的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文本删除:贮存在/trash下,过一段时间才正式删除。在hdfs-site.xml中配置

MapReduce

函数式编制程序优点

1.逻辑可证

2.模块化

3.组件化

4.轻易调节和测量检验

5.易于测量试验

6.越来越高的生产率

函数式编制程序的特色

1.从没有过副成效:未有改造过函数在其功用域之外的量并被其余函数使用

2.无状态的编制程序:将意况保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编制程序中,独有输入值和输出值。函数是骨干的单位。在面向对象编制程序中,将目的传来传去;在函数式编制程序中,是将函数字传送来传去。

MapReduce流程图(图来自南大黄宜华先生的课件)

betway必威体育官网 5

大额流式总计

流式数据的风味

实时性、易失性、突发性、无序性、无限性、准确性

大数目流式总结模型

数据流管理种类:固定查询、ad hoc查询

大额流式总计:推特(Twitter) Storm、Yahoo S4

Storm总体架构

主节点Nimbus:肩负全局能源分配、义务调治、状态监察和控制、故障检查评定

从节点Supervisor:接收职责,运转或终止工作进度Worker。每种Worker内部有多少个Executor。各样Executor对应贰个线程。各类Executor对应八个或四个Task。

Zookeeper:和睦、存款和储蓄元数据、从节茶食跳音讯、存款和储蓄整个集群的装有景况消息、全数配置音讯

Storm特征

1.编制程序简单

2.支撑多语言

3.作业级容错

4.水平扩张

5.底层使用Zero音信队列,快

Storm缺点

1.能源分配未有思考职务拓扑的结构特征,无法适应数据负载的动态变化

2.用到集英式的作业级容错,限制了系统的可扩张性

找出引擎

索求引擎的概念

依附早晚的国策、运用特定的Computer程序、从互联英特网访问消息,对音讯实行组织和拍卖今后,将这一个音讯展现给客户的系统叫寻觅引擎。

查究引擎的结缘

搜索器:搜罗音信

索引器:收取索引

检索器:在库中找找,排序。

客商接口:体现

探索引擎的行事经过

爬行 -> 抓取存储 -> 预管理 -> 排行

招来引擎的评说目的

查全率、查准率、响应时间、覆盖范围、客户方便性

大数量深入分析

数码深入分析的目标

对一塌糊涂的数额进行汇总、萃取、提炼,进而搜索所研商对象的内在规律,开采其价值。

数量分析的意义

在纷繁扬扬的数额中分析出有价值的内容,获得对数码的认识。

多少分析的类型

1.革命性数据分析(为了产生值得假设的查看)

2.定性数据分析(非数值型数据)

3.离线数据深入分析(先存于磁盘,批管理)

4.在线数据深入分析(实时)

相关文章