betway必威足彩读书笔记2016年第1本,赤裸裸的计算学

严厉的说这本书是在二〇一三年二月去湖北的飞行器上起先看的,前边几章讲得一点也不细浅,差不离向来不什么公式,后边读起来就有一些不太轻易了,里面包车型客车一部分计算的事例挺风趣,第9、10、12章涉及到有的定义和公式,就须要稳步精晓了,总体看来那本书依然特别适合总括学入门,拥抱大数目时期!

第1本:《赤裸裸的计算学》

暴虐的说那本书是在二零一一年三月去江西的飞行器上上马看的,后边几章讲得相比较浅显,
大致未有何公式,前边读起来就有点不太轻易了,里面包车型大巴一对总结的事例挺有意思,第9、10、12章涉及到部分定义和公式,就须要稳步精晓了,总体看来那本书依旧极度适合总括学入门,拥抱大额时期!

第1章 总计学是大数额时期最敬而远之的文化

上学总计学的含义是如何?用自己本人的话来讲,能够让大家不被淹没在荒漠的多寡海洋中,而在里面搜索展现其本质的规律或相关性来。

在以后10年内总括学家将会成为“性感的差事”。

小编列举了一部分例证来注脚计算学的用处:棒球选手的击球率,学生的平均成绩,用小概率事件来辨别考试舞弊,吸烟与癌症有相关性吗,哪些人最有望是恐怖分子?

总计学更疑似侦探们做的事,数据里隐蔽着头脑和模型,沿着那么些线索和模型,我们最终可以得到有意义的定论。

总括深入分析能够找到2个变量之间的有关涉嫌,但不意味着双方有因果关系。

ACTION:看看电影《犯罪现场考察:回归深入分析》

ACTION:看《总括数字会撒谎》

第1章 总结学是大数量时期最敬而远之的学问

学习计算学的意义是如何?用自家本身的话来讲,可以让我们不被淹没在宽阔的数码海洋中,而在其间寻找呈现其本质的准绳或相关性来。

在今后10年内总括学家将会形成“性感的职业”。

小编列举了一部分事例来注脚计算学的用处:棒球选手的击球率,学生的平均成绩,用小可能率事件来辨别考试舞弊,吸烟与癌症有相关性吗,哪些人最有相当的大可能率是恐怖分子?

总计学更疑似侦探们做的事,数据里隐蔽着头脑和模型,沿着这一个线索和模型,大家最终能够获得有意义的定论。

总括解析能够找到2个变量之间的有关关系,但不意味着双方有因果关系。

ACTION:看看电影《犯罪现场考察:回归深入分析》

ACTION:看《总结数字会撒谎》

第2章 描述总结学

这一章从轻松的平均数(mean)的定义讲起,然后聊起中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于别的一组数据来说,只要知道了平平均数量和标准差,大家就会实行轻易的总结学深入分析,得出有个别得以信赖的定论。

平平均数量很轻巧受到那多少个值的苦恼;中位数对丰富值并不灵动。

内需提出的是书中的标准差公式的分母是N,而一旦总计数据是范本时,分母就要用N-1。

对于表2-第22中学的第一组数字,用Kuga语言深入分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会获取3.03315,并非书中的2.8。

第2章 描述总结学

这一章从简单的平平均数量(mean)的概念讲起,然后谈起中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于其他一组数据的话,只要领会了平平均数量和规范差,我们就会开展简短的总括学解析,得出有个别能够依赖的结论。

平平均数量很轻松境遇特别值的困扰;中位数对那多少个值并不灵动。

亟待建议的是书中的标准差公式的分母是N,而只要总计数据是范本时,分母将在用N-1。

对于表2-第22中学的第一组数字,用智跑语言深入分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会得到3.03315,并非书中的2.8。

第3章 总括数字会撒谎

马克吐温的一句名言:“谎言有二种:谎言、该死的谎言,以及总括学”

小心统计陷阱。尽管最为正确的企图或衡量都应当检查一下是还是不是适合常识。

平平均数量和中位数一样会被心术不正的人使用。

“某一政策将使9200万人享受减税待遇,人均减税超过一千元。”小心这里的“每人平均”,少数的富翁会大幅度减税,会拉高平均值,而大多人单纯减税100元。

总括的时间跨度非常大时,要思考“通货膨胀”那几个主要成分。

London州的“记分卡”制度,对接受心脏搭桥手术的伤者的离世率举办总括,并向大伙儿公开,以便让大伙儿选拔医务人士时有八个参阅。但那样贰个“好”政策,却招致了更多伤者的凋谢。因为,减少与世长辞率的最简便易行易行的办法就是不容为那多少个病情严重的病人动手术。

第3章 总结数字会撒谎

马克特温的一句名言:“谎言有三种:谎言、该死的弥天津学院谎,以及计算学”

小心统计陷阱。纵然最为准确的乘除或衡量都应当检查一下是还是不是相符常识。

平平均数量和中位数同样会被心术不正的人采纳。

“某一国策将使9200万人分享减税待遇,每人平均减税抢先一千元。”小心这里的“人均”,少数的富翁会大幅度减税,会拉高平均值,而大好些个人偏偏减税100元。

计算的时间跨度不小时,要思考“通货膨胀”这些主要因素。

London州的“记分卡”制度,对接受心脏搭桥手术的伤者的归西率实行总括,并向大伙儿公开,以便让公众选择医师时有贰个参阅。但像这种类型三个“好”政策,却造成了越来越多病者的逝世。因为,减弱离世率的最简便易行的艺术便是不容为这个病情严重的病者入手术。

第4章 相关性与相关全面

相关周密为贰个-1到1里面包车型地铁数,负数表示负连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等程度有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或无相关。

这一章前面第79页的事例,小编用纳瓦拉语言算了一下:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

画散点图:

plot(height, weight)

betway必威足彩 1

总结相关性(这里是用的Pearson皮尔逊相关全面)

cor(height, weight)

猎取结果:0.8260258

能够用cor.test得到更详细的新闻:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第4章 相关性与相关全面

相关周全为一个-1到1里边的数,负数表示负连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等水平有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或无相关。

这一章前面第79页的例子,作者用Lacrosse语言算了一下:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

画散点图:

plot(height, weight)

betway必威足彩 2

测算相关性(这里是用的Pearson皮尔逊相关周密)

cor(height, weight)

收获结果:0.8260258

能够用cor.test获得更详尽的信息:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第5章 可能率与希望值

涉及了多个概念:可能率、期望值和平运动气定理。

从总计学角度,购买保障是一项“不佳的投资”,因为平均来看,你付出给保证公司的钱恒久要比获得的赔偿多,所以只需为那个不可能轻巧承受的不测上保证。

第5章 可能率与希望值

论及了八个概念:可能率、期望值和时局定理。

从计算学角度,购买保证是一项“不好的投资”,因为平均来看,你付出给保险集团的钱永恒要比拿到的赔付多,所以只需为那几个不可能轻巧承受的不测上保障。

第6章 蒙提•霍尔谬论

讲了一个选1、2、3号门中山大学奖的珠辉玉映的可能率难题,你对概率的本能明白可能会将您引进歧途。

第6章 蒙提•霍尔悖论

讲了三个选1、2、3号门中山大学奖的风趣的可能率难点,你对可能率的本能领会也许会将你引进歧途。

第7章 黑天鹅事件

从U.S.A.金融行当危害价值VaEscort模型的倒台,提起有的大范围的与概率有关的荒唐。

想当然地以为事件之间不设有关联。多少个飞机电动机发生故障可能并非相互独立的平地风波。一个家园中发出多起婴孩猝死案,或者不必然谋杀,而也许与基因有关。

对两件事件的总结独立一窍不通。“赌棍谬论”。连扔了8次正面,后一次正面包车型地铁概率仍为八分之四。投篮里未有“手感”之说。

检方谬误的DNA的例证没看懂。

总括性歧视。男女的保险费差别,是来自计算模型。

第7章 黑天鹅事件

从U.S.金融行当风险价值VaQashqai模型的倒台,说到有个别常见的与概率有关的不当。

想当然地认为事件之间不设有关联。七个飞机外燃机爆发故障或然并非相互独立的事件。多个家园中产生多起婴孩猝死案,可能不自然谋杀,而大概与基因有关。

对两件事件的计算独立一窍不通。“博徒悖论”。连扔了8次正面,后一次正当的票房价值仍为百分之五十。任意球里未有“手感”之说。

检察院方面谬误的DNA的例证没看懂。

计算性歧视。男女的保障费不均等,是来源于总括模型。

第8章 数据与偏见

书中说了无数种偏见,但更有效的是“选择性偏见”,要想获得八个粗略随便取样的样书并不便于。另外二种偏见作者未曾怎么以为:宣布性偏见、回忆性偏见、幸存者偏见、健康顾客偏见。

第8章 数据与偏见

书中说了好八种偏见,但更使得的是“选用性偏见”,要想获得二个大约随便取样的范本并不便于。其余二种偏见小编尚未什么样感到:发布性偏见、回忆性偏见、幸存者偏见、健康客户偏见。

第9章 中央极限定理

样本<—>总体。四个大型样本的不利抽样与其所代表的群众体育存在着相似关系。

样本平均值是符合正态布满的。

书中第164页给出的典型基值误差公式是谬误的,不明了是翻译的荒谬还是印刷的标题,少了三个除号,应该是:SE
= s / sqrt(n)

恰巧有一份孩子全年级数学成就,全年级平均差不离为94分,用Evoque语言试试中央极限定理,能够看看样本的平均值是遍及在94边际。

(对于Mini样本,得不到正态分布,而是t布满)

 

betway必威足彩 3

# 读入战表单

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验九十七回,每一趟随机收取60名上学的小孩子

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第9章 中央极限定理

样本<—>总体。七个重型样本的没有错抽样与其所代表的群落存在着相似关系。

样本平均值是适合正态遍及的。

书中第164页给出的标准基值误差公式是谬误的,不知晓是翻译的错误还是印刷的难点,少了一个除号,应该是:SE
= s / sqrt(n)

赶巧有一份孩子全年级数学成绩,全年级平均差相当少为94分,用Kuga语言试试中央极限定理,能够观察样本的平均值是分布在94边际。

(对于迷你样本,得不到正态布满,而是t布满)

 

betway必威足彩 4

# 读入成绩单

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验100遍,每趟随机抽出60名上学的小孩子

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第10章 总计估测计算与借使核查

总括学不可能确凿地证实任刘毛毛西,总结测算的手艺在于:头阵掘一些原理和结果,然后再选取可能率来表明这一个结果的暗中最有望的案由。

零借使(也叫做虚无即使,Null
Hypothesis),零若是的原委类同是愿意申明其错误的譬喻。

借使能够申明有些零假如不成立,那么其相对借使(又称作备择假诺Alternative
Hypothesis)确定为真。

书中关于布达佩斯统一考式作弊丑闻、性变态脑量的2个例证值得看看。

置信区间在三个标准差内为68%,多个标准差内为95,多个标准差内为99.7%。

betway必威足彩 5

第10章 总括测算与倘使核算

总计学不能确凿地证实任李强西,计算测算的本事在于:先开掘一些规律和结果,然后再使用可能率来申明那一个结果的骨子里最有一点都不小概率的缘由。

零假如(也叫做虚无假使,Null
Hypothesis),零纵然的内容相似是期望注解其错误的举个例子。

假如能够证实有个别零假若不树立,那么其绝对即便(又称作备择借使Alternative
Hypothesis)料定为真。

书中有关罗马统一考式作弊丑闻、焦虑症脑量的2个例子值得看看。

置信区间在叁个规范差内为68%,两个标准差内为95,四个标准差内为99.7%。

betway必威足彩 6

第11章 民意质量评定与相对误差幅度

民间检验一般都会赢得部分百分比结果。关于百分比的标准基值误差 = sqrt( p *
(1-p) / n),p为某种观点的百分比。

内部关于美利坚同盟军民代表大会选民意检查评定的例子,对我们从没什么样含义,民意检查实验的确实挑衅有五个:设计并精选准确的样本(人群的精选、难题的精选、接受报事人会不会是在说假话,或是虚与委蛇);用适合的数量的不二等秘书诀从该样本中获取合适的音讯。

 

第11章 民意检查实验与基值误差幅度

民间检验一般都会获得一些百分比结果。关于百分比的规范基值误差 = sqrt( p *
(1-p) / n),p为某种观点的百分比。

内部关于United States民代表大会选民意检查评定的事例,对大家从没什么意思,民意质量评定的真的挑衅有七个:设计并精选正确的样本(人群的选择、难点的选取、受访者会不会是在说假话,或是心口不一);用适合的措施从该样本中获取合适的音信。

 

第12章 回归分析与线性关系

回归分析能够在决定其余因素的前提下,对有些具体变量与有个别特定结果里面包车型大巴涉及举办量化。

在PAJERO语言中lm可以轻巧地举行线性关系的拟合,小编把一切年级的轮廓与数学成就进行线性回归深入分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

搜查缉获了几幅职业的图样,缺憾小编偶尔还看不晓得。

betway必威足彩 7

四个经验法规:当回归周到至少是标准标称误差的两倍或以上的时候,该周全极有望具备总结学意义。(还不太领悟)

本章的尾声交给一个挺有意思的总括结论:对当局一些的男人或女子来讲,对专门的学业缺乏调节力和话语权会导致心脏病。

第12章 回归深入分析与线性关系

回归解析能够在决定其余因素的前提下,对有些具体变量与某些特定结果里面包车型大巴关系进行量化。

在卡宴语言中lm能够轻松地展开线性关系的拟合,笔者把全副年级的大意与数学成就举行线性回归分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

搜查捕获了几幅专门的职业的图纸,可惜小编一时还看不知情。

betway必威足彩 8

贰个经验准绳:当回归全面至少是规范相对误差的两倍或以上的时候,该周全极有非常大也许具有总括学意义。(还不老聃楚)

本章的末梢交给二个挺风趣的总结结论:对当局一些的男人或女子来讲,对专业远远不够调控力和领导权会导致心脏病。

第13章 致命的回归错误

回归分析的7个常见错误:

1)用线性拟合来分析非线性关系

2)相关关系并不等于因果关系

3)因果倒置

4)遗漏了主要的演说变量

5)存在中度相关的四个表明变量

6)脱离数据进行估摸。忘记了前提条件或适用范围,而乱套公式。

7)数据矿(变量过多)。假使变量过多,特别当毫无干系变量过多的时候,回归深入分析的结果就能被冲淡或稀释。

第13章 致命的回归错误

回归深入分析的7个常见错误:

1)用线性拟合来深入分析非线性关系

2)相关涉嫌并不等于因果关系

3)因果倒置

4)遗漏了首要的表明变量

5)存在中度相关的七个表达变量

6)脱离数据开展揣摸。忘记了前提条件或适用范围,而乱套公式。

7)数据矿(变量过多)。尽管变量过多,尤其当非亲非故变量过多的时候,回归深入分析的结果就能够被软化或稀释。

第14章 项目评估与“反现实”

精心设计出一组实验并不太轻松。

第14章 项目评估与“反现实”

精心设计出一组实验并不太轻巧。

相关文章