betway必威足彩读书笔记2014年第1论:《赤裸裸的统计学》第1准:《赤裸裸的统计学》

从严的说这本书是在2013年12月失去新疆之机上开看之,前面几章节说得比通俗,几乎从不啊公式,后面读起来就起接触未绝爱了,里面的部分统计的事例很有意思,第9、10、12章节涉及到有的定义以及公式,就需要慢慢懂得了,总体看来这仍开或非常适合统计学入门,拥抱大数据时代!

第1据:《赤裸裸的统计学》

从严的说就本书是当2013年12月失去新疆之机上起来看之,前面几节说得较浅显,
几乎从不什么公式,后面读起来就发硌不极端爱了,里面的一部分统计的事例十分有趣,第9、10、12节涉及到有些概念以及公式,就得逐步掌握了,总体看来这
本书要非常适合统计学入门,拥抱大数目时!

第1节 统计学是异常数据时最为炙手可热的知识

上统计学的含义是什么?用本人要好之言语来说,可以于咱不让淹没在浩瀚的数码海洋遭到,而以其中搜有体现其精神的原理或相关性来。

每当未来10年内统计学家将会晤成为“性感的差事”。

作者列举了有些例证来说明统计学的用处:棒球选手的击球率,学生的平分成绩,用小概率事件来甄别考试作弊,吸烟和癌症有相关性吗,哪些人顶有或是恐怖分子?

统计学还如是暗访们召开的行,数据里藏在头脑及模型,沿着这些线索以及模型,我们最终会取得有意义的结论。

统计分析可以搜索到2独变量之间的连带涉嫌,但非意味双方发生因果关系。

ACTION:看看影视《犯罪现场调查:回归分析》

ACTION:看《统计数字会撒谎》

第1回 统计学是颇数目时最炙手可热的学问

学习统计学的意义是啊?用自好之话语来说,可以被咱们不深受淹没于浩渺的数据海洋中,而在中间搜来反映该真相之原理或相关性来。

于未来10年内统计学家将见面成“性感的事情”。

笔者列举了有事例来说明统计学的用处:棒球选手的击球率,学生的平分成绩,用小概率事件来辨别考试舞弊,吸烟与癌症来相关性吗,哪些人无限有或是恐怖分子?

统计学还如是暗访们召开的行,数据里藏在头脑及模型,沿着这些线索以及模型,我们最终能够获取有意义的结论。

统计分析可以搜索到2独变量之间的连带涉嫌,但无意味双方发生因果关系。

ACTION:看看影视《犯罪现场调查:回归分析》

ACTION:看《统计数字会撒谎》

第2章 描述统计学

顿时同回从简单的平均数(mean)的定义讲起,然后说交中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于其他一样组数据吧,只要了解了平均数和正式不一,我们即便能够开展简短的统计学分析,得出有些足以凭之下结论。

平均数很易受到特别值的烦扰;中位数对充分值并无灵动。

欲指出的凡写中之正规化差公式的分母是N,而使统计数据是样本时,分母就要用N-1。

对于表2-2遭受之首先组数字,用R语言分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会见沾3.03315,而未是开中的2.8。

第2章 描述统计学

即时无异段从简单的平均数(mean)的定义讲起,然后说及中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于任何一样组数来说,只要掌握了平均数和业内不同,我们不怕能够进行简短的统计学分析,得出有不过
以靠的下结论。

平均数很容易吃非常值的扰乱;中位数对充分值并无敏感。

待指出的是书写被的正统差公式的分母是N,而使统计数据是样本时,分母就要用N-1。

对于表2-2挨的首先组数字,用R语言分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会面获得3.03315,而非是开中之2.8。

第3节betway必威足彩 统计数字会撒谎

马克吐温的一样词名言:“谎言来三种:谎言、该特别的谎言,以及统计学”

小心统计陷阱。即使最精确的计量还是测量都应该检查一下是否切合常识。

平均数和中位数同样会给心术不正之总人口使用。

“某平等策略以设9200万人口大饱眼福减税待遇,人均减税超过1000首位。”小心这里的“人均”,少数的富翁会大幅减税,会拉扯大平均值,而大多数总人口仅仅减税100第一。

统计的时间跨度较生时,要考虑“通货膨胀”这个首要因素。

纽约州底“记分卡”制度,对接受心脏搭桥手术的患者的死亡率进行统计,并往民众公开,以便为群众选择医生经常来一个参照。但如此一个“好”政策,却促成了双重多病人的已故。因为,降低死亡率的最好简便易行的计尽管是拒绝也那些病情严重的患儿动手术。

第3节 统计数字会撒谎

马克吐温的一模一样句子名言:“谎言来三种植:谎言、该生的鬼话,以及统计学”

小心统计陷阱。即使最精确的计还是测量都应检查一下是否吻合常识。

平均数和中位数同样会受心术不凑巧的人数以。

“某平方针将如9200万口享受减税待遇,人均减税超过1000最先。”小心这里的“人均”,少数的富翁会大幅减税,会牵涉大平均值,而大部分人口惟有减税100初次。

统计的时间跨度较生时,要考虑“通货膨胀”这个至关重要因素。

纽约州底“记分卡”制度,对领心脏搭桥手术的病人的死亡率进行统计,并于公众公开,以便为民众选择医生经常生一个参阅。但如此一个“好”政策,却导致了双重多病人的辞世。因为,降低死亡率的最好简便易行的不二法门尽管是拒绝为那些病情严重的患儿动手术。

第4回 相关性与相关系数

相关系数为一个-1暨1中间的屡屡,负数表示因连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等档次有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或任相关。

立马同一段后面第79页的事例,我于是R语言算了一晃:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

打散点图:

plot(height, weight)

betway必威足彩 1

算算相关性(这里是因此的皮尔逊Pearson相关系数)

cor(height, weight)

得到结果:0.8260258

可为此cor.test得到更详实的消息:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第4回 相关性与相关系数

相关系数为一个-1顶1里边的反复,负数表示因连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等水平有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或任相关。

即同章节后面第79页的事例,我因此R语言算了一晃:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

画散点图:

plot(height, weight)

betway必威足彩 2

算相关性(这里是为此之皮尔逊Pearson相关系数)

cor(height, weight)

获取结果:0.8260258

足据此cor.test得到重新详细的音信:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第5章 概率与企盼值

关系了三只概念:概率、期望值同造化定理。

从统计学角度,购买保险是一模一样起“糟糕的投资”,因为平均来拘禁,你付出被保险企业的钱永远使比较得的赔付多,所以只需要呢那些无法轻松承受之不测及管。

第5章节 概率与梦想值

涉嫌了三独概念:概率、期望值同运气定理。

于统计学角度,购买保险是平宗“糟糕之投资”,因为平均来拘禁,你出让保险企业之钱永远使较获得的赔偿多,所以只是待呢那些无法轻松承受的意外及保证。

第6节 蒙提•霍尔悖论

出口了一个选1、2、3如泣如诉宗被大奖的有趣的几率问题,你对概率的本能理解可能会见拿公引入歧途。

第6段 蒙提•霍尔悖论

言了一个选1、2、3哀号门被大奖的有趣的概率问题,你对概率的本能理解可能会见以公引入歧途。

第7章节 黑天鹅事件

自打美国财经行业风险价值VaR模型的倒台,谈到部分科普的和概率有关的失实。

纪念当地认为事件期间不在关联。两只飞机引擎来故障可能连无是相互独立的波。一个人家吃来多自婴儿猝死案,可能未肯定谋杀,而恐怕同基因有关。

本着片项事件之统计独立一无所知。“赌徒谬论”。连丢了8差正面,下次庄重的票房价值仍为50%。投篮里没有“手感”之说。

检方谬误的DNA的例证没看明白。

统计性歧视。男女之保险费不一致,是根源统计模型。

第7节 黑天鹅事件

起美国财经行业风险价值VaR模型的垮台,谈到部分大的和概率有关的荒谬。

怀念当地认为事件期间不存在关联。两只飞机引擎来故障或者连无是彼此独立的轩然大波。一个家家吃生多由婴儿猝死案,可能未肯定谋杀,而或同基因有关。

本着个别件事件的统计独立一无所知。“赌徒谬论”。连丢了8赖正面,下次庄重的概率仍为50%。投篮里没有“手感”之说。

检方谬误的DNA的例证没看明白。

统计性歧视。男女之保险费不等同,是出自统计模型。

第8节 数据与偏见

书写被说了重重种偏见,但更实用的是“选择性偏见”,要惦记获取一个粗略随意取样的样本并无容易。其它几种偏见我并未啊感觉:发表性偏见、记忆性偏见、幸存者偏见、健康用户偏见。

第8回 数据及偏见

挥洒中说了众栽偏见,但更管用之是“选择性偏见”,要惦记取得一个简便随意取样的样书并无爱。其它几种植偏见我并未什么感觉:发表性偏见、记忆性偏见、幸存者偏见、健康用户偏见。

第9章 中心极限定理

样本<—>总体。一个特大型样本的正确抽样与那个所表示的部落在在相似关系。

样本平均值是副正态分布之。

写中第164页为起的标准误差公式是一无是处的,不理解是翻译的左或印刷的问题,少了一个除号,应该是:SE
= s / sqrt(n)

恰有同样客孩子都年级数学成绩,全年级平均约也94分叉,用R语言试试中心极限定理,可以见见样本的平均值是布在94旁边。

(对于小型样本,得无至正态分布,而是t分布)

 

betway必威足彩 3

# 读入成绩才

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验100浅,每次随机抽取60名为学生

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第9回 中心极限定理

样本<—>总体。一个大型样本的不易抽样与那所代表的部落在着相似关系。

样本平均值是相符正态分布之。

修中第164页为出的标准误差公式是大错特错的,不知情是翻译的谬误或印刷的问题,少了一个除号,应该是:SE
= s / sqrt(n)

恰巧有相同客孩子均年级数学成绩,全年级平均约为94瓜分,用R语言试试中心极限定理,可以观看样本的平均值是布在94边。

(对于小型样本,得不至正态分布,而是t分布)

 

betway必威足彩 4

# 读入成绩才

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验100不良,每次随机抽取60名叫学员

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第10章 统计测算与假设检验

统计学无法确凿地印证外事物,统计测算的能力在:先发现部分法则与结果,然后再次使概率来证实这些结果的冷最为有或的缘故。

零假设(也称虚无假设,Null
Hypothesis),零假设的情节相似是望征其左的比方。

倘能够证明某个零假如果不成立,那么该相对假设(又曰备择假设Alternative
Hypothesis)肯定为真正。

题被关于亚特兰大统考作弊丑闻、自闭症脑量的2只例证值得看。

置信区间在一个正式不一内也68%,两单正经各异内为95,三只规范不同内哉99.7%。

betway必威足彩 5

第10章节 统计测算与假设检验

统计学无法确凿地印证外事物,统计测算的能力在:先发现一些法则与结果,然后再次以概率来证实这些结果的私自最为有或的来头。

零假设(也称虚无假设,Null
Hypothesis),零假设的内容相似是希望征那个左的设。

要是会说明某个零假如果不立,那么该相对假设(又称之为备择假设Alternative
Hypothesis)肯定为真正。

挥洒中有关亚特兰大统考作弊丑闻、自闭症脑量的2单例证值得看。

置信区间在一个规范不一内也68%,两个正式各异内啊95,三单正经不同内为99.7%。

betway必威足彩 6

第11段 民意测验及误差幅度

民间测验一般还见面取得部分百分比结果。关于百分比的标准误差 = sqrt( p *
(1-p) / n),p为某种观点的比重。

里关于美国大选民意测验的例子,对咱们并未呀含义,民意测验的着实挑战有一定量只:设计并择正确的样书(人群的挑选、问题之精选、受访者会不见面是于说假话,或是敷衍了事);用适合的方式由该样本被获取合适的信息。

 

第11章 民意测验及误差幅度

民间测验一般还见面得有百分于结果。关于百分比的标准误差 = sqrt( p *
(1-p) / n),p为某种观点的比例。

内部关于美国大选民意测验的例证,对咱们并未什么意义,民意测验的的确挑战有些许单:设计并摘正确的样书(人群的挑三拣四、问题的挑三拣四、受访者会无会见是以说假话,或是敷衍了事);用当的点子自该样本中取得合适的信。

 

第12回 回归分析以及线性关系

回归分析会当决定其他因素的前提下,对某个具体变量和某特定结果中的干展开量化。

当R语言中lm可以轻松地拓展线性关系的拟合,我把全体年级的情理和数学成就进行线性回归分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

汲取了几乎幅专业的图片,可惜我临时还圈无晓得。

betway必威足彩 7

一个经验法则:当回归系数至少是标准误差的蝇头加倍或上述之早晚,该系数极生或有所统计学意义。(还不极端明了)

本章的末梢吃来一个深有意思的统计结论:对朝一些的男或女来说,对工作少控制力和话语权会导致心脏病。

第12节 回归分析及线性关系

回归分析会以控制其他因素的前提下,对某个具体变量和某特定结果里面的关系展开量化。

在R语言中lm可以轻松地拓展线性关系之拟合,我拿全年级的情理和数学成绩进行线性回归分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

汲取了几幅专业的图,可惜我暂时还圈不理解。

betway必威足彩 8

一个经验法则:当回归系数至少是标准误差的简单倍或以上的时候,该系数极有或拥有统计学意义。(还无太懂得)

本章的最终被起一个老有意思的统计结论:对当局一些的男或女性来说,对工作少控制力和话语权会导致心脏病。

第13回 致命的回归错误

回归分析的7单常表现错:

1)用线性拟合来分析非线性关系

2)相关涉嫌并不等于因果关系

3)因果倒置

4)遗漏了主要之解说变量

5)存在高度相关的鲜单说变量

6)脱离数据开展揣测。忘记了前提条件或适用范围,而乱套公式。

7)数据矿(变量过多)。假如变量过多,尤其当无关变量过多之上,回归分析的结果就会见于软化或稀释。

第13章 致命的回归错误

回归分析的7只常表现错:

1)用线性拟合来分析非线性关系

2)相关关系并不等于因果关系

3)因果倒置

4)遗漏了重点的解说变量

5)存在高度相关的一定量单说明变量

6)脱离数据开展测算。忘记了前提条件或适用范围,而胡套公式。

7)数据矿(变量过多)。假如变量过多,尤其当无关变量过多之上,回归分析的结果虽会被冲淡或稀释。

第14回 项目评估与“反现实”

精心设计出同组试并无顶容易。

第14段 项目评估以及“反现实”

精心设计出同组试并无顶好。

相关文章