《妙趣横生的统计学》读书笔记-1

如题所述

第1个回答  2022-06-09

(1)总体:在统计研究中,总体是所研究的人或事物的完整集合。
(2)总体参数:总体中对某变量的概括性描述。
(3)样本:样本是总体的一个子集。
(4)原始数据:对样本进行实际测量或观测所收集的数据。
(5)样本统计量:描述从原始数据中筛选总结的样本特征的数据。
(6)误差幅度:描述了一个包含总体参数的值域或置信空间。比如,包含总体参数的值域:”(样本统计量-误差幅度)~(样本统计了+误差幅度)“。误差幅度通常给定95%的置信区间,意味着样本落在该值域范围内的概率为95%。

描述统计(第2 5章),推断统计(第6 10章)。

(1)简单随机抽样:
每个容量相等的样本都有同等被抽取的机会。
(2)系统抽样:
通过简单的系统抽取样本,比如在总体中每隔10个或每隔50个抽取样本。
(3)任意抽样:
使用一个碰巧很容易被选择的样本。比如超市试吃沙拉酱,选取本班做样本统计全校学生。
(4)整群抽样
先将总体分成不同的组或群,然后从中随机挑选几个群作为样本。
(5)分层抽样
将总体至少分为两个层级,从每个层级中抽取样本。

(1)单盲试验:参与者不知道他们是实验组成员还是对照组成员,而实验者知道的实验。
(2)双盲实验:参与者和实验者都不知道参与者是属于实验组还是对照组的实验。

(1)安慰剂效应:是指患者的情况有所好转,仅仅是因为他们相信自己得到了有效的治疗。
(2)实验者效应:是指调查者或实验者通过某些因素影响研究对象,如通过面部表情、声调或态度。

(1)定性数据,定量数据
(2)离散数据,连续数据

(1)定性数据:定类测量,定序测量。
(2)定量数据:定距测量,定比测量。

(1)随机误差(不可预知不可纠正),系统误差(以相同的方式影响所有测量值,可以纠正)
(2)绝对误差(描述了测量值与真实值之间的差距),相对误差(将绝对误差的大小与真实值相比,通常表示为百分比)

(1)准确度:描述了测量值与真实值的接近程度。
(2)精确度:描述了测量中数值的详细程度。

(1)条形图、点图、帕累托图
点图是条形图的一个变形,用点数来表示数值(如4个点表示频数为4)。
帕累托图是条形图的一种变形,条形按频数大小顺序排列。
(2)饼图
(3)直方图和折线图
条形图与直方图的区别:条形图的横轴为离散值(70,75,80);直方图的横轴为连续值(70-75,75-80)。
(4)时间序列图,茎叶图
属于直方图和折线图的变形。
时间序列图:横轴为时间段。
茎叶图:类似于横置的直方图,每一行的条形位置是一组原始数据。

(1)多维条形图和多维折线图
(2)多层图
(3)地理数据图
(4)三维图
(5)组合图

(1)认知扭曲:通过美元图片的大小变化,表示美元的增值贬值。
(2)观察刻度:刻度不从0点开始会使得图形变化更加明显,更容易观察到数据的小幅变化趋势。
(3)象形统计图:插图容易产生误导。

Excel中对应函数:AVERAGE, MEDIAN, MODE

(1)众数的个数:单峰分布,双峰分布,三峰分布
(2)对称性(偏态):左偏分布(负偏态),右偏分布(正偏态),对称分布(零偏态)
(3)离散程度:方差越小越密集,峰值越高;方差越大越分散,峰值越低。

(1)极差:最大值减去最小值的差值。
(2)五数概括法:最小数,下四分位数,中位数,上四分位数,最大值。
常用来制作箱形图。
(3)百分位数:65百分位数,89百分位数
(4)离差:数值-均值
(5)标准差:越小越密集,越大越分散。

(1)标准差≅极差/4
(2)最小值≅均值-(2 标准差)
(3)最大值≅均值+(2
标准差)
(4)当最大值与最小值为异常值时,极差经验法则不再适用。

(1)单峰、对称的钟形分布。
(2)中位数、均值、众数相同,对应着单峰的峰值。
(3)离散程度用标准差来表示。

(1)与横轴一定范围内数值相对应的、正态分布曲线下方的面积,是这些数值的频率。
(2)由于频率总和必然为1,正太分布曲线下方的面积之和一定为1,或100%。

(1)大多数数值集中于均值附近,使分布有一个良好的峰值;
(2)数值均匀地分布在均值周围,使分布对称;
(3)与均值的离差越大,出现的频率就越小,形成分布逐渐减小的尾部;
(4)个别数值是由多种不同的因素共同作用造成的,如遗传和环境因素。

y=e^(-1/2 〖[(x-μ)/σ]〗^2 )/(σ√2π)
其中,均值μ(mu),标准差σ(sigma)

(1)大约68%(更精确的是68.3%)的数值落在距均值1个标准差的区间内。
(2)大约95%(更精确的是95.4%)的数值落在距均值2个标准差的区间内。
(3)大约99.7%的数值落在距均值3个标准差的区间内。

我们发现大约95%的数值位于距均值2个标准差的范围内,意味着5%的数值距均值超过2个标准差。
那些距均值超过2个标准差的数据,便是不寻常数值。

例如,大于均值2.4个标准差处的标准分数z=2.4

(1)解释1:

(2)解释2:

(3)文字描述
假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么:
a 在大样本情况下,均值的分布将近似于正态分布;
b 在大样本情况下,均值分布的均值近似等于总体均值μ;
c 在大样本情况下,均值分布的标准差为σ/√n,其中σ为总体标准差。
(4)
从实际意义上讲,如果样本容量大于30,均值的分布就接近正态分布。

如果我们知道总体的均值和标准差,那么中心极限定理使我们可以研究样本组的均值。这十分有用,但更为重要的是它的反向应用。
统计主要的两个任务在于估计总体均值和对总体均值进行假设检验。假设我们不知道某一变量的总体均值,如果仅仅知道某个较小样本的均值,我们能否对总体均值(比如全部互联网使用者的平均收入)进行良好的估计呢?中心极限定理提供了回答这类问题的关键。