基础统计学(第十四版)
阅读建议: 至少完成一门基础代数课程
第一章 统计学概述
来自调查问卷的数据能让我们更好的了解这个世界, 感知他人的意见、习惯和行为的变化. 当使用样本数据对总体进行研究时, 获取对总体具有代表性的样本是至关重要的.
在讨论数据类型和抽样方法的时候, 重点关注原则:
- 样本数据必须以恰当的方式收集, 比如随机抽样
- 如果样本数据没有以恰当的方式收集, 那么该数据可能是完全无用的, 即使使用再多的统计方法也是徒劳的
如果只是简单的分析数据, 而不批判性的思考样本数据是怎样获取的, 那么很有可能会从根本上得出错误的、具有误导性的结论.
我们应该培养统计与批判性思维, 这样才能区分正确的和有严重缺陷的抽样方法 .
当使用样本数据对总体做出结论时, 使用恰当的方式收集样本数据是重中之重.
1-1 统计与批判性思维
统计学研究的基本流程:
- 准备阶段
- 思考背景知识
- 数据来源
- 抽样方法
- 分析阶段
- 构建图表
- 探索数据
- 统计方法的计算
- 总结阶段
- 判断结果是否具有统计显著性和实际显著性从而得出结论
统计思维的要求:
- 复杂计算
- 批判性思维
- 理解结果
---定义
数据: 是观测结果的集合, 如测量值、性别和调查结果等.
统计学: 是包含下述内容的一门科学: 计划研究和实验; 获取数据; 对数据进行组织、总结、展现、分析以及解读, 然后在此基础上得出结论
总体:是被考虑的所有测量值或数据的完整集合
人口普查(人口统计): 是总体中每一个个体的数据集合.
样本: 从总体中选取的个体的子集合.
统计学的常见目标: 通过样本获取数据, 并运用这些数据对总体作出相应的结论.
统计研究的全部流程
---准备阶段
1. 背景知识
- 数据代表了什么
- 研究的目标是什么
2. 数据来源
- 数据是否来自具有特殊利益的群体? 若是, 则会迫于压力, 从而得出对来源有利的结果.
3. 抽样方法
- 数据收集的方式是公正的还是存在偏见的(如自愿样本.)
---分析阶段
1. 数据作图
2. 数据探索
- 是否存在异常值(即原理其他大部分数据的数据)
- 有哪些重要的统计量可以汇总数据(如第三章中的均值和标准差)
- 数据是如何分布的
- 是否存在数据缺失
- 是否有许多被选中的受试者拒绝回应?
3. 应用统计方法
- 利用统计软件获得分析结果
---总结阶段
1. 显著性
- 研究结果具有统计显著性吗
- 研究结果具有实际显著性吗
在统计研究中, 合理的抽样方法对于取得良好的结果是绝对必要的.
---定义
自愿样本(自选样本): 由受试者自己决定是否被纳入样本.
注意: 不能依据带有强烈偏见可能性的样本来对总体做出结论
良好的统计分析不一定需要很强的计算能力, 但是一定需要常识性和合理地选择统计方法. .
---区分统计显著性和实际显著性
统计显著性: 如果一项研究的结果不太可能偶然出现, 我们就称其具有统计显著性.一个常见的标准是: 如果事件偶然发生的可能性小于或等于5%,那么它就具有统计显著性.
- 注: 一个具有统计显著性的结果可以是重要的, 也可以是不重要的, 不要将统计显著性与重要性联系起来.
实际显著性: 有可能某些治疗方法或调查结果是有效的, 但根据常识, 这些治疗方法或调查结果并没有产生足够的差异来证明其使用的合理性或实用性.
- 注: 在数据集非常大的情况下, 很小的差异往往也能导致统计显著性, 因此我们避免错误的认为那些微小的差异也具有实际显著性.
分析数据: 潜在的陷阱 -- 分析数据时可能会出现的问题
- 误导性结论--根据统计分析得出的结论应当是应当是浅显易懂的, 即使是那些不了解统计学及其术语的人也能明白, 我们应该谨慎避免发表没有统计分析依据的结论. ( 相关不蕴含因果)
- 报告数据而不是测量数据 -- 如果调查问题的措辞不准确, 研究结果可能会产生误导. 调查问题可以是 "有偏向性的", 或者是有方向性的引出预期回答.
- 问题的呈现顺序 -- 有时调查结果会无意中被问题的呈现顺序所误导.( 同一个问题中表达顺序不同会影响结果, 不同问题之间的顺序也会影响作答)
- 无回应 -- 当受访者拒绝回答或者没空回答调查问题时, 就会出现无回应的情况.
- 拒绝与调研人员交谈的人可能与不这样做的人不同. 一部分人可能是因为害怕与陌生人交流, 另一部分人可能是为了堤防其隐私泄露. 但他们拒绝交谈的行为表明, 他们对周围世界的看法与那些允许调研人员进入家里的人明显不同.
- 低回应率 -- 与无回应相关的是低回应率. 如果调查的回应率较低, 那么结果的可靠性就会降低. 除样本量更小外, 那些作出回应的人也更有可能穿在偏差 .
- 防止低回应率的措施:
- 调查应该为其重要性提供引人入胜的证据
- 调查不应耗费时间太长
- 为完成调查的受试者提供奖励是非常有帮助的(如现金或赢取奖品的机会)
- 防止低回应率的措施:
- 百分比 -- 一些研究引用了具有误导性或不明确的百分比.
1-2 数据类型
核心概念: 统计学的一个主要用途是通过收集和使用样本数据对其总体进行总结, 因此我们应该理解统计量和参数的概念. 数据类型是决定我们在分析中使用何种统计方法的关键因素之一.
第一部分: 基本数据类型
参数和统计量
--- 定义
参数 --- 描述总体某些特征的数值度量
统计量 --- 描述样本某些特征的数值度量.
提示: 可以使用 "总体参数" 和 "样本统计量" 的术语以避免混淆.
定量数据和分类数据
有些数据表示的是计数或测量值(如成年人的身高), 而有些数据则表示属性(如绿色或棕色的眼睛). 定量数据和分类数据用于区分这些数据类型.
--- 定义
定量数据(数值数据): 由表示计数或测量值的数字组成
分类数据(定性数据或属性数据): 由名称或标签组成
注意: 分类数据有时会用代替标签的数字进行编码, 虽然这些数字看上去是定量的, 但实际上是分类数据
- 测量单位: 对于定量数据, 使用适当的测量单位是非常重要的. 如: 小时、英尺、米, 我们应该非常注意有关测量单位的信息.
离散型数据和连续型数据
定量数据可以通过离散型数据和连续型数据进一步加以区分. 离散型数据又分为有限类型的离散型数据和无限类型的离散型数据.
---定义
如果数据是定量数据, 且数据值的个数是有限的(即可数的), 则称其为离散型数据. (如果存在无穷多个数据值, 但数据值的集合是可以逐一计数的, 那么该数据值的集合就是可数的. 比如得到一次硬币的正面所需要抛掷的次数)
如果定量数据存在无穷多个可能的数据值, 且数据值的集合是不可数的, 则成其为连续型数据(数值型数据).(也就是说, 不可能对单个项计数, 因为其中至少有一些是连续的, 比如从0到12厘米距离的长度)
注: 可数数据的概念在上述定义中起着关键作用, 但他不是一个特别容易理解的概念. 连续型数据可以被测量, 但不能被计数, 如果从连续型数据中选择特定的数据值, 则没有 "下一个" 数据值的概念.
测量尺度
对数据进行分类的另一种常见方法是使用四个测量尺度: 名目、次序、等距和等比. 当应用统计学来解决实际问题时, 数据的测量尺度有助于我们决定使用哪种分析流程.
测量尺度 | 其他名称 | 简要描述 | 举例 |
---|---|---|---|
等比 | 比率、比例 | 有一个自然的零起点, 且比率有意义 | 高度、温度、距离、体积 |
等距 | 间隔、间距、区间 | 差值有意义, 没有自然的零起点, 且比率无意义 | 体温(华氏度/摄氏度) |
次序 | 顺序、序列、等级 | 数据可以排序, 但无法计算差值且无意义 | <美国新闻与世界报道>上的高校排名 |
名目 | 名义、类别 | 单纯的分类, 数据无法排序 | 眼睛的颜色 |
--- 定义
名目测量尺度的特征是数据只包含名称、标签或类别. 数据不能按某种顺序排列(比如从低到高)
次序测量尺度: 如果数据可以按某种顺序排列, 但是数据值之间的差值要么无法确定, 要么没有意义, 那么数据就处于次序测量尺度.
等距测量尺度: 如果数据可以按某种顺序排列, 并且数据值之间的差值能被确定且有意义, 那么数据就处于等距测量尺度. 处于等距测量尺度的数据没有一个自然的零起点.
等比测量尺度: 如果数据可以按某种顺序排列, 数据值之间的差值也能被确定且有意义, 并且数据有一个自然的零起点, 那么数据就处于 等比测量尺度. 对于该尺度下的数据, 差值和比率都是有意义的.
注: 等比测量尺度和等距测量尺度之间的区别可能有点棘手.以下方法可以区分:
1. 比率检验: 通过提出以下问题进行"比率检验" -- "两倍"合理吗? "两倍"对于等比测量尺度下的数据有意义, 但是对于等距测量尺度下的数据是没有有意义的.
2. 真正的零: 为了使比率有意义, 必须有一个"真正的零"的值, 也就是值为零表明没有任何数量存在, 并且零不是一个刻度上的任意值. 0°F 的定义是任意的, 并不表示没有热量, 因此华氏温标上的温度处于等距测量尺度, 而不是等比测量尺度.
由于名目数据不具有排序或数值意义, 因此他们不被用于计算. 由此计算得出的任何平均数(即均值)都是没有意义的, 而且可能会造成误导.
次序数据提供的信息是关于相对比较的, 而不是差值大小, 在通常情况下, 持续数据(如课程成绩A B C D)不被用于计算平均数, 但是某些次序数据也可以用于计算,(如来自评分范围为0-10的调查问卷数据)
第二部分: 大数据和缺失数据--过量和不够
在处理数据时, 数据集可能会非常庞大, 也可能会缺少单个元素
大数据
对大数据的分析需求促使数据科学的诞生
--- 定义
大数据: 指传统软件工具因数据集过于庞大复杂, 以至于对该数据集的分析超出其本身所具备的能力. 缝隙大数据可能需要软件同时在许多不同的计算机上并行运算.
数据科学: 涉及统计学、计算机科学、软件工程的应用, 以及其他一些相关领域(如社会学或金融学)
- 数据集大小示例: 从大数据的定义可以看出, 并没有一个固定数字作为判断数据集是否是大数据的确切边界, 但通常大数据的数据量如下:
- TB: 太字节
- PB: 拍字节
- EB: 艾字节
- ZB: 泽字节
- YB: 尧字节
- 数据科学中的统计学: 学习统计学入门课程是成为数据科学家的第一步.
缺失数据
收集到的样本数据经常会被发现有数据值缺失. 忽略缺失数据有时会产生误导性的结果. 如果有几个样本值是在将数据录入统计软件的过程中不小心遗漏的, 那么缺失值对结果可能不会产生严重影响.
--- 不同缺失数据的定义
完全随机遗失: 如果一个数据值缺失的可能性与该值本身或该数据集中的任何其他值无关, 那么该数据值就是完全随机缺失的. 也就是说, 任何数据值缺失的可能性都相同.
注:如果在分析中控制了其他变量, 数据值缺失的可能性与该值本身无关, 那么该数据值就是随机缺失的. (本书中不需要掌握随机缺失与完全随机缺失的区别)
非随机缺失: 如果数据缺失的原因与缺失值本身有关, 那么该数据值就是 非随机缺失的.
注: 如果忽略完全随机缺失的数据, 那么其余的数据不太可能存在偏差. 然而, 如果忽略非随机缺失的数据, 那么很有可能会因为其余的数据出在偏差而产生误导性的结论.
缺失数据的修正
- 删除法: 删除所有有缺失的数据, 这是处理缺失数据的一种常见方式
- 如果数据是完全随机缺失的, 那么删除以后, 剩余的数据不太可能存在偏差, 但样本量会减少
- 如果数据不是随机缺失的, 那么删除以后, 剩余的数据有可能会因为其余的数据存在偏差而产生误导性的结论
- 插补法: 插补法的含义是用某些值替换缺失数据, 确定替换值有不同的方法: 如使用非缺失值的均值、从类似的观测值中随机选取替换值, 或者使用回归分析.
当分析有缺失值的样本数据时, 判断数据为何缺失, 以及剩余的数据是否能够代表总体.如果缺失值不是非随机缺失的, 那么很有可能会因为其余的数据存在偏差而产生误导性的结论
1-3 样本数据的收集
核心概念: 在分析样本数据前, 必须使用恰当的方式对样本数据进行收集. 特别重要的方法是: 简单随机抽样.
注意: 如果样本数据没有以恰当的方式收集, 那么该数据可能是完全无用的, 即使使用再多的统计方法也是徒劳的.
第一部分: 实验设计与样本数据收集的基础
简单随机抽样
- 黄金标准: 被随机分配至实验组或安慰剂组(对照组)的样本, 因其有效性有时被称为"黄金标准".
--- 定义
安慰剂: 安慰剂是一种无害且无效的药物或治疗方案, 有时用于心理上的安慰, 有时被研究人员用来与其他治疗方法进行对照.
试验单位/受试者: 在一个实验中, 我们对实验中的个体施以一些处理(或治疗), 然后观察其对个体的影响(实验中的个体被称为实验单位. 若实验单位是人, 则通常被称为受试者).
观察性研究: 在一个观察性研究中, 我们观察和测量特定的特征, 但不试图改变被研究的个体.
实验的效果通常比观察性研究的效果好, 因为精心设计的实验通常会减少结果受某些其他变量影响的概率. 此外, 未知变量是指会影响所研究变量的一种变量, 但其自身并没有被包含在研究内.
- 实验设计: 一个好的实验设计需要具有重复原则、盲法试验和随机性.
- 重复原则: 是指在多个个体上重复同一实验. 利用好重复原则需要足够大的样本量, 以保证可以看到处理的效果.
- 盲法试验: 是指受试者不知道自己接受的是治疗还是安慰剂. 安慰剂效应是指未经治疗的受试者人为自身症状有所改善(这种改善可能是真实的, 也有可能是想象的), 而盲法试验可以规避该效应.
- 随机性: 是指个体通过随机选择的过程被分配到不同的组. 随机性背后的逻辑是根据概率创造两个相似的组.
--- 定义
简单随机样本: 一个包含n个个体的简单随机样本的抽样方式, 必须满足任意样本量为n的样本被选取的机会都是相同的. 一个简单随机样本通常被称为随机样本, 但严格地说, 两者并不相同. 随机样本的条件较弱, 即总体中所有个体被选取的机会都是相同的.
各种统计方法中, 一个经常出现的先决条件即为收集一个简单随机样本.
不同于粗心大意的抽样, 随机抽样通常需要深思熟虑并且贯彻始终
其他抽样方法: 除简单随机抽样, 还有一些在调查中常用的抽样方法.
--- 定义
系统抽样(等距抽样,机械抽样): 指先从总体中选择某个起点, 然后按相等的距离或间隔(如每隔50个)从中抽取个体.
任意抽样: 是指仅使用非常容易获得的数据
分层抽样: 是指先将总体细分为至少两个不同的子群(或层级), 同一子群中的个体具有相同的特征(如相同的性别), 然后从每隔子群中抽取个体.
整群抽样: 是指先将总体划分为若干区块(或集群), 然后从这些区块中随机选取至少一个区块. 最后的样本即为这些所选取的区块中所有的个体.
多阶段抽样:
专业的问卷调查专家和政府研究人员经常组合使用上述抽样方法来收集数据. 在多阶段抽样的设计中, 研究人员在不同的阶段选取样本, 且在每个阶段可能使用不同的抽样方法.
第二部分: 实验设计与样本数据收集的进阶
这一部分将讨论不同类型的观察性研究和不同的实验设计方法.
观察性研究: 不同类型的观察性研究在专业期刊中的标准用语
--- 定义
横断面研究: 在横断面研究中, 数据是在某一时间点上(而不是在一段时间内)观测、测量和收集的
回顾性研究(病例对照研究): 在回顾性研究中, 数据是在过去的一段时间内(通过患者病例或与病人会面等方法)收集的.
前瞻性研究(队列研究/纵向研究): 在前瞻性研究中, 数据是在将来一段时间内从具有共同因素的群组中收集的(这些群主被称为队列)
完全随机设计只是用于控制控制变量效应的其中一种方法.
- 完全随机设计: 通过随机选择的过程, 将受试者分配至不同的处理组
- 随机区组设计: 区组(或称为区块)是一组具有相似特征的受试者, 但区组间的差异可能会影响实验的结果. 其流程设计如下
- 将具有相似特征的受试者划分至相同的区组
- 对于每个区组, 将受试者随机分配至不同的处理组. 注: 随机区组设计与分层抽样的思想基本相同, 但前者用于设计实验, 而后者用于问卷调查.
- 配对设计: 先将两个具有相似特征的受试者或研究中的自身对照配成一对,