1 统计学简介
1.1 引言
如今,人们普遍接受了这样的事实:为了了解某个事物,我们必须首先收集和该事物相关的数据。统计学(Statistics)是一门从数据中学习的艺术,它包括数据的收集,也包括通过后续的数据描述和数据分析来获得结论。
1.2 数据收集和描述统计
描述统计(descriptive statistics)是统计学的一个重要分支,另一个重要的分支是 小节 1.3 中介绍的 推断统计(Inferential statistics)。
描述统计 主要关注于数据的收集、处理、汇总、图表描述、概括与分析,包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据的分布特征与分析方法等。描述统计 的目的是将数据转化为有意义的信息,并帮助我们理解数据的特征和规律。常见的 描述统计 包括直方图、平均数、中位数、众数等。
推断统计 主要关注如何利用样本数据来推断总体特征,包括参数估计(例如平均数、标准差的估计)和假设检验两种类型。推断统计 允许我们根据部分数据来推断总体特征,从而提高研究的效率和准确性。常用的 推断统计 包括置信区间、t 检验、方差分析等。
描述统计 是统计学的基础,其主要处理样本数据;而 推断统计 则是描述统计的升华,其利用样本数据来推测总体特征。
有时候,我们会从一个给定的数据集合为起点来启动统计分析:例如,政府会定期收集和公布相关年份的降水量、地震发生次数、失业率、国内生产总值以及通货膨胀率。我们可以使用 统计学 来描述、总结并分析如上的数据。
在有些场景下,我们可能还没有可用于分析的数据,此时需要利用统计理论来设计合适的实验以生成分析所需的数据。实验方案的选择取决于我们如何使用这些数据。
教学方式的实验
对于计算机编程课而言,假设一名老师想要确定哪种教学方法对初学者更好。
为了研究这个问题,该老师可以把学生分成两组,然后针对不同组的学生采用不同的教学方法。在课程结束时,对学生的学习效果进行测试,并比较不同分组的学生成绩。如果其中一组学生的成绩明显高于另一组,那么我们假定该组使用的教学方法更优越的想法就更为合理。
然而,为了从数据中得出有效的结论,对学生进行分组的方式至关重要,分组时应确保两组学生的编程资质是一致的。这一点,我们我们需要特别关注。我们不应该将男生分为一组,而把女生分为另一组。如果按照性别分组,即使女生组的测试成绩明显高于男生组,我们也无法确定成绩差异是源自教学方法的不同,还是因为女性在学习编程技能方面可能更具天赋。为了避免这个陷阱,我们可以 随机 把学生分成两组。“随机” 这个词意味着分组的方式应确保每个学生有同等的机会被分配到不同的组。
在实验的最后,我们应该对数据进行描述(例如,两个分组的测试成绩)。此外,我们还应呈现数据的汇总指标(例如,不同分组的平均成绩)。在 统计学 中,涉及数据描述和数据汇总的部分称之为 描述统计。
1.3 推断统计和概率模型
当我们完成了 小节 1.2 中所述的、教学方式的实验,并对实验数据进行了描述和汇总后,我们希望可以得出哪种教学方法更好的结论。在 统计学 中,涉及到得出结论的这一部分称之为 推断统计。
为了能够从数据中得出结论,我们必须考虑偶然事件发生的可能性。例如,对于 小节 1.2 中提到的教学方式的实验,假设第一组学生的平均成绩稍高于第二组,我们能断定成绩的增加是因为教学方法吗?或者是否存在这种可能:教学方法并不是成绩增加的原因,第一组学生的成绩较高只是偶然发生的?例如,抛 10 次硬币,其中有 7 次正面朝上,这并不意味着在以后的实验中,这枚硬币正面朝上的概率会高于反面朝上。实际上,这枚硬币可能只是一枚普通的硬币,只是碰巧在10 次抛掷中出现了 7 次正面朝上。(另一方面,如果在 50 次抛掷中出现了 47 次正面朝上,那么我们就可以非常确定这不是一枚普通硬币。)
为了从数据中得到正确的结论,我们通常会对可以获取到的、不同数据的可能性(或概率)做某些假设。这些假设的总和称之为数据的 概率模型。
有时,数据的性质(nature)暗含了我们所假设的 概率模型 的形式。例如,假设一名工程师想要了解使用新的生产方式生产的计算机芯片的缺陷率。该工程师可能会从新生产方式生产的芯片中选择一组芯片,然后可以得到所抽取的这组芯片中的缺陷芯片数量。只要这组芯片是 “随机” 选择而产生的,那么假设这组芯片中的每一个芯片存在缺陷的概率为 \(p\) 就是合理的,其中 \(p\) 是使用新方法生产的所有芯片的缺陷率。因为我们无法抽查所有芯片以获得 \(p\),因此 \(p\) 是未知的,我们可以用“随机”抽取的芯片所得到的数据来推断 \(p\)。
在其他情况下,概率模型 在给定数据集上的表现并不明显。然而,对数据的仔细描述和呈现有时能帮助我们推断出合理的 概率模型,然后我们可以使用其它的数据来验证推断的 概率模型。
统计推断 的基础是通过构建 概率模型 来描述数据,因此需要具备一定的概率论基础才能理解 统计推断。换句话说,统计推断 源自这样的假设:我们可以用概率来描述研究对象,然后我们可以基于该假设通过数据来推断这些概率,从而得出结论。
1.4 总体与样本
在 统计学 中,我们对获取研究对象中的所有个体的集合的信息感兴趣。研究对象中所有个体的集合我们称之为 总体。总体 的规模往往太大,所以我们无法检查 总体 中的每个成员。例如,我们可能有某个州的所有居民数据,或者某个制造商去年生产的所有电视机数据,亦或者某个社区的所有家庭数据。在这些情况下,我们试图通过选择总体元素的一个子分组并对该子分组进行检查来了解 总体,这个子分组我们称其为 样本。
如果 样本 需要提供有关 总体 的信息,那么,在某种意义上而言,样本 必须具有代表性。
市民的平均年龄
假设我们对某市居民的年龄分布感兴趣,并且我们获得了进入城镇图书馆(town library)的前 100 个市民的年龄。如果这 100 人的平均年龄为 46.2 岁,我们是否可以依次为依据得出结论:该市居民的平均年龄为 46.2 岁?
可能并非如此。当然,我们可以认为,在这种情况下选择的 样本 可能并不能代表 总体,因为通常而言,年轻学生和老年市民去图书馆的可能性要大于上班族。
在美国,“town library” 是指位于城镇内的公共图书馆。这些图书馆由城镇或地方政府资助,为当地社区提供各种书籍、资料和服务。城镇图书馆通常提供免费的借阅服务,包括书籍、期刊、报纸、音像资料等,并提供学习空间、研究帮助、电脑和互联网接入等资源。它们也可能举办各种活动和课程,以满足社区居民的教育、文化和娱乐需求。
在某些情况下,我们得到了一个 样本,然后我们必须判断该 样本 是否能够代表 总体,例如如上的市民平均年龄的示例。在实践中,如果样本不是以“随机“的方式进行选择,那么通常不能假定给定的 样本 可以代表 总体。任何特定的、非随机的抽样规则往往会导致 样本 对某些数据存在固有的偏好,这也意味着会天然的反对另外的数据。
因此,对于待选择的个体而言,在没有任何先验知识的情况下,通过完全”随机“的方式来选择 样本,我们更有可能获得有代表性的 样本。尽管这听起来可能有些矛盾,但这确实如此。换句话说,我们不需要刻意选择样本,以便 样本 中的人的性别比例和职业比例与 总体 是一致的。相反,我们应该把 样本 的特性留给 “可能性” 或者 ”概率“,以获得大致正确的百分比。一旦选好了随机样本,我们就可以通过研究 样本 并使用 统计推断 来得出和 总体 有关的结论。
1.5 统计学简史
在文艺复兴时期,意大利的威尼斯和佛罗伦萨开始对人口和经济方面的数据进行系统化的收集。统计学(statistics) 一词来源于国家(state)这个单词,通常用来描述和国家有关的数据收集。这种收集数据的想法不断从意大利传播到西欧的其他国家。事实上,在 16 世纪上半叶,欧洲国家的政府普遍要求教区居民登记出生、婚姻和死亡情况。由于公共卫生条件差,政府尤其关注居民登记的死亡信息统计。
在 Statistics, History of 这篇论文中,作者提到了 statistics 一词的来源。
It is widely believed that the term statistics originated from the Latin Status (situation, condition) of population and economics; in late Latin, the same term meant State. Another root of the term comes from the Italian word stato (state), and a statista (a person who deals with affairs of state).
According to Kendall (1960:447) the first use of the word statistics “occurs in a work by an Italian historian Girolamo Ghilini, who in 1589 refers to an account of civile, politica, statistica e militare scienza.”
19 世纪之前,欧洲的高死亡率主要源自流行病、战争和饥荒。对于流行病而言,最严重的是瘟疫。从 1348 年的黑死病开始,瘟疫在近 400 年的时间里频繁在欧洲发生。1562 年,为了让英国的王室成员意识到需要搬迁到乡下,伦敦市开始每周公布死亡人数。最初,这些死亡人数的清单中会列出死亡地点以及是否因瘟疫而死亡。从 1625 年开始,该清单中的信息扩展到所有的死亡原因。
1662 年,英国商人 John Graunt 出版了一本名为 Natural and Political Observations Made upon the Bills of Mortality 的书。表 1.1 摘录了该书中所列出的英格兰五个不同瘟疫年份的总死亡人数和因瘟疫死亡的人数。
年份 | 死亡人数 | 瘟疫致死人数 |
---|---|---|
1592 | 25,886 | 11,503 |
1593 | 17,844 | 10,662 |
1603 | 37,294 | 30,561 |
1625 | 51,758 | 35,417 |
1636 | 23,359 | 10,400 |
Graunt 利用伦敦的死亡人数来估算该市的人口总数。例如,为了估算 1660 年伦敦的人口,Graunt 对伦敦某些教区 (或社区) 家庭进行了调查,并发现平均每 88 人中大约有 3 人死亡。这意味着平均每 88/3 个人就会有 1 个人死亡。伦敦的死亡人数清单显示 1660 年伦敦有 13200 人死亡,所以 Graunt 估计当年伦敦的人口大约为:
\[ 13200 × 88/3 = 387200 \]
Graunt 利用这种估计方法来预测整个英格兰的人口数量。他在书中指出,政府会对这些数据感兴趣,因为这些数据可以作为应征入伍人数和应纳税人数的指标。
Graunt 还利用伦敦的死亡人数清单,以及关于何种疾病会导致何人、在什么年龄死亡的一些合理猜测,来推断死亡年龄。(回想一下,前面提到的死亡人数清单只列出了死亡原因和地点,其并没有列出死者的年龄。) 然后,格兰特利用这些信息计算出不同年龄段的死亡人口比例。表 1.2 是 Graunt 计算的死亡率表之一。例如,表 1.2 指出,在 100 名新生儿中,有 36 人将在 6 岁之前死亡,24 人将在 6~15 岁之间死亡,……
死亡年龄 | 每 100 新生儿中的死亡人数 |
---|---|
0-6 | 36 |
6-16 | 24 |
16-26 | 15 |
26-36 | 9 |
36-46 | 6 |
46-56 | 4 |
56-66 | 3 |
66-76 | 2 |
>=76 | 1 |
从事 年金 行业的人对 Graunt 的死亡年龄表非常感兴趣。年金 与人寿保险不同,人们会一次性支付一笔款项作为投资,然后在有生之年定期从 年金 中获得收益。
年金(annuity)是一种金融产品,通常由保险公司或金融机构提供。年金是一种长期投资工具,旨在为购买者提供一定期间内的收入。购买者通常向保险公司或金融机构支付一笔或多笔资金,而作为回报,购买者将在未来的一段时间内获得一定的收益。
受到 Graunt 死亡率表的启发,1693 年,Edmund Halley 又做了更进一步的工作。Halley 是哈雷彗星的发现者(同时,Halley 也是对《自然哲学的数学原理》一书的出版贡献最大的人,他不但鼓励牛顿把自己的发现编写成书,更是为该书的出版提供了资金支持),他利用死亡率表来计算任何年龄段的人活到任何特定年龄的概率。Halley 说服了当时的保险公司,让他们相信年度人寿保险保费应该取决于被保险人的年龄。
继 Graunt 和 Halley 之后,从 17 世纪末到 18 世纪,对数据的收集呈现稳步增长的趋势。例如,1667年,巴黎开始收集死亡人数清单;到 1730 年时,在欧洲,记录死亡年龄已成为一件非常普遍的事情。
18 世纪之前,“statistics” 这个词被用作对国家或地区进行描述性分析的科学方法的简称。从 1800 年左右开始,西欧国家和美国政府开始系统地收集和公布类似的人口普查数据,这积累了大量的、可用的人口普查记录和相关的表格数据,这也导致了 “statistics” 一词在含义上发生了变化。19 世纪时,“statistics” 越来越多地与数字联系在一起,到 19 世纪 30 年代,在英国和法国,人们普遍将 “statistics” 一词与社会“数字科学”(numerical science)视为同等含义。
贯穿整个 19 世纪,在 Jacob Bernoulli、Karl Friedrich Gauss 和 Pierre Simon Laplace 等数学家的推动下,尽管 概率论 已经发展起来,但在研究统计结果方面,概率论 几乎没有任何应用。此中的原因在于,当时的大多数社会统计学家都满足于让数据自己说话。特别是,当时的统计学家对个体推断并不感兴趣,他们更关心整个社会。因此,在当时,统计学家并不关心抽样,而是试图获得全部的人口普查数据。因此,在 19 世纪的社会统计学中,通过样本来推断总体概率的事情几乎没有发生过。
直到 19 世纪末,统计学才开始关注如何从数值数据中推断结论。推断统计 这一运动始于 Francis Galton 关于 遗传天才 的分析工作,在这项分析中, Francis Galton 使用了我们现在所说的回归分析和相关性分析(章节 9)。Francis Galton 的工作极大的推动了 Karl Pearson 为统计学所做的贡献。Karl Pearson 是卡方检验(章节 11)的发明者,也是由 Francis Galton 于1904 年资助建立的高尔顿实验室的第一任负责人。在高尔顿实验室,Karl Pearson 发起了一个旨在发明一种用统计数据进行推断的新方法的研究项目。Pearson 邀请科学和工业领域的高年级学生到实验室来学习统计方法,然后将对应的方法应用于各自的领域。化学家 W.S. Gosset 是高尔顿实验室最早的访问学者之一,他以 “Student” 的名义出版了自己的研究发现,并以此表达了对皮尔逊的敬意。(有一个比较有名的故事是说,Gosset 害怕他所在的吉尼斯酿酒厂的老板在发现他们的一位化学家正在做统计学研究时会不高兴,因此不敢以自己的名义出版著作)。Gosset 因为他所发明的 t 检验而名声大振(章节 8)。
20 世纪初,群体生物学(population biology)和农业是应用统计学的两个最重要的领域。统计学这这些领域的应用主要源自 Pearson 和他的实验室的其他人的研究,也源自英国科学家 Ronald A. Fisher 在统计学中的显著成就。在如上所介绍的先驱者以及其他研究者(例如, Karl Pearson 的儿子 Egon 和出生于波兰的数理统计学家 Jerzy Neyman 等)的推动下,他们所发明的推理理论已经通用到可以处理广泛的量化问题和实践问题。因此,在 20 世纪初之后的几年里,越来越多的科学家、商人和政界人士开始将统计学视为能够为科学问题和实践问题提供定量解决方案的工具(见 表 1.3)。
时间 | 定义 |
---|---|
Quetelet, 1849 | Statistics has then for its object that of presenting a faithful representation of a state at a determined epoch. |
Galton, 1889 | Statistics are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man. |
Fisher, 1925 | Statistics may be regarded (i) as the study of populations, (ii) as the study of variation, and (iii) as the study of methods of the reduction of data. |
E. Pearson, 1936 | Statistics is a scientific discipline concerned with collection, analysis, and interpretation of data obtained from observation or experiment. The subject has a coherent structure based on the theory of Probability and includes many different procedures which contribute to research and development throughout the whole of Science and Technology. |
Weaver, 1952 | Statistics is the name for that science and art which deals with uncertain inferences — which uses numbers to find out something about nature and experience. |
Porter, 1986 | Statistics has become known in the 20th century as the mathematical tool for analyzing experimental and observational data. |
this book, 2020 | Statistics is the art of learning from data. |
如今,统计学的思想无处不在。在每一份报纸和杂志上,描述统计学 的特点都有所体现。在公共卫生、医学研究、工程研究、科学研究、市场营销、质量控制、教育、会计、经济、气象预报、投票和调查、体育、保险、赌博以及所有声称是科学的研究领域,统计推断 都是不可或缺的。的确,统计学已经深深植根于人类的知识遗产(intellectual heritage)之中。
知识遗产(intellectual heritage)是指社会所拥有的知识、思想、传统、技能和价值观的集合,这些资源被传承下来并世代相传。知识遗产包括各种形式的人类智慧,如文学作品、艺术品、哲学理论、科学发现、宗教信仰、法律体系、技术创新等。知识遗产不仅仅是一种资产,更是一种社会、文化和历史的遗产,它反映了人类的智慧、经验和创造力,对于塑造社会的认同感、价值观和意识形态具有重要意义。
习题
下周将举行选举,我们试图通过对总体选民进行抽样来预测共和党候选人或民主党候选人谁会获胜。以下哪种抽样方法可能产生有代表性的样本?
- 对参加大学篮球比赛的所有达到投票年龄的人进行民意调查。
- 对去市中心一家高档餐厅用餐的所有达到投票年龄的人进行民意调查。
- 获取一份选民登记名单,随机选择100个名字,并对他们进行提问。
- 使用电视台的电话投票民意调查结果,电视台会要求听众打电话进来并说出他们的选择。
- 从电话簿中选择名字,并给这些人打电话。
在1936年的美国总统竞选中,第 1 题的 (e) 选项使用的方法导致了及其糟糕的预测结果。在那次竞选中,富兰克林·罗斯福以压倒性优势击败了阿尔弗雷德·兰登。该杂志从汽车用户和电话用户名单中抽取选民样本,基于对这些选民的调研,Literary Digest 杂志预测兰登会获胜。
- 你认为 Literary Digest 杂志的预测为何如此离谱?
- 从 1936 年到现在,有没有什么变化让你相信 Literary Digest 杂志使用的方法在今天会更有效?
一位研究人员正试图发现当今美国人死亡时的平均年龄。为了获得数据,研究人员阅读了 30 期的《纽约时报》的讣告专栏,并记录了美国人的死亡年龄。你认为这种方法会得到一个有代表性的样本吗?
为了确定镇上吸烟者的比例,现决定在当地的以下地点之一进行民意调查。这些民意调查地点中,哪一个最有可能得出合理的结果?为什么?
- 台球厅
- 保龄球馆
- 购物中心
- 图书馆
一所大学计划对其近期毕业的学生进行调查,以确定他们的年薪信息。该学校随机选择了 200 名近期要毕业的学生,并向他们发送了和他们目前工作有关的调查问卷。然而,在这 200 人中,只有 86 人返回了问卷。假设这返回的 86 份问卷显示的平均年薪为 75000 美元。
- 该学校认为 75000 美元是所有毕业生平均工资水平的比较好的近似值,这种想法对吗?解释你的回答背后的理由。
- 如果你对 (a) 的回答是否定的,你能想到,在什么条件下,返回的问卷所显示的工资水平将会是一个不错的毕业生平均工资水平的近似值?
一篇文章报道称,对夜间交通事故中丧生的行人所穿衣服的调查显示,约 80% 的受害者穿着深色衣服,20% 的受害者穿着浅色衣服。文章得出的结论是,晚上穿浅色衣服更安全。
- 这个结论合理吗?请解释下你的回答。
- 如果你对 (a) 的回答是否定的,那么在得出最终结论之前,还需要什么其他信息?
如何评判 Graunt 估算伦敦人口的方法?他的方法是有什么隐含的假设?
1658 年,伦敦的死亡率清单记录了 12246 人死亡。假设对伦敦教区的调查显示,该年的人口死亡率大约为 2%,使用 Graunt 的方法来估算 1658 年伦敦的人口总数。
1662 年,当 Graunt 的书出版时,假设你是一名年金销售员。解释一下,你将如何利用 Graunt 给出的关于人们死亡年龄的数据。
基于 Graunt 的死亡率表(表 1.2):
- 活到 6 岁的人的占比是多少?
- 活到 46 岁的人的占比是多少?
- 死于 6 岁到 36 岁之间的人的占比是多少?