序言
本书的第六版继续展示了如何应用概率论来洞察现实生活中的统计问题。与之前的版本一样,本书精心设计的概率论相关的内容将真实现象的概率模型和其统计程序关联起来,以便读者能够更直观的理解实践工程师和科学家最常用的统计程序和策略。
本书是为工程学、计算机科学、数学、统计学和自然科学专业的学生编写的统计学和概率统计入门课程。因此,我们假定读者具备一定的微积分知识。
本书的组织结构和内容范围
1 统计学简介 对 统计学 进行了简要介绍,介绍了 统计学 的两大分支:描述统计、推论统计,然后介绍了 统计学 的一小段历史和为当今统计学的发展奠定基础的先驱人物。
2 描述统计 的主要内容是 描述统计。本章介绍了描述数据集的图表,以及用于总结数据集某些关键属性的统计量(quantities)。
3 概率论基础 的内容主要是概率实验,事件概率的基本概念,概率的相关公理。我们必须了解数据的来源,以从数据中得出结论。例如,我们通常假设,数据是从某个群体中抽取的 “随机样本”。为了准确理解这样的假设意味着什么,也为了准确理解将样本数据的属性与总体的属性联系起来会产生什么结果,我们有必要了解一些概率知识。
4 随机变量和期望 将继续研究概率,本章会进一步介绍随机变量(random variables)和期望(expectation)等重要概念。
5 特殊的随机变量 会介绍应用中经常出现的一些特殊类型的随机变量,包括:二项分布、泊松分布、超几何分布、正态分布、均匀分布、伽马分布、卡方分布、\(t\) 分布和 \(F\) 分布……
6 抽样分布 会研究样本均值(mean)和样本方差(variance)等抽样统计数据的概率分布。本章将介绍如何使用显著概率理论结果(中心极限定理)来近似样本均值的概率分布。此外,在某些重要的特殊场景下,当抽样的数据来自符合正态分布的总体时,本章也给出了样本均值和样本方差的联合概率分布。
7 参数估计 介绍了如何使用数据来估计感兴趣的参数。例如,科学家可能想要确定受到酸雨影响的中西部湖泊的比例。本章会研究两种参数估计方法。第一种估计方法用一个数字来估计感兴趣的统计量(例如,中西部湖泊中有 47% 的湖泊受到了酸雨的影响)。第二种则是以一个数值区间的形式来估计总体参数的范围(例如,中西部湖泊中有 45% ~ 49% 的湖泊受到了酸雨的影响)。第二种估计方法还告诉我们对其估计结果的 “置信水平”(level of confidence)。例如,尽管我们并不能肯定 47% 就是受影响的湖泊的确切比例,但我们很可能有 95% 的信心认为实际受影响的湖泊比例在 45% ~ 49% 之间。
8 假设检验 介绍了统计假设检验这一重要内容,该部分关注的是利用数据来检验特定假设的合理性。例如,假设检验可能会拒绝 “中西部受酸雨影响的湖泊少于 44%” 这样的假设。本章引入了 \(p\) 值的概念来衡量在观察到数据后假设的合理性程度。本章还会介绍关于一个和两个正态总体参数的各种假设检验方法,以及关于伯努利分布和泊松分布的参数的假设检验。
9 回归 会涉及 回归(regression) 这个重要的课题。简单线性回归(包括平均数回归、残差分析、加权最小二乘法等)和多元线性回归的内容都将在本章中进行介绍。
10 方差分析 介绍了方差分析。本章具体介绍了一维方差分析(one-way analysis of variance)和二维方差分析(two-way analysis of variance)。
11 拟合优度检验和分类数据分析 关注的是拟合优度检验(goodness of fit tests)。拟合优度检验可以用来检验所提出的模型是否与观察到的数据一致。在本章中,我们介绍了经典的卡方拟合优度检验(Chi-squared goodness of fit test),并将其应用于检验列联表(contingency tables)中变量的独立性。本章的最后一节介绍了可用于检验数据是否来自特定连续概率分布的 Kolmogorov-Smirnov 检验方法。
12 非参数假设检验 涉及到非参数假设检验,当我们无法假设潜在的数据分布具有某种特定的参数形式(如正态分布)时,可以使用非参数假设检验。
13 Quality control 主要考虑质量控制(quality control)这一主题。质量控制是制造和生产过程中的一项关键统计技术。本章会介绍多种控制图,不仅包括 Shewhart 控制图,还包括基于 移动平均(Moving Averages) 和 累积和(Cumulative Sums)的更复杂的控制图。
14 Life testing 介绍了与寿命测试相关的问题。在寿命测试中,起关键作用的不是正态分布,而是指数分布。
15 Simulation, bootstrap statistical methods, and permutation tests 介绍了 bootstrap 统计方法和排列检验(permutation tests)的统计推断技术。本章首先介绍了如何通过模拟(simulation)获得概率,然后介绍了如何在这些统计推断方法中使用模拟。
16 Machine learning and big data 是本书第 6 版中新增的内容,本章介绍了机器学习和大数据的相关技术。当拥有较大的数据量时,我们可以使用机器学习和大数据技术在无需假设任何特定概率模型下来估计概率。例如,我们想要估计一个由向量 \((x_1, ..., x_n)\) 表示的实验成功的概率。当该特征向量是对自然属性(qualitative in nature)(例如,动物的分类)的描述时,可以使用朴素贝叶斯方法和最近邻规则等技术。当特征向量的是量化数据(quantitative)(例如身高、体重)时,我们还研究了逻辑回归模型。
本书的第六版不但新增了 16 Machine learning and big data ,最重要的变化是引入了统计软件 R。我们会在书中介绍 R 的使用方法,因此没有 R 使用经验的读者也无需担心。除此之外,我们还新增了 2.7 洛伦兹曲线和基尼系数 来讨论 洛伦兹曲线(Lorenz Curves)和 基尼指数(Gini Index)。第六版还增加了很多新的示例和问题。为了进一步提高本书文本表述和论证的清晰度,该版本对书中很多内容作了些许调整。
补充材料
可以从 https://educate.elsevier.com/book/details/9780128243466 处获取教师解答手册。
致谢
感谢对第六版的内容提出有益意见的人们:
- Gideon Weiss, University of Haifa
- N. Balakrishnan, McMaster University
- Mark Brown, Columbia University
- Rohitha Goonatilake, Texas A and M University
- Steve From, University of Nebraska at Omaha
- Subhash Kochar, Portland State University
- Sumona Mondal, Mathematics, Clarkson University
- Kamel Belbahri, Mathematics and Statistics, Université de Montréal
- Anil Aswani, Industrial Engineering and Operations Research, University of California, Berkeley
对于希望保持匿名的所有审稿人,也在此表示感谢。