8  假设检验

8.1 引言

如前一章所述,假设我们从一个分布已知但参数未知的总体中抽取随机样本。现在,我们不想对未知参数进行明确的估计,而是更多的关注使用所得到的样本来检验关于这些参数的某个特定 假设hypothesis)。举例来说,假设某建筑公司刚刚购买了一大批电缆,电缆厂家保证电缆的平均断裂强度至少为每平方英寸(per square inch: PSI) 7000 磅。为了验证电缆厂家的声明,该公司决定随机抽取其中的 10 根电缆以确定其断裂强度。然后,该公司将使用实验结果来确定是否接受电缆厂家声明的假设:总体上,电缆强度的平均值至少为 7000 PSI。

统计假设statistical hypothesis)通常是关于总体分布的一组参数的陈述。我们称之为 假设 是因为这一陈述的真实性尚不可知。一个主要问题是开发一个流程,以确定从总体中获取的随机样本的值是否与 假设 一致。例如,一个正态分布总体的均值 \(\theta\) 未知、方差为 1。“\(\theta \lt 1\)” 就是一个 统计假设,我们可以通过观察来自该总体的随机样本来对该 假设 进行检验。如果随机样本与 假设 一致,我们将“接受”该 假设;否则,我们将“拒绝”该 假设

注意

务必注意,当我们接受一个给定的 假设 时,并不意味着我们实际上认为这个假设是真的,而是说结果数据与该 假设 看起来是一致的。

例如,在 \(\mathcal{N}(\theta,1)\) 的正态分布总体中,如果大小为 10 的样本的均值为 1.25,那么虽然这样的结果不能视为支持 “\(\theta \lt 1\)” 的证据,但该结果与 假设 并不矛盾,因此我们将接受该 假设

另外,如果大小为 10 的样本的均值为 3,即使当 \(\theta \lt 1\) 时,这样的样本值是可能存在的,但出现这样的样本值是如此的不可能,以致于这似乎与 假设 并不一致,因此我们会拒绝该 假设

8.2 显著性水平

考虑一个分布为 \(F_{\theta}\) 的总体,其中 \(\theta\) 是未知的。假设我们要检验关于 \(\theta\) 的特定 假设,我们将此假设记为 \(H_0\),并称之为 原假设null hypothesis)。例如,如果 \(F_{\theta}\) 是均值为 \(\theta\)、方差为 1 的正态分布,那么关于 \(\theta\) 的两个可能的 原假设 是:

  1. \(H_0: \theta = 1\)
  2. \(H_0: \theta \le 1\)

因此,第一个 假设 表明总体是均值为 1 且方差为 1 的正态分布,而第二个 假设 表明总体是方差为 1 且均值小于或等于 1 的正态分布。注意,第一个 原假设 为真时,完全确定了总体分布,而当第二个 原假设 为真时,则没有完全确定总体分布。如果一个 假设 为真可以完全确定总体分布,我们称这样的 假设简单假设simple hypothesis);否则,我们称之为 复合假设composite hypothesis)。

假设现在为了检验特定的 原假设 \(H_0\),我们将观察一个样本大小为 \(n\) 的总体样本——例如 \(X_1, \ldots, X_n\)。基于这 \(n\) 个值,我们必须决定是否接受 \(H_0\)。可以通过在 \(n\) 维空间中定义一个区域 \(C\) 来指定 \(H_0\) 的检验:如果随机样本 \(X_1, \ldots, X_n\) 位于 \(C\) 中,则拒绝 假设,否则接受 假设。该区域 \(C\) 称之为 临界区critical region)。换句话说,由 临界区 \(C\) 确定的统计检验是:

  • 接受 \(H_0\):如果 \((X_1, X_2, \ldots, X_n) \notin C\)
  • 拒绝 \(H_0\):如果 \((X_1, \ldots, X_n) \in C\)

例如,一个关于方差为 1 的正态分布的均值 \(\theta\) 的常见假设——均值等于 1 的检验,其 临界区 由以下公式给出:

\[ C = \{(X_1, \ldots, X_n) : |\overline{X} - 1| > 1.96 / \sqrt{n}\} \tag{8.1}\]

因此,当样本均值与 1 的差值超过 1.96 除以样本大小的平方根时,则拒绝 \(\theta = 1\)原假设

注意

重要的是,在任何检验中,可能会出现两种不同类型的错误。

  • 第一种错误,称之为 I 型错误,是指检验错误地拒绝了实际上正确的 \(H_0\)
  • 第二种错误,称之为 II 型错误,是指检验错误地接受了实际上不正确的 \(H_0\)

如前所述,统计检验 \(H_0\) 的目标不是明确确定 \(H_0\) 是否为真,而是确定 \(H_0\) 是否与结果数据一致。因此,基于这个目标,合理的做法是:仅当 \(H_0\) 为真时,并且结果数据非常不可能出现时,才拒绝 \(H_0\)。传统的方法是指定一个值 \(\alpha\) ,然后要求检验具有这样的性质:每当 \(H_0\) 为真时,\(H_0\) 被拒绝的概率绝不超过 \(\alpha\)。这个 \(\alpha\) 值,称之为 检验的显著性水平level of significance of the test)。通常会预先设定检验的显著性水平,常用的值有 \(\alpha = 0.1, 0.05, 0.005\)

换句话说,传统的检验 \(H_0\) 的方法是固定一个显著性水平 \(\alpha\) ,然后要求检验具有这样的性质:发生 I 型错误 的概率绝不能超过 \(\alpha\)

\(\theta\) 是总体的一个未知参数,假设现在我们对检验一个关于 \(\theta\) 的特定 假设 感兴趣。具体来说,对于给定的参数值集合 \(w\),假设我们对如下的检验感兴趣:

\(H_0 : \theta \in w\)

\(\alpha\) 下检验 \(H_0\) 的一种常见方法是,从确定 \(\theta\) 的点估计量——记为 \(d(\mathbfit{X})\) 开始。

\(d(\mathbfit{X})\) 远离区域 \(w\) 时,则拒绝 假设。然而,为了确定 \(d(\mathbfit{X})\) 需要多远才能证明拒绝 \(H_0\) 是合理的,我们需要确定当 \(H_0\) 为真时 \(d(\mathbfit{X})\) 的概率分布。因为这通常能帮助我们确定适当的 临界区,从而使检验达到所需的 显著性水平 \(\alpha\)。例如,式 8.1 给出的参数为 \((\theta, 1)\) 的总体均值等于 1 的假设检验,当 \(\theta\)点估计量——即样本均值——与 1 之间的距离超过 \(1.96/\sqrt{n}\) 时,则拒绝 假设。正如我们将在 小节 8.3 中所讲述的,选择 \(1.96/\sqrt{n}\) 是为了满足 显著性水平 \(\alpha = 0.05\)

8.3 正态分布的均值检验

8.3.1 方差 \(\sigma^2\) 已知的场景

\(X_1, \dots, X_n\) 是从未知均值 \(\mu\) 且方差为 \(\sigma^2\) 的正态分布总体中抽取的大小为 \(n\) 的样本,假设我们要对以下的原假设进行检验:

\(\begin{align} H_0: \mu = \mu_0 \quad vs \quad H_1: \mu \neq \mu_0 \end{align}\)

其中 \(\mu_0\) 是某个特定的常数。

由于 \(\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i\)\(\mu\) 的点估计量,因此如果 \(\overline{X}\)\(\mu_0\) 相差不大,则接受 \(H_0\) 是合理的。也就是说,检验的 临界区 为:

\[ C = \{ X_1, \dots, X_n : |\overline{X} - \mu_0| > c \} \tag{8.2}\]

其中 \(c\) 为某个合适的值。

如果我们要求检验的显著性水平为 \(\alpha\),我们必须确定 式 8.2 中的临界值 \(c\),以使得 I 类错误等于 \(\alpha\)。即,\(c\) 必须满足:

\[ P_{\mu_0}\{ |\overline{X} - \mu_0| > c \} = \alpha \tag{8.3}\]

\(P_{\mu_0}\) 表示我们在 \(\mu = \mu_0\) 的假设下计算 式 8.3 的概率。然而,当 \(\mu = \mu_0\) 时,\(\overline{X}\) 将服从均值为 \(\mu_0\) 且方差为 \(\sigma^2/n\) 的正态分布,因此 式 8.4 定义的 \(Z\) 将服从标准正态分布。

\[ Z \equiv \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} = \sqrt{n} \frac{(\overline{X} - \mu_0)}{\sigma} \tag{8.4}\]

于是,式 8.3 等价于:

\(P\left\{ |Z| > \frac{c \sqrt{n}}{\sigma} \right\} = \alpha\)

即:

\(2P\left\{ Z > \frac{c \sqrt{n}}{\sigma} \right\} = \alpha\)

其中 \(Z\) 是标准正态分布随机变量。然而,我们知道

\(P\{ Z > z_{\alpha/2} \} = \alpha/2\)

因此:

\(\frac{c \sqrt{n}}{\sigma} = z_{\alpha/2}\)

即:

\(c = \frac{z_{\alpha/2} \sigma}{\sqrt{n}}\)

因此,显著性水平为 \(\alpha\) 的检验为:

  • 如果 \(\frac{\sqrt{n}}{\sigma} |\overline{X} - \mu_0| > z_{\alpha/2}\),则拒绝 \(H_0\)
  • 否则,接受 \(H_0\)

\[ \begin{align} \text{拒绝} H_0 &: \quad \frac{\sqrt{n}}{\sigma} |\overline{X} - \mu_0| > z_{\alpha/2} \\ \text{接受} H_0 &: \quad \frac{\sqrt{n}}{\sigma} |\overline{X} - \mu_0| \le z_{\alpha/2} \end{align} \tag{8.5}\]

可以通过图 图 8.1 来直观地表示 式 8.5,在 图 8.1 中,我们叠加了标准正态分布的概率密度函数(即当 \(H_0\) 成立时,统计量 \(\sqrt{n}(\overline{X} - \mu_0)/\sigma\) 的概率密度)。

代码
library(latex2exp)
library(ggplot2)

x <- seq(-3, 3, 0.01) 
y <- dnorm(x)
df <- data.frame(x=x, y=y)

ggplot(df, aes(x=x, y=y)) + 
  geom_line() + 
  geom_segment(x=-1.96, y=dnorm(-1.96) * 1.5, xend=-1.96, yend=0) +
  geom_segment(x=1.96, y=dnorm(1.96) * 1.5, xend=1.96, yend=0) + 
  geom_segment(x=-1.96, y=dnorm(-1.96) * 1.3, xend=1.96, yend=dnorm(1.96) * 1.3, 
               arrow = arrow(ends = "both", type = "closed", length = unit(0.1, "inches"))) + 
  annotate("text", x = -1.86, y = -0.01, label = TeX("$-z_{\\alpha/2}$"), hjust = 1, vjust = 0, size = 3) +
  annotate("text", x = 2.06, y = -0.01, label = TeX("$z_{\\alpha/2}$"), hjust = 1, vjust = 0, size = 3) +
  annotate("text", x = 0.15, y = dnorm(-1.96) * 1.4, label = "Accept", hjust = 1, vjust = 0, size = 3) +
  theme_minimal() + 
  theme(axis.text = element_blank(),axis.title = element_blank())
图 8.1

习题 8.1习题 7.7 类似,假设从 A 地发射一个信号 \(\mu\) 到 B 地,在 B 接收到的信号的值服从均值为 \(\mu\)、方差为 4 的正态分布。也就是说,B 地接收到的信号会加入随机噪声、并且该随机噪声是服从 \(\mathcal{N}(0, 4)\) 的随机变量。现在,B 地的人怀疑今天 A 地发送的信号值为 \(\mu = 8\)。假设 A 地独立发送了 5 次该信号,且在 B 地接收到的信号的平均值为 \(\overline{X} = 9.5\)。请对 今天 A 地发送的信号值为 \(\mu = 8\) 这一假设进行检验。

习题 8.2 假设我们在 5% 的显著性水平下进行检验。首先,计算检验统计量:

\(\frac{\sqrt{n}}{\sigma} |\overline{X} - \mu_0| = \frac{\sqrt{5}}{2} (1.5) = 1.68\)

由于 1.68 小于 \(z_{0.025} = 1.96\),因此应该接受该假设。换句话说,因为当 A 地发射的信号真的为 8 时,那么会有 5% 的可能性发生像我们观察到的样本平均值偏离 8 的这种情况,但是这个比例并没有达到足以令我们拒绝原假设,所以观察到的数据与原假设并不矛盾。但是,如果我们选择了更不严格的显著性水平——比如 \(\alpha = 0.1\),此时,因为 1.68 大于 \(z_{0.05} = 1.645\),那么我们将拒绝原假设。因此,如果我们选择了 10% 的概率会错误的拒绝原假设的情况下(第 I 类错误),那么我们将拒绝原假设。

选择合适的显著性水平(\(\alpha\))并不是一个一成不变的标准,而是需要根据具体情况进行调整。例如,如果错误的拒绝实际为真的原假设 \(H_0\) 会导致巨大损失,那么我们可能会选择非常保守的显著性水平,此时可以选择 0.05 或 0.01 的显著性水平。此外,如果我们一开始就非常相信 \(H_0\) 是正确的,那么我们就需要设置一个非常严格的标准并要求有强有力的数据证据才能认为 \(H_0\) 是错误的。也就是说,在这种情况下,我们通常需要设置一个非常低的显著性水平(例如 0.01 或者更低)。\(\blacksquare\)

式 8.5 给出的 检验 的描述如下:对于检验统计量 \(\sqrt{n}|\overline{X} - \mu_0|/\sigma\) 的任何观测值——我们称其为 \(v\)——当 \(H_0\) 成立时,如果检验统计量大于或等于 \(v\) 的概率小于或等于显著性水平 \(\alpha\),则 检验 说明需要拒绝原假设 \(H_0\)

由此,我们可以通过以下步骤来确定是否接受原假设 \(H_0\)

  • 首先,计算检验统计量的值 \(v\)
  • 其次,计算标准正态分布(取绝对值)的概率,即标准正态分布中大于 \(v\) 的概率,我们称这一概率为检验的 \(p-\text{value}\)\(p-\text{value}\) 给出了临界显著性水平的意义,即如果 \(p-\text{value}\) 大于显著性水平 \(\alpha\),则接受 \(H_0\);如果 \(p-\text{value}\) 小于或等于显著性水平 \(\alpha\),则拒绝 \(H_0\)

在实际操作中,显著性水平往往不是预先设定的,而是会首先通过观察数据来确定 \(p-\text{value}\)

  • 有时,\(p-\text{value}\) 会明显大于我们愿意使用的任何显著性水平,因此我们可以非常轻松的就接受原假设 \(H_0\)
  • 而有时,\(p-\text{value}\) 值又非常小(甚至小于任何我们会使用到的显著性水平),因此显然我们应该拒绝该假设。

例 8.1习题 8.2 中,假设接收到的 5 个值的平均值为 \(\overline{X} = 8.5\)。在这种情况下,

\(\frac{\sqrt{n}}{\sigma} |\overline{X} - \mu_0| = \frac{\sqrt{5}}{4} = 0.559\)

因为

\(P\{|Z| > 0.559\} = 2P\{Z > 0.559\}= 2 \times 0.288 = 0.576\)

所以 \(p-\text{value}\) 为 0.576,因此信号值为 8 的原假设在任何显著性水平 \(\alpha < 0.576\) 下都将被接受。显然,我们绝不会使用一个高达 0.576 的显著性水平来检验原假设,因此我们将接受 \(H_0\)

另一方面,如果数据的平均值为 11.5,则检验均值为 8 的 \(p-\text{value}\) 值将为

\(P\{|Z| > 1.75\sqrt{5}\} = P\{|Z| > 3.913\} \approx 0.00005\)

对于如此小的\(p-\text{value}\),我们将拒绝信号值为 8 的原假设。\(\blacksquare\)

到现在为止,我们还没有讨论过 第 II 类错误 的概率——也就是在真实均值 \(\mu\) 不等于 \(\mu_0\) 时错误的接受原假设的概率。第 II 类错误 的概率取决于 \(\mu\) 的值,因此我们定义 \(\beta(\mu)\) 如下:

\(\begin{align}\beta(\mu) &= P_\mu\{\text{接受 } H_0\} \\ &=P_{\mu}\left\{\left|\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\right| \le z_{\alpha/2}\right\} \\ &=P_{\mu}\left\{-z_{\alpha/2} \le \frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\le z_{\alpha/2}\right\} \end{align}\)

我们称函数 \(\beta(\mu)\)Operating CharacteristicOC)Curve,\(\beta(\mu)\) 表示当真实均值为 \(\mu\) 时接受原假设 \(H_0\) 的概率。

为了计算这个概率,我们使用 \(\overline{X}\) 服从均值为 \(\mu\)、方差为 \(\sigma^2/n\) 的正态分布的事实,因此

\(Z \equiv \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim \mathcal{N}(0, 1)\)

因此,

\[ \begin{align} \beta(\mu) &= P_\mu\left\{-z_{\alpha/2} \leq \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right\} \\ &= P_\mu\left\{-z_{\alpha/2} \leq \frac{\overline{X} - \mu + \mu - \mu_0}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right\} \\ &= P_\mu\left\{-z_{\alpha/2} - \frac{\mu}{\sigma / \sqrt{n}} \leq \frac{\overline{X} - \mu - \mu_0}{\sigma/\sqrt{n}} \leq z_{\alpha/2} - \frac{\mu}{\sigma / \sqrt{n}} \right\} \\ &= P_\mu\left\{ -z_{\alpha/2} - \frac{\mu}{\sigma / \sqrt{n}} \leq Z - \frac{\mu_0}{\sigma/\sqrt{n}} \leq z_{\alpha/2} - \frac{\mu}{\sigma / \sqrt{n}} \right\} \\ &= P\left\{\frac{\mu_0 - \mu}{\sigma / \sqrt{n}} - z_{\alpha/2} \le Z \le \frac{\mu_0 - \mu}{\sigma / \sqrt{n}} + z_{\alpha/2}\right\} \\ &= \Phi\left(\frac{\mu_0 - \mu}{\sigma/\sqrt{n}} + z_{\alpha/2}\right) - \Phi\left(\frac{\mu_0 - \mu}{\sigma/\sqrt{n}} - z_{\alpha/2}\right) \end{align} \tag{8.6}\]

其中 \(\Phi\) 是标准正态分布函数。

对于固定的显著性水平 \(\alpha\),由 式 8.6 给出的 OC 曲线是关于 \(\mu_0\) 对称的,并且实际上仅通过 \(\sqrt{n}|\mu - \mu_0|/\sigma\) 而依赖于 \(\mu\)。当 \(\alpha = 0.05\) 时,这条曲线的横坐标由 \(\mu\) 改为 \(d = \sqrt{n}|\mu - \mu_0|/\sigma\),并且曲线如 图 8.2 所示。

代码
library(ggplot2)

# β(μ) 的计算函数
calculate_beta <- function(mu, mu0, sigma, n, alpha) {
  z_alpha = qnorm(1 - alpha / 2)
  d = sqrt(n) * (mu0 - mu) / sigma
  beta = pnorm(d + z_alpha) - pnorm(d - z_alpha)
  return(beta)
}

# 参数设置
mu0 <- 0        # 原假设的均值
sigma <- 3      # 标准差
n <- 10         # 样本大小
alpha <- 0.05   # 显著性水平

# 生成一系列 μ 的值
mu_values <- seq(-5, 5, by = 0.1)

# 计算每个 μ 对应的 β(μ)
beta_values <- sapply(mu_values, calculate_beta, mu0 = mu0, sigma = sigma, n = n, alpha = alpha)
d <- sqrt(n) / sigma * abs(mu0 - mu_values)

# 创建数据框用于绘图
df <- data.frame(mu = mu_values, d = d, beta = beta_values)

# 绘制 OC 曲线
ggplot(df, aes(x = d, y = beta)) +
  geom_line() +
  scale_x_continuous(limits = c(0, 5)) + 
  scale_y_continuous(limits = c(0, 1), breaks = seq(0, 1, 0.2)) +
  theme_minimal()
图 8.2: 显著性水平位 0.05 时双边正态分布检验的 OC 曲线图

例 8.2 对于 习题 8.2 中的问题,当实际发送的值为 10 时,计算接受原假设 \(\mu = 8\) 的概率?

# β(μ) 的计算函数
calculate_beta <- function(mu, mu0, sigma, n, alpha) {
  z_alpha = qnorm(1 - alpha / 2)
  d = sqrt(n) * (mu0 - mu) / sigma
  beta = pnorm(d + z_alpha) - pnorm(d - z_alpha)
  return(beta)
}

p <- calculate_beta(10, 8, 2, 5, 0.05)
p
[1] 0.3912205

\(\blacksquare\)

备注

我们称 \(1 - \beta(\mu)\)检验功效函数power-function of the test)。因此,对于给定的 \(\mu\) 值,检验功效 等于当 \(\mu\) 为真实值时拒绝原假设的概率。

在确定所需的随机样本大小以满足我们对 第 II 类错误 的某些特定要求的场景下,Operating Characteristic 函数非常有用。例如,假设我们希望确定所需的样本大小 \(n\),以确保当真实均值实际上为 \(\mu_1\) 时,接受原假设 \(H_0: \mu = \mu_0\) 的概率大约为 \(\beta\)。也就是说,我们希望找到 \(n\) 使得:

\(\beta(\mu_1) \approx \beta\)

但是,根据 式 8.6,我们可以推导出,如上的式子等价于

\[ \Phi \left(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} + z_{\alpha/2}\right) - \Phi \left(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} - z_{\alpha/2}\right) \approx \beta \quad \tag{8.7}\]

尽管无法直接对 式 8.7 进行求解并得到 \(n\),但可以使用标准正态分布表来求解得到 \(n\)。此外,还可以通过 式 8.7 推导出 \(n\) 的近似值 式 8.9

首先,假设 \(\mu_1 > \mu_0\),于是这意味着:

\(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} - z_{\alpha/2} \leq -z_{\alpha/2}\)

由于 \(\Phi\) 是一个递增函数,因此:

\(\Phi \left(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} - z_{\alpha/2}\right) \leq \Phi(-z_{\alpha/2}) = P\{Z \leq -z_{\alpha/2}\} = P\{Z \geq z_{\alpha/2}\} = \alpha/2\)

因此,我们可以取

\(\Phi \left(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} - z_{\alpha/2}\right) \approx 0\)

根据 式 8.7 可以得到:

\[ \beta \approx \Phi \left(\frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} + z_{\alpha/2}\right) \tag{8.8}\]

或者,由于

\(\beta = P\{Z > z_{\beta}\} = P\{Z < -z_{\beta}\} = \Phi(-z_{\beta})\)

根据 式 8.8 得到:

\(-z_{\beta} \approx \frac{\sqrt{n}(\mu_0 - \mu_1)}{\sigma} + z_{\alpha/2}\)

即:

\[ n \approx \frac{(z_{\alpha/2} + z_{\beta})^2 \sigma^2}{(\mu_1 - \mu_0)^2} \tag{8.9}\]

事实上,当 \(\mu_1 < \mu_0\) 时,我们会得到近似相同的结果(留作习题),因此,在任何情况下 式 8.9 都是如下场景的一个合理的近似值:

  • 估计所需的样本大小,以确保当真实均值为 \(\mu = \mu_1\) 时,第 II 类错误 的概率大约等于 \(\beta\)

习题 8.3 对于 习题 8.2 的问题,在 0.05 的显著性水平下,当 \(\mu\) 实际为 9.2 时,需要发送多少次信号才能使得原假设 \(H_0: \mu = 8\) 至少有 75% 的概率被拒绝?

解 8.1. 由于 \(z_{.025} = 1.96\)\(z_{0.25} = .67\),根据 式 8.9 有:

\(n \approx \frac{(1.96 + 0.67)^2}{(1.2)^2} 4 \approx 19.21\)

因此需要一个大小为 20 的样本。

根据方程 式 8.6,当 \(n = 20\) 时,

\(\begin{align} \beta(9.2) &= \Phi \left(-\frac{1.2\sqrt{20}}{2} + 1.96\right) - \Phi \left(-\frac{1.2\sqrt{20}}{2} - 1.96\right) \\ & \approx \Phi(-0.723) - \Phi(-4.643) \\ & \approx 1 - \Phi(0.723) \\ & \approx 0.235 \end{align}\)

# β(μ) 的计算函数
calculate_beta <- function(mu, mu0, sigma, n, alpha) {
  z_alpha = qnorm(1 - alpha / 2)
  d = sqrt(n) * (mu0 - mu) / sigma
  beta = pnorm(d + z_alpha) - pnorm(d - z_alpha)
  return(beta)
}

p <- calculate_beta(9.2, 8, 2, 20, 0.05)
p
[1] 0.2347407

因此,如果发送消息 20 次,那么当真实均值为 9.2 时,有 76.5% 的概率会拒绝原假设 \(\mu = 8\)\(\blacksquare\)

8.3.1.1 单边检验

在检验原假设 \(\mu = \mu_0\) 时,我们选择了一种检验以使得在 \(\overline{X}\) 远离 \(\mu_0\) 时拒绝原假设。也就是说,和 \(\mu_0\) 相比,\(\overline{X}\)\(\mu\) 的估计量)的一个非常小的值或非常大的值似乎使得 \(\mu\) 不可能等于 \(\mu_0\)。然而,当 \(\mu\) 等于 \(\mu_0\) 的唯一 备择假设\(\mu > \mu_0\) 时会发生什么呢?也就是说,当 备择假设\(H_1: \mu > \mu_0\) 时会发生什么?显然,此时,在 \(\overline{X}\) 很小(与 \(\mu\) 相比)时,\(H_0\) 为真比 \(H_1\) 为真更有可能发生。因此,此时,我们不希望拒绝 \(H_0\)

因此,对于 式 8.10 的检验

\[ H_0: \mu = \mu_0 \quad vs. \quad H_1: \mu > \mu_0 \tag{8.10}\]

\(\mu_0\) 的点估计 \(\overline{X}\) 远大于 \(\mu_0\) 时,我们应该拒绝 \(H_0\)。这意味着,临界区 应如下所示:

\(C = \{(X_1, \dots, X_n) : \overline{X} - \mu_0 > c\}\)

由于当 \(H_0\) 为真时,拒绝原假设的概率应该等于 \(\alpha\),因此 \(c\) 需要满足:

\[ P_{\mu_0}\{\overline{X} - \mu_0 > c\} = \alpha \tag{8.11}\]

\(H_0\) 为真时,\(Z\) 服从标准正态分布:

\(Z = \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} = \sqrt{n}\frac{(\overline{X} - \mu_0)}{\sigma}\)

所以,式 8.11 等价于:

\(P\left\{Z > \frac{c\sqrt{n}}{\sigma}\right\} = \alpha\)

由于

\(P\{Z > z_{\alpha}\} = \alpha\)

所以有:

\[ c = \frac{z_{\alpha}\sigma}{\sqrt{n}} \tag{8.12}\]

因此,假设 式 8.10 的检验是当 \(\overline{X} - \mu_0 > z_{\alpha} \sigma / \sqrt{n}\) 时拒绝 \(H_0\),否则接受 \(H_0\)。即:

\[ \begin{align} &\text{接受} \ H_0 \quad \text{如果} \frac{\sqrt{n}}{\sigma} (\overline{X} - \mu_0) \leq z_{\alpha} \\ &\text{拒绝} \ H_0 \quad \text{如果} \frac{\sqrt{n}}{\sigma} (\overline{X} - \mu_0) \gt z_{\alpha} \\ \end{align} \tag{8.13}\]

因为仅在 \(\overline{X}\) 较大时才会拒绝原假设,所以 式 8.13 称之为 单边临界区域one-sided critical region)。相应地,与 备择假设\(H_1: \mu \neq \mu_0\) 的双边检验问题相比,式 8.14 所示的假设检验问题也称之为 单边检验问题

\[ \begin{align} H_0: &\mu = \mu_0 \\ H_1: & \mu > \mu_0 \end{align} \tag{8.14}\]

为了计算 单边检验 中的 \(p-\text{value}\),我们

  • 首先使用观测数据确定统计量 \(\frac{\sqrt{n}(\overline{X} - \mu_0)}{\sigma}\) 的值。
  • 然后,\(p-\text{value}\) 等于标准正态分布中大于等于该值的概率。

习题 8.4 假设在 习题 8.2 中,我们预先知道信号值至少是 8,那么在这种情况下可以得出什么结论?

解 8.2. 为了判断观察到的数据是否与均值为 8 的假设一致,我们做如下的检验:

\(\begin{align}H_0: &\mu = 8 \\ H_1: &\mu > 8 \end{align}\)

单边检验统计量的值为:

\(\sqrt{n} \frac{(\overline{X} - \mu_0)}{\sigma} = \sqrt{5} \frac{(9.5 - 8)}{2} = 1.68\)

并且 \(p-\text{value}\) 为标准正态分布超过 1.68 的概率,即

\(p-\text{value} = 1 - \Phi(1.68) = 0.0465\)

该检验将在所有大于或等于 0.0465 的显著性水平下拒绝原假设。例如,如果显著性水平 \(\alpha = 0.05\),那么我们将拒绝原假设。 \(\blacksquare\)

式 8.13 所示的单边检验的 Operating Characteristic 函数 \(\beta(\mu) = P_{\mu}\{\text{接受} H_0\}\) 为:

\(\begin{align} \beta(\mu) &= P_{\mu}\left\{ \overline{X} \leq \mu_0 + z_{\alpha}\frac{\sigma}{\sqrt{n}} \right\} \\ &= P\left\{ \frac{\sqrt{n}(\overline{X} - \mu_0)}{\sigma} \leq \frac{\sqrt{n}(\mu_0 - \mu)}{\sigma} + z_{\alpha} \right\} \\ &= P\left\{ Z \leq \frac{\sqrt{n}(\mu_0 - \mu)}{\sigma} + z_{\alpha} \right\}, \quad Z \sim N(0, 1) \end{align}\)

即:

\(\beta(\mu) = \Phi \left( \frac{\sqrt{n}(\mu_0 - \mu)}{\sigma} + z_{\alpha} \right)\)

由于 \(\Phi\) 是概率分布函数,因此 \(\Phi\) 随着自变量的增加而递增,所以从直觉而言:\(\beta(\mu)\)\(\mu\) 的增加而减少是合理的。显然,当真实均值 \(\mu\) 越大时,\(\mu \leq \mu_0\) 的可能性就越小。此外,由于 \(\Phi(z_{\alpha}) = 1 - \alpha\),因此

\(\beta(\mu_0) = 1 - \alpha\)

最初用于检验 \(H_0: \mu = \mu_0 \ vs. \ H_1: \mu > \mu_0\)式 8.13 也可以用于:在显著性水平 \(\alpha\) 下,如下假设的单边检验:

\[ H_0: \mu \leq \mu_0 \quad vs. \quad H_1: \mu > \mu_0 \tag{8.15}\]

为了验证它仍然是在显著性水平为 \(\alpha\) 下的检验,我们需要证明:当 \(H_0\) 为真时,拒绝原假设的概率不超过 \(\alpha\)。也就是说,我们必须验证:

\(1 - \beta(\mu) \leq \alpha , \quad \quad \forall \mu \leq \mu_0\)

或者

\(\beta(\mu) \geq 1 - \alpha , \quad \quad \forall \mu \leq \mu_0\)

之前已经证明,对于由方程 式 8.13 给出的检验,\(\beta(\mu)\)\(\mu\) 的增加而减少,且 \(\beta(\mu_0) = 1 - \alpha\)。于是:

\(\beta(\mu) \geq \beta(\mu_0) = 1 - \alpha , \quad \quad \forall \mu \leq \mu_0\)

这表明由 式 8.13 给出的检验在显著性水平 \(\alpha\) 下,对 \(H_0: \mu \leq \mu_0 \quad vs. \quad H_1: \mu > \mu_0\) 仍然是一个 显著性水平为 \(\alpha\) 的检验。

备注

我们还可以在在显著性水平 \(\alpha\) 下对如下的假设

\(H_0: \mu = \mu_0 \quad (\text{或} \quad \mu \geq \mu_0) \quad vs \quad H_1: \mu < \mu_0\)

做出如下的单边检验:

\(\begin{align} \text{接受 } H_0, & \quad \text{如果} \quad \frac{\sqrt{n}}{\sigma}(\overline{X} - \mu_0) \geq -z_{\alpha} \\ \text{拒绝 } H_0, & \quad \text{其他} \end{align}\)

可以通过首先计算检验统计量 \(\frac{\sqrt{n}(\overline{X} - \mu_0)}{\sigma}\) 来进行该检验。\(p-\text{value}\) 等于标准正态分布小于 \(\frac{\sqrt{n}(\overline{X} - \mu_0)}{\sigma}\) 的概率,当 \(p-\text{value}\) 小于任何的显著性水平时,我们将拒绝原假设。

习题 8.5 目前,市场上的所有香烟的平均尼古丁含量至少为 1.6 毫克/支。一家生产香烟的公司声称,他们发现了一种新的烟草叶处理方法,这种方法会使香烟的平均尼古丁含量低于 1.6 毫克/支。为了测试这家公司的这一说法,我们分析了该公司的 20 支香烟的样本。已知一支香烟的尼古丁含量的标准差为 0.8 毫克,如果 20 支香烟的平均尼古丁含量为 1.54/支,那么在显著性水平为 5% 的情况下,可以得出什么结论?

注意:如上问题中有一个问题,即我们如何事先知道标准差为 0.8。一个可能性是,香烟尼古丁含量的变化源自每支香烟中的烟草量的变化,而不是使用的处理方法。因此,可以从以往的经验中得知香烟中尼古丁含量的标准差。

解 8.3. 我们必须首先确定适当的原假设。如前所述,我们的检验方法在对原假设和备择假设的处理上是不对称的,因为我们只考虑那些在原假设为真时拒绝原假设的概率永远不会超过显著性水平 \(\alpha\) 的检验。因此,拒绝原假设是对数据与此假设不一致的强烈陈述,而当接受原假设时,并不能做出类似的陈述。因此,我们希望仅在有充分证据支持生产商的说法时才能接受生产商的说法,因此我们应将生产商的说法作为备择假设。也就是说,我们应该检验:

\(H_0: \mu \geq 1.6 \quad vs \quad H_1: \mu < 1.6\)

此时,检验统计量的值为

\(\frac{\sqrt{n}(\overline{X} - \mu_0)}{\sigma} = \frac{\sqrt{20}(1.54 - 1.6)}{0.8} = -0.336\)

因此,\(p\) 值为

\(\text{p-value} = P\{Z < -0.336\} = 0.368\)

由于 \(\text{p-value}\) 大于 0.05,因此在显著性水平为 5% 的情况下,样本数据不足以拒绝平均尼古丁含量超过 1.6 毫克的假设。换句话说,尽管样本数据支持了香烟生产商的说法,但尚不足以证明应该接受生产商的说法。 \(\blacksquare\)

备注
  • 置信区间估计假设检验 之间有直接的类比关系。例如,对于均值为 \(\mu\)、方差为 \(\sigma^2\)(已知)的正态分布总体,正如我们在 小节 7.3 中所述,\(\mu\)\(100(1 - \alpha)\%\) 置信区间为:

    \(\mu \in \left( \overline{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \, \overline{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)\)

    其中 \(\overline{X}\) 是观测到的样本均值。更正式地,前述置信区间等价于:

    \(P \left\{ \mu \in \left( \overline{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \, \overline{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) \right\} = 1 - \alpha\)

    因此,如果 \(\mu = \mu_0\),则 \(\mu_0\) 落在区间

    \(\left( \overline{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \, \overline{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)\)

    的概率是 \(1 - \alpha\),这意味着显著性水平为 \(\alpha\) 的假设——\(H_0: \mu = \mu_0 \quad vs \quad H_1: \mu \neq \mu_0\) 的检验是:

    \(\mu_0 \notin \left( \overline{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \, \overline{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)\) 时拒绝 \(H_0\)

    类似地,\(\mu\)\(100(1 - \alpha)\%\) 单边置信区间由下式给出:

    \(\mu \in \left( \overline{X} - z_{\alpha}\frac{\sigma}{\sqrt{n}}, \, \infty \right)\)

    因此,显著性水平为 \(\alpha\) 的假设——\(H_0: \mu \leq \mu_0 \quad vs \quad H_1: \mu > \mu_0\) 的检验是:

    \(\mu_0 \notin \left( \overline{X} - z_{\alpha}\frac{\sigma}{\sqrt{n}}, \, \infty \right)\)(即,\(\mu_0 < \overline{X} - z_{\alpha}\frac{\sigma}{\sqrt{n}}\)) 时拒绝 \(H_0\)

  • 关于稳健性(robustness)的说明:统计检验通常基于一些前提条件或假设(例如样本来自正态分布、方差是已知的等),当这些前提条件或假设并不满足的时候,某个检验仍能有良好的表现,那么我们认为该检验是稳健(robust)的。例如,小节 8.3.1小节 8.3.1.1 中的检验都是基于如下的假设:总体分布是方差为 \(\sigma^2\) 的正态分布。然而,在推导这些检验时,这个假设仅用于得出:\(\overline{X}\) 也服从正态分布。但是,由中心极限定理(定理 6.1)可知,当样本量足够大时,无论总体服从什么分布,\(\overline{X}\) 都将近似服从正态分布。因此,我们可以得出结论,这些检验对于任何方差为 \(\sigma^2\) 的总体分布都将是相对稳健的。

表 8.1 对本节的假设检验进行了总结。

表 8.1: \(X_1, \dots, X_n\) 是来自 \((\mu, \sigma^2)\) 的总体,其中 \(\sigma^2\) 是已知的,\(\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i\)\(Z\) 是标准正态分布随机变量
\(H_0\) \(H_1\) 检验统计量(Test Statistic\(TS\) 在显著性水平 \(\alpha\) 下的检验 \(TS=t\) 时的 \(p-\text{value}\)
\(\mu = \mu_0\) \(\mu \neq \mu_0\) \(\sqrt{n}\frac{(\overline{X} - \mu_0)}{\sigma}\) 拒绝 \(H_0\) 如果 \(|TS| > z_{\alpha/2}\) \(2P\{Z \geq |t|\}\)
\(\mu \leq \mu_0\) \(\mu > \mu_0\) \(\sqrt{n}\frac{(\overline{X} - \mu_0)}{\sigma}\) 拒绝 \(H_0\) 如果 \(TS > z_{\alpha}\) \(P\{Z \geq t\}\)
\(\mu \geq \mu_0\) \(\mu < \mu_0\) \(\sqrt{n}\frac{(\overline{X} - \mu_0)}{\sigma}\) 拒绝 \(H_0\) 如果 \(TS < -z_{\alpha}\) \(P\{Z \leq t\}\)

8.3.2 方差未知的场景:\(t-\text{检验}\)

到目前为止,我们假设正态分布总体的唯一未知参数是其均值。然而,更常见的情况是均值 \(\mu\) 和方差 \(\sigma^2\) 都未知。假设在这种情况下,再次考虑检验均值等于某个指定值 \(\mu_0\) 的假设。即考虑以下假设检验:

\(H_0: \mu = \mu_0 \quad vs \quad H_1: \mu \neq \mu_0\)

需要注意的是,此时,因为我们并没有有指定 \(\sigma^2\) 的值,因此原假设并不是一个 简单假设小节 8.2)。

小节 8.3.1 一样,当样本均值 \(\overline{X}\) 远离 \(\mu_0\) 时,拒绝 \(H_0\) 是合理的。然而,样本均值 \(\overline{X}\) 需要远离 \(\mu_0\) 多远才能合理地拒绝 \(H_0\) 取决于方差 \(\sigma^2\)(参见 式 8.4)。如 式 8.5\(\sigma^2\) 已知时,当 \(|\overline{X} - \mu_0|\) 超过 \(z_{\alpha/2}\sigma/\sqrt{n}\) 时,检验会拒绝 \(H_0\),即当:

\(\frac{\sqrt{n}|\overline{X} - \mu_0|}{\sigma} > z_{\alpha/2}\)

时拒绝 \(H_0\)

现在,当 \(\sigma^2\) 未知时,需要先估计 \(\sigma^2\)

\(S^2 = \frac{\sum_{i=1}^{n} (X_i - \overline{X})^2}{n-1}\)

然后,当

\(\frac{|\overline{X} - \mu_0|}{S/\sqrt{n}}\)

较大时拒绝 \(H_0\)

为了确定在显著性水平 \(\alpha\) 下, 检验统计量

\(\frac{\sqrt{n}|\overline{X} - \mu_0|}{S}\)

需要大到什么程度时才能拒绝 \(H_0\),我们必须确定当 \(H_0\) 为真时该统计量的概率分布。然而,如 小节 6.5 中的 推论 6.1 所述,当 \(\mu = \mu_0\) 时,下式定义的统计量 \(T\) 服从自由度为 \(n-1\)\(t-\text{分布}\)

\(T = \frac{\sqrt{n}(\overline{X} - \mu_0)}{S}\)

因此,

\[ P_{\mu_0}\left\{ -t_{\alpha/2, n-1} \leq \frac{\sqrt{n}(\overline{X} - \mu_0)}{S} \leq t_{\alpha/2, n-1} \right\} = 1 - \alpha \tag{8.16}\]

其中 \(t_{\alpha/2, n-1}\) 是自由度为 \(n-1\)\(t\) 分布在 \(\left (100 \frac{\alpha}{2} \right) \%\) 处的上百分位数。

因此,从 式 8.16 中,我们可以看出,当 \(\sigma^2\) 未知的情况时,在适当的显著性水平 \(\alpha\) 下的

\(H_0: \mu = \mu_0 \quad vs \quad H_1: \mu \neq \mu_0\)

的检验为:

\[ \begin{align} \text{接受} \ H_0, &\quad \text{如果} \quad \frac{\sqrt{n}|\overline{X} - \mu_0|}{S} \leq t_{\alpha/2, n-1} \\ \text{拒绝} \ H_0, &\quad \text{如果} \quad \frac{\sqrt{n}|\overline{X} - \mu_0|}{S} \gt t_{\alpha/2, n-1} \end{align} \tag{8.17}\]

我们称 式 8.17 定义的检验为 双边 \(t-\text{检验}\)two-sided t-test),如 图 8.3 所示。

图 8.3: 双边 \(t-\text{检验}\)

如果我们用 \(t\) 表示检验统计量 \(T = \sqrt{n}(\overline{X} - \mu_0)/S\) 的观察值,那么检验的 \(p-\text{value}\) 是当 \(H_0\) 为真时,\(|T|\) 超过 \(|t|\) 的概率。也就是说,\(p-\text{value}\) 是自由度为 \(n - 1\)\(t-\text{分布}\) 的绝对值超过 \(|t|\) 的概率。因此,检验要求在所有的显著性水平均大于 \(p-\text{value}\) 时拒绝原假设,同时在所有的显著性水平均小于 \(p-\text{value}\) 时接受原假设。

习题 8.6 一家诊所的患者的血液胆固醇水平范围为中高水平(即血清中胆固醇至少为 220 毫升/分升),从这些患者中招募了 50 名志愿者来测试一种用于降低血液胆固醇的新药。这 50 名志愿者服用了 1 个月的新药,并记录了他们的血液胆固醇水平的变化。如果他们的血液胆固醇平均降低了 14.8,并且样本标准差为 6.4,可以得出什么结论?

解 8.4. 首先检验该变化可能完全是由偶然因素引起的假设——即这 50 个样本的变化构成了一个均值为 0 的正态分布样本。因为用于检验正态分布均值等于 0 的假设的 \(T-\text{统计量}\) 的值是

\(T = \frac{\sqrt{n} \overline{X}}{S} = \frac{\sqrt{50} \cdot 14.8}{6.4} = 16.352\)

很明显,我们应该拒绝该变化完全是由偶然因素引起的假设。

然而,不幸的是,此时我们还不能得出结论:这些变化是由于特定药物而不是其他因素引起的。例如,众所周知,任何药物(无论该药物是否直接与患者的病痛相关)通常都会导致患者病情的改善——即所谓的 安慰剂效应placebo effect)。此外,另一个需要考虑的可能性是测试期间的天气情况,因为可以合理地认为天气会影响血液胆固醇水平。

确实,必须得出结论:上述的实验设计非常不合理。为了测试某种治疗方式是否对可能受多种因素影响的疾病有作用,我们应该尝试设计实验,以避免所有其他可能因素带来的影响。实现这一目标的公认方法是将志愿者随机分成两组:一组复用新药物,另一组服用安慰剂(即一种看起来像实际药物但没有生理作用的药片)。志愿者不应该知道他们是在实验组还是对照组中,实际上,如果连临床医生都不知道这些信息(即所谓的 双盲试验double-blind test)),那就更好了。此时,无论是志愿者还是临床医生,他们自己的偏见都无法在实验中发挥作用。由于这两组人员是从志愿者中随机选出的,我们现在可以认为:除了一组接受了新药而另一组接受了安慰剂之外,影响这两组的所有因素都是相同的。因此,这两组之间表现出的任何差异都可以归因于新药。\(\blacksquare\)

习题 8.7 一位公共卫生官员声称,家庭的平均用水量为每天 350 加仑。为了验证这一说法,对 20 户随机选定的家庭进行了研究,结果这些家庭的平均每日用水量如下:

340, 344, 362, 375,
356, 386, 354, 364,
332, 402, 340, 355,
362, 322, 372, 324,
318, 360, 338, 370

这些数据是否与该官员的说法相矛盾?

解 8.5. 为了确定这些数据是否与官员的说法相矛盾,我们需要检验:

\(H_0: \mu = 350 \quad vs \quad H_1: \mu \neq 350\)

首先计算样本数据集的样本均值和样本标准差:

\(\overline{X} = 353.75, \quad S = 21.82436\)

因此,检验统计量的值为:

\(T = \frac{\sqrt{20} (3.75)}{21.82436} = 0.7684308\)

因为这个值小于 \(|t_{0.05, 19}| = 1.730\),所以在 10% 的显著性水平下,接受原假设。实际上,检验数据的 \(p-\text{value}\) 为:

\(p-\text{value} = P\{ |T_{19}| > 0.7684308 \} = 2P\{ T_{19} > 0.7684308 \} = 0.4517\)

这表明在任何合理的显著性水平下,都会接受原假设,因此数据与该公共卫生官员的说法并不矛盾。 \(\blacksquare\)

可以使用 R 来计算 \(t-\text{检验}\)。当数据位 \(x_1, ..., x_n\) 时,为了检验均值 \(\mu\) 等于 \(\mu_0\) 的原假设与均值 \(\mu\) 不等于 \(\mu_0\) 的备择假设,可以使用如下的 R 代码:

x <- c(x1, ..., xn)
t.test(x, mu = mu0)

如上的代码会返回 \(\mu\) 的 95% 的置信区间以及原假设为真时的 \(p-\text{value}\)。我们可以使用如下的代码来计算 习题 8.7

x <- c(340, 356, 332, 362, 318, 344, 386, 402, 322, 360, 362, 354, 340, 372, 338, 375, 363, 355, 324, 370)
t.test(x, mu = 350)

    One Sample t-test

data:  x
t = 0.76843, df = 19, p-value = 0.4517
alternative hypothesis: true mean is not equal to 350
95 percent confidence interval:
 343.5359 363.9641
sample estimates:
mean of x 
   353.75 
注记

此处与原书中的结果存在一定差异,请务必注意。

我们可以使用 单边 \(t-\text{检验}\) 来检验假设

\(H_0: \mu = \mu_0 \quad (\text{或 } H_0: \mu \leq \mu_0) \quad vs \quad H_1: \mu > \mu_0\)

显著性水平为 \(\alpha\) 的检验是:

\[ \begin{align} \text{接受} H_0 &, \quad \text{如果} \frac{\sqrt{n}(\overline{X} - \mu_0)}{S} \leq t_{\alpha, n-1} \\ \text{拒绝} H_0 &, \quad \text{如果} \frac{\sqrt{n}(\overline{X} - \mu_0)}{S} > t_{\alpha, n-1} \end{align} \tag{8.18}\]

如果 \(\frac{\sqrt{n}(\overline{X} - \mu_0)}{S} = v\),那么该检验的 \(p-\text{value}\) 是自由度为 \(n-1\)\(t-\text{分布}\) 随机变量的值大于等于 \(v\) 的概率,即 \(1 - pt(v, n - 1)\)

假设: \(H_0: \mu = \mu_0 \quad (\text{或 } H_0: \mu \geq \mu_0) \quad vs \quad H_1: \mu < \mu_0\)

在显著性水平为 \(\alpha\) 下的检验是:

\[ \begin{align} \text{接受 } H_0 &, \quad \text{ 如果 } \frac{\sqrt{n}(\overline{X} - \mu_0)}{S} \geq -t_{\alpha, n-1} \\ \text{拒绝 } H_0 &, \quad \text{ 如果 } \frac{\sqrt{n}(\overline{X} - \mu_0)}{S} < -t_{\alpha, n-1} \end{align} \tag{8.19}\]

该检验的 \(p-\text{value}\) 是自由度为 \(n-1\)\(t-\text{分布}\) 随机变量的值小于或等于观测值 \(\frac{\sqrt{n}(\overline{X} - \mu_0)}{S}\) 的概率,即 \(pt(v, n - 1)\)

习题 8.8 新型玻璃纤维轮胎的制造商声称他们生产的轮胎的平均寿命至少为 40,000 英里。为了验证这一说法,测试了 12 条轮胎,其寿命(以千英里为单位)如下:

轮胎序号 1 2 3 4 5 6 7 8 9 10 11 12
寿命 36.1 40.2 33.8 38.5 42 35.8 37 41 36.8 37.2 33 36

在 5% 的显著性水平下,检验制造商的说法。

解 8.6. 为了确定上述数据是否与制造商生成的其产品的平均寿命至少为 40,000 英里的假设一致,我们将检验

\(H_0: \mu \geq 40,000 \quad vs \quad H_1: \mu < 40,000\)

计算得出

\(\overline{X} = 37.2833, \quad S = 2.7319\)

因此,检验统计量的值为

\(T = \frac{\sqrt{12}(37.2833 - 40)}{2.7319} = -3.4448\)

由于 -3.4448 小于 \(t_{0.05, 11} = -1.796\),因此在 5% 的显著性水平下需要拒绝原假设。实际上,观察数据的 \(p-\text{value}\)

\(p-\text{value} = P\{ T_{11} < -3.4448 \} = P\{ T_{11} > 3.4448 \} = 0.0027\)

这表明在任何大于 0.003 的显著性水平下,我们都将拒绝制造商的说法。 \(\blacksquare\)

通过 R 提供的 单边 \(t-\text{检验}\) 函数也可以解决 习题 8.8 的问题。在 R 中,通过指定备择假设是均值小于或大于 \(\mu_0\) 来执行单边 \(t-\text{检验}\)。也就是说,当数据为 \(x_1, ..., x_n\) 时,可以使用如下 R 代码对 \(H_0: \mu = \mu_0 \quad vs \quad H_1: \mu > \mu_0\) 进行单边 \(t-\text{检验}\)

x <- c(x1,...,xn)
t.test(x,  mu = mu0, alternative ="less")

例如,对于 习题 8.8 而言,可以使用如下 R 代码:

x <- c(36.1, 40.2, 33.8, 38.5, 42, 35.8, 37, 41, 36.8, 37.2, 33, 36)
t.test(x, mu = 40, alternative = "less")

    One Sample t-test

data:  x
t = -3.4448, df = 11, p-value = 0.002739
alternative hypothesis: true mean is less than 40
95 percent confidence interval:
     -Inf 38.69963
sample estimates:
mean of x 
 37.28333 

习题 8.9 对于一个单服务窗口的排队系统而言,如果到达的客户数量服从泊松分布,那么客户的平均排队时间取决于为客户服务时间的均值和方差。确实,如果 \(\mu\) 是服务时间的均值,\(\sigma^2\) 是服务时间的方差,那么客户在排队中花费的平均时间将由以下公式给出:

\(\frac{\lambda (\mu^2 + \sigma^2)}{2(1 - \lambda \mu)}\)

其中 \(\lambda \mu < 1\),并且 \(\lambda\) 是到达率。如果 \(\lambda \mu \geq 1\),则平均等待时间将是无限等待。因为 \(\lambda\) 是到达率,\(1/\lambda\) 是到达之间的平均时间,因此根据如上的公式可见,当 \(\mu\) 仅略小于 \(1/\lambda\) 时,平均延迟还相当大。

假设服务站的平均服务时间(每人)超过 8 分钟,那么该服务站的主管就会雇用第二名服务人员。以下数据给出了该排队系统中 28 位客户的服务时间(以分钟为单位),这些数据是否表明该服务站的平均服务时间超过 8 分钟?

8.6, 9.4, 5.0, 4.4, 3.7, 11.4, 10.0, 7.6, 14.4, 12.2, 11.0, 14.4, 9.3, 10.5, 10.3, 7.7, 8.3, 6.4, 9.2, 5.7, 7.9, 9.4, 9.0, 13.3, 11.6, 10.0, 9.5, 6.6

解 8.7. 使用上述数据来检验服务时间的均值小于或等于 8 分钟的原假设。一个较小的 \(p-\text{value}\) 将是平均服务时间超过 8 分钟的有力证据。利用 t.test() 对如上数据进行 \(t-\text{检测}\) 得到:检验统计量的值为 2.257,\(p-\text{value}\) 为 0.016。如此小的 \(p-\text{value}\) 无疑是平均服务时间超过 8 分钟的有力证据。

x <- c(8.6, 9.4, 5.0, 4.4, 3.7, 11.4, 10.0, 7.6, 14.4, 12.2, 11.0, 14.4, 9.3, 10.5, 10.3, 7.7, 8.3, 6.4, 9.2, 5.7, 7.9, 9.4, 9.0, 13.3, 11.6, 10.0, 9.5, 6.6)
t.test(x, mu = 8, alternative = "greater")

    One Sample t-test

data:  x
t = 2.2575, df = 27, p-value = 0.01613
alternative hypothesis: true mean is greater than 8
95 percent confidence interval:
 8.287595      Inf
sample estimates:
mean of x 
 9.171429 

\(\blacksquare\)

表 8.2 对本节的内容进行了总结。

表 8.2: \(X_1, \dots, X_n\) 是来自方差未知的 \((\mu, \sigma^2)\) 总体,\(\overline{X} = \sum_{i=1}^{n} X_i/n\)\(S^2 = \sum_{i=1}^{n}(X_i - \overline{X})^2 / (n-1)\)\(T_{n-1}\) 是自由度为 \(n-1\)\(t-\text{分布}\) 随机变量,\(P\{T_{n-1} > t_{\alpha, n-1}\} = \alpha\)
\(H_0\) \(H_1\) 统计量 TS 在显著性水平为 \(\alpha\) 时的检验 \(p-\text{value}\)
\(\mu = \mu_0\) \(\mu \neq \mu_0\) \(\sqrt{n}(\overline{X} - \mu_0)/S\) 拒绝 \(H_0\) 如果, \(|TS| > t_{\alpha/2, n-1}\) \(2P\{T_{n-1} \geq |t|\}\)
\(\mu \leq \mu_0\) \(\mu > \mu_0\) \(\sqrt{n}(\overline{X} - \mu_0)/S\) 拒绝 \(H_0\) 如果, \(TS > t_{\alpha, n-1}\) \(P\{T_{n-1} \geq t\}\)
\(\mu \geq \mu_0\) \(\mu < \mu_0\) \(\sqrt{n}(\overline{X} - \mu_0)/S\) 拒绝 \(H_0\) 如果, \(TS < -t_{\alpha, n-1}\) \(P\{T_{n-1} \leq t\}\)

8.4 检验两个正态分布的均值是否相等

确定两种不同的方法是否会得出相同的结果是工程师在实践中经常遇到的一个场景。通常可以通过 假设检验 来对这种场景建模——检验两个正态分布的总体是否具有相同的均值。

8.4.1 方差已知的场景

假设 \(X_1, \dots, X_n\)\(Y_1, \dots, Y_m\) 是来自两个正态分布总体的、相互独立的样本,这两个总体的均值 \(\mu_x\)\(\mu_y\) 均未知,但方差 \(\sigma_x^2\)\(\sigma_y^2\) 已知。现在考虑检验以下假设:

\(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \neq \mu_y\)

由于 \(\overline{X}\)\(\mu_x\) 的估计值,\(\overline{Y}\)\(\mu_y\) 的估计值,因此 \(\overline{X} - \overline{Y}\) 可以用来估计 \(\mu_x - \mu_y\)。因此,原假设可以写作:\(H_0: \mu_x - \mu_y = 0\),并且当 \(\overline{X} - \overline{Y}\) 远大于 0 时,拒绝原假设 \(H_0\) 是合理的。因此,对于某个合适的 \(c\) 而言,检验如下所示:

\[ \begin{align} \text{拒绝} H_0 &, \quad \text{如果} \left | \overline{X} - \overline{Y}\right | > c \\ \text{接受} H_0 &, \quad \text{如果} \left | \overline{X} - \overline{Y}\right | \le c \end{align} \tag{8.20}\]

为了确定令 式 8.20 可以满足显著性水平为 \(\alpha\)\(c\) 的值,我们需要确定当 \(H_0\) 为真时 \(\overline{X} - \overline{Y}\) 的分布。如我们在 小节 7.4 中所述:

\[ \overline{X} - \overline{Y} \sim \left(\mu_x - \mu_y, \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}\right) \]

即(式 7.5):

\[ \frac{\overline{X} - \overline{Y} - (\mu_x - \mu_y)}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \sim N(0, 1) \tag{8.21}\]

因此,当 \(H_0\) 为真时,\(\mu_x - \mu_y = 0\),所以 \(\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}}\) 服从标准正态分布。于是:

\[ P_{H_0}\left\{-z_{\alpha/2} \leq \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \leq z_{\alpha/2}\right\} = 1 - \alpha \tag{8.22}\]

由此,根据 式 8.22,我们可以得出显著性水平为 \(\alpha\) 时,\(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \neq \mu_y\) 的检验标准为:

\[ \begin{align} \text{接受} H_0, &\quad \text{如果} \frac{\left|\overline{X} - \overline{Y}\right|}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \leq z_{\alpha/2} \\ \text{拒绝} H_0, &\quad \text{如果} \frac{\left|\overline{X} - \overline{Y}\right|}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \geq z_{\alpha/2} \end{align} \tag{8.23}\]

习题 8.10 如果现在新提出了两种轮胎生产方法,为了确定哪种生产方法更好,轮胎制造商使用第一种方法生产了 10 个轮胎,使用第二种方法生产了 8 个轮胎。使用第一种方法生产的轮胎在 A 地进行道路测试,使用第种方法生产的轮胎在 B 地测试。已知轮胎在这两个地点的寿命服从正态分布,其均值与轮胎质量有关,但方差主要由测试的地点决定。具体而言,A 地轮胎寿命的标准差为 4000 公里,B 地的标准差为 6000 公里。如果制造商希望检验这两种方法生产的轮胎的平均寿命是否无显著差异,那么在显著性水平为 5% 的情况下,我们可以从 表 8.3 的数据中得出什么结论?

表 8.3: 不同地点轮胎的寿命(单位为100公里)
在 A 地测试的轮胎寿命 在 B 地测试的轮胎寿命
61.1 62.2
58.2 56.6
62.3 66.4
64.0 56.2
59.7 57.4
66.2 58.4
57.8 57.6
61.4 65.4
62.2
63.6

解 8.8. 根据 表 8.3 的数据可以计算得出检验统计量的值为 0.066。对于如此小的统计量值,显然我们应该接受原假设,即两种方法生产的轮胎的寿命没有显著的差异。\(\blacksquare\)

根据 式 8.20,对于单边假设 \(H_0: \mu_x = \mu_y\)(或 \(H_0: \mu_x \leq \mu_y\)\(\quad vs \quad H_1: \mu_x > \mu_y\) 的检验为:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} \overline{X} - \overline{Y} \leq z_\alpha \sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}} \\ \text{拒绝} H_0&, \quad \text{如果} \overline{X} - \overline{Y} \gt z_\alpha \sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}} \end{align} \tag{8.24}\]

8.4.2 方差未知的场景

继续假设 \(X_1, \dots, X_n\)\(Y_1, \dots, Y_m\) 是来自两个正态分布总体的独立样本,这两个总体的参数分别为 \((\mu_x, \sigma_x^2)\)\((\mu_y, \sigma_y^2)\),现在我们假设这四个参数都是未知的。我们再次考虑以下的假设检验:

\(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \neq \mu_y\)

为了确定显著性水平为 \(\alpha\) 的检验,我们需要做额外的假设:方差 \(\sigma_x^2\)\(\sigma_y^2\) 是相等的,记为 \(\sigma^2\),即 \(\sigma^2 = \sigma_x^2 = \sigma_y^2\)

式 8.20,当 \(\left |\overline{X} - \overline{Y} \right|\) 远大于零时,我们将拒绝 \(H_0\)。为了确定 \(c\)式 8.20)的值,我们定义如下的样本方差:

\(\begin{align} S_x^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \\ S_y^2 &= \frac{1}{m-1} \sum_{i=1}^{m} (Y_i - \overline{Y})^2 \end{align}\)

于是如 小节 7.4.1 所述:

\(\frac{\overline{X} - \overline{Y} - (\mu_x - \mu_y)}{\sqrt{S_p^2 \left( \frac{1}{n} + \frac{1}{m} \right)}} \sim t_{n+m-2}\)

其中 \(S_p^2\) 是两个样本的共同的方差的池化估计量(pooled estimator):

\(S_p^2 = \frac{(n-1)S_x^2 + (m-1)S_y^2}{n + m - 2}\)

因此,当 \(H_0\) 为真时,由于 \(\mu_x - \mu_y = 0\),所以统计量 \(T\)

\(T \equiv \frac{\overline{X} - \overline{Y}}{\sqrt{S_p^2 \left( \frac{1}{n} + \frac{1}{m} \right)}} \sim t_{n+m-2}\)

服从自由度为 \(n + m - 2\)\(t-\text{分布}\),于是我们可以对 \(\mu_x = \mu_y\) 的假设做如下的检验:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} |T| \leq t_{\alpha/2, n+m-2} \\ \text{拒绝} H_0&, \quad \text{如果} |T| > t_{\alpha/2, n+m-2} \end{align} \tag{8.25}\]

其中,\(t_{\alpha/2, n+m-2}\) 是自由度为 \(n + m - 2\)\(t-\text{分布}\) 随机变量的 \(100\ \alpha/2\) 百分位数(如 图 8.4 所示)。

代码
library(ggplot2)

dfreedom <- 2
x <- seq(-10, 10, 0.01) 
y <- dt(x, dfreedom)
df <- data.frame(x=x, y=y)

ggplot(df, aes(x=x, y=y)) + 
  geom_line() + 
  geom_segment(x=-3, y=dt(-3, dfreedom), xend=-3, yend=0) +
  geom_segment(x=3, y=dt(3, dfreedom), xend=3, yend=0) + 
  geom_ribbon(data = subset(df, x >= 3), aes(ymin = 0, ymax = y), fill = "gray") + 
  geom_ribbon(data = subset(df, x <= -3), aes(ymin = 0, ymax = y), fill = "gray") + 
  annotate("text", x = 3.2, y = -0.01, label = TeX("$t_{\\alpha, k}$"), hjust = 1, vjust = 0, size = 3) +
  annotate("text", x = -2.7, y = -0.01, label = TeX("$-t_{\\alpha, k}$"), hjust = 1, vjust = 0, size = 3) +
  annotate("text", x = 6, y = 0.01, label = TeX("Area: $\\alpha$"), hjust = 1, vjust = 0, size = 3) + 
  annotate("text", x = -5, y = 0.01, label = TeX("Area: $\\alpha$"), hjust = 1, vjust = 0, size = 3) + 
  theme_minimal() +
  theme(axis.text = element_blank(),axis.title = element_blank())
图 8.4: 自由度为 \(k\)\(t-\text{分布}\) 随机变量的概率密度函数

我们还可以通过计算 \(p-\text{value}\) 来进行检验。如果 \(T\) 的观测值为 \(v\),那么对 \(H_0 \ vs \ H_1\) 的检验的 \(p-\text{value}\) 为:

\(p-\text{value} = P\{|T_{n+m-2}| \geq |v|\} = 2P\{T_{n+m-2} \geq |v|\}\)

其中,\(T_{n+m-2}\) 是自由度为 \(n + m - 2\)\(t-\text{分布}\) 随机变量。

如果我们需要计算单边检验:\(H_0: \mu_x \leq \mu_y \quad vs \quad H_1: \mu_x > \mu_y\),那么在 \(T\) 较大时,我们会拒绝 \(H_0\)。因此,在显著性水平为 \(\alpha\) 时的单边检验为:

\[ \begin{align} \text{拒绝} H_0&, \quad \text{如果} T \geq t_{\alpha, n+m-2} \\ \text{接受} H_0&, \quad \text{否则} \end{align} \tag{8.26}\]

如果检验统计量 \(T\) 的值为 \(v\),那么 \(p-\text{value}\) 为:

\(p-\text{value} = P\{T_{n+m-2} \geq v\}\)

可以用 R 来实现两个样本的 \(t-\text{检验}\)。假设 \(x_1, \dots, x_n\)\(y_1, \dots, y_m\) 是来自两个不同的正态分布总体的独立样本,且这两个总体具有相同的方差。令 \(\mu_x\) 表示第一个总体的均值,\(\mu_y\) 表示第二个总体的均值。为了检验假设 \(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \neq \mu_y\),可以使用如下的代码:

x <- c(x1,...,xn)
y <- c(y1,...,ym)
t.test(x, y, var.equal = TRUE)

如上的代码会输出 \(p-\text{value}\)\(\mu_x - \mu_y\) 的 95% 置信区间。例如:如果 \(x = \{3, 5, 7, 9\}\)\(y = \{6, 8, 12, 15\}\),则 \(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \neq \mu_y\) 的假设检验为:

x <- c(3, 5, 7, 9)
y <- c(6, 8, 12, 15)
t.test(x, y, var.equal = TRUE)

    Two Sample t-test

data:  x and y
t = -1.7756, df = 6, p-value = 0.1261
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -10.106849   1.606849
sample estimates:
mean of x mean of y 
     6.00     10.25 

我们可以通过 t.test()alternative 参数来控制我们需要的检验类型(双边检验、单边检验)。如果我们想计算 \(H_0: \mu_x \le \mu_y \quad vs \quad H_1: \mu_x \gt \mu_y\) 的假设检验,我们可以使用如下的代码:

x <- c(3, 5, 7, 9)
y <- c(6, 8, 12, 15)
t.test(x, y, var.equal = TRUE, alternative = "greater")

    Two Sample t-test

data:  x and y
t = -1.7756, df = 6, p-value = 0.9369
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -8.901134       Inf
sample estimates:
mean of x mean of y 
     6.00     10.25 

同理,如果我们想计算 \(H_0: \mu_x \ge \mu_y \quad vs \quad H_1: \mu_x \lt \mu_y\) 的假设检验,我们可以使用如下的代码:

x <- c(3, 5, 7, 9)
y <- c(6, 8, 12, 15)
t.test(x, y, var.equal = TRUE, alternative = "less")

    Two Sample t-test

data:  x and y
t = -1.7756, df = 6, p-value = 0.06307
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf 0.4011337
sample estimates:
mean of x mean of y 
     6.00     10.25 

习题 8.11 在一个感冒研究所,22 名志愿者在暴露于各种感冒病毒后感染了感冒。从中随机选取 10 名志愿者服用含有 1 克维生素 C 的药片,并且每天复用四次。另外的 12 名志愿者作为对照组服用看起来、尝起来与维生素 C 药片完全相同的安慰剂药片。对于每一个志愿者而言,实验会持续到医生(不知道志愿者服用的是维生素 C 还是安慰剂)认为志愿者已经康复为止,并记录志愿者感冒的持续时间。实验结束时,得到了如下数据。

复用维生素 C 的患者 复用安慰剂的患者
5.5 6.5
6.0 6.0
7.0 8.5
6.0 7.0
7.5 6.5
6.0 8.0
7.5 7.5
5.5 6.5
7.0 7.5
6.5 6.0
8.5
7.0

这些数据是否证明每天服用 4 克维生素 C 可以缩短感冒持续时间?在什么显著性水平下?

解 8.9. 为了证明上述假设,我们需要在以下假设检验中拒绝原假设:

\(H_0 : \mu_C \geq \mu_P \quad vs \quad H_1 : \mu_C < \mu_P\)

其中,\(\mu_C\) 是服用维生素 C 药片时感冒的平均持续时间,\(\mu_P\) 是服用安慰剂时的平均持续时间。假设维生素 C 组和安慰剂组的方差相同,我们使用 R 进行上述检验。

x <- c(5.5, 6, 7, 6, 7.5, 6, 7.5, 5.5, 7, 6.5)
y <- c(6.5, 6, 8.5, 7, 6.5, 8, 7.5, 6.5, 7.5, 6, 8.5, 7)
t.test(x, y, alternative = "less", var.equal = TRUE)

    Two Sample t-test

data:  x and y
t = -1.8987, df = 20, p-value = 0.03606
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
        -Inf -0.06185013
sample estimates:
mean of x mean of y 
    6.450     7.125 

由于 \(p-\text{value}\) 为 0.036,因此可以在 5% 的显著性水平下确定维生素 C 可以缩短感冒的持续时间。此外,值得注意的是,除了输出 \(p-\text{value}\) 外,R 还提供了 \(\mu_x - \mu_y\) 的单边 95% 置信区间。\(\blacksquare\)

8.4.3 方差未知且不同的场景

现在,我们假设总体的方差 \(\sigma_x^2\)\(\sigma_y^2\) 不仅未知,而且不能认为相等。在这种情况下,由于 \(S_x^2\)\(S_y^2\) 分别是 \(\sigma_x^2\)\(\sigma_y^2\) 的估计量,因此基于以下检验统计量进行 \(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \ne \mu_y\) 的假设检验似乎是合理的:

\[ \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{S_x^2}{n} + \frac{S_y^2}{m}}} \tag{8.27}\]

然而,上述统计量的分布非常复杂,即使在 \(H_0\) 为真时,式 8.27 的分布也依赖于未知参数,因此无法被广泛使用。唯一可以利用 式 8.27 这个统计量的场景是:\(n\)\(m\) 都非常大。当 \(n\)\(m\) 都非常大时,可以证明:在 \(H_0\) 为真时,该统计量近似服从标准正态分布。因此,当 \(n\)\(m\) 都很大时,\(H_0: \mu_x = \mu_y \quad vs \quad H_1: \mu_x \ne \mu_y\) 在显著性水平 \(\alpha\) 下的 近似 检验为:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} -z_{\alpha/2} \leq \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{S_x^2}{n} + \frac{S_y^2}{m}}} \leq z_{\alpha/2} \\ \text{拒绝} H_0&, \quad \text{否则}\end{align} \tag{8.28}\]

确定两个具有未知且不一定相等方差的正态总体均值在 精确 显著性水平 \(\alpha\) 下的检验的问题,我们称之为 Behrens-Fisher 问题。对于 Behrens-Fisher 问题而言,目前还没有完全令人满意的解决方案。

表 8.4 对本节的双边检验进行了总结。

表 8.4: \(X_1, \dots, X_n\) 是来自 \((\mu_1, \sigma_1^2)\) 总体的样本;\(Y_1, \dots, Y_m\) 是来自 \((\mu_2, \sigma_2^2)\) 总体的样本。两个总体的样本是独立的。\(H_0: \mu_1 = \mu_2 \quad vs \quad H_0: \mu_1 \neq \mu_2\) 的假设检验
假设 假设检验统计量 \(TS\) 在显著性水平 \(\alpha\) 下的检验 \(TS = t\) 时的 \(p-\text{value}\)
\(\sigma_1, \sigma_2\) 已知 \(\frac{\overline{X} - \overline{Y}}{\sqrt{\sigma_1^2/n + \sigma_2^2/m}}\) 拒绝 \(H_0\),如果 \(|TS| > z_{\alpha/2}\) \(2P\{Z \geq |t|\}\)
\(\sigma_1 = \sigma_2\) \(\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{(n-1)S_1^2 + (m-1)S_2^2}{n+m-2}}\sqrt{1/n + 1/m}}\) 拒绝 \(H_0\),如果 \(|TS| > t_{\alpha/2, n+m-2}\) \(2P\{T_{n+m-2} \geq |t|\}\)
\(n, m\) 较大 \(\frac{\overline{X} - \overline{Y}}{\sqrt{S_1^2/n + S_2^2/m}}\) 拒绝 \(H_0\),如果 \(|TS| > z_{\alpha/2}\) \(2P\{Z \geq |t|\}\)

8.4.4 成对样本的 \(t-\text{检验}\)

假设我们对 安装某种防污染装置是否会影响汽车油耗 这个问题感兴趣。为了检验 安装某种防污染装置是否会影响汽车油耗,我们:

  1. 首先,招募 \(n\) 辆没有安装该装置的汽车
  2. 然后,分别记录每辆车在安装装置前后的每加仑行驶里程

最后,我们可以通过比较安装装置前后的油耗差异来检验:防污染控制装置是否对油耗有影响?

假设有 \(n\) 对数据 \((X_i, Y_i)\),其中 \(X_i\) 是第 \(i\) 辆车在安装装置前的油耗,\(Y_i\) 是安装装置后的油耗。因为这 \(n\) 辆车中的每辆车之间存在天然的不同,因此我们不能将 \(X_1, ..., X_n\)\(Y_1, ..., Y_m\) 看作相互独立的样本。例如,如果我们知道 \(X_1\) 很大(比如,每加仑 40 英里),我们肯定会认为 \(Y_1\) 也可能很大。因此,我们不能使用本节之前所介绍的方法。

为了检验安装装置前后的油耗是否存在差异,我们定义差值 \(W_i = X_i - Y_i, \ i = 1,...,n\)。如果防污染控制装置对油耗没有影响,\(W_i\) 的均值将为 0。因此,我们可以对如下的假设进行假设检验:

\(H_0: \mu_w = 0 \quad vs \quad H_1: \mu_w \neq 0\)

其中,我们假定 \(W_1, \dots, W_n\) 为来自一个具有未知均值 \(\mu_w\) 和未知方差 \(\sigma_w^2\) 的正态总体。使用 小节 8.3.2 中的 \(t-\text{检验}\) 进行假设检验:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} -t_{\alpha/2, n-1} < \sqrt{n} \frac{\overline{W}}{S_w} < t_{\alpha/2, n-1} \\ \text{拒绝} H_0&, \quad \text{否则} \end{align} \tag{8.29}\]

习题 8.12 计算机芯片行业最近实施了一项工业安全计划。下表显示了 10 家芯片工厂在实施该计划前后,由于事故导致的平均每周的 工时损失loss in labor-hours)数据(最近一个月的平均数据):

工厂 实施前 实施后 \(A - B\)
1 30.5 23 -7.5
2 18.5 21 2.5
3 24.5 22 -2.5
4 32 28.5 -3.5
5 16 14.5 -1.5
6 15 15.5 0.5
7 23.5 24.5 1
8 25.5 21 -4.5
9 28 23.5 -4.5
10 18 16.5 -1.5

在 5% 的显著性水平下,判断该安全计划是否有效?

解 8.10. 我们将检验以下假设:

\(H_0: \mu_A - \mu_B \geq 0 \quad vs \quad H_1: \mu_A - \mu_B < 0\)

如上的假设可以让我们判断原假设——安全计划没有产生有益效果——是否合理。为此,我们使用 R 首先得到检验统计量 \(v\) 的值,然后计算 \(p-\text{value}\),即自由度为 9 的 \(t-\text{分布}\) 随机变量小于 \(v\) 的概率。

d <- c(-7.5, 2.5, -2.5, -3.5, -1.5, .5, 1, -4.5, -4.5, -1.5)
v <- sqrt(10 / var(d)) * mean(d)
v
[1] -2.265949
pt(v, 9)
[1] 0.02484552

\(p-\text{value} = P(T_9 \leq -2.265949) = 0.02484552\)

我们使用 R 中的 pt(v, n) 来获得自由度为 \(n\)\(t-\text{分布}\) 随机变量小于或等于 \(v\) 的概率。

由于 \(p-\text{value}\) 小于 0.05,因此我们拒绝安全计划没有效果的假设,并且可以得出结论:这项安全计划的有效性已经得到证实(至少对于任何显著性水平大于 0.025 的情况下)。

我们还可以直接使用 R 中的 t.test() 来进行同样的检验:

d <- c(-7.5, 2.5, -2.5, -3.5, -1.5, .5, 1, -4.5, -4.5, -1.5)
t.test(d, alternative="less")

    One Sample t-test

data:  d
t = -2.2659, df = 9, p-value = 0.02485
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
      -Inf -0.410688
sample estimates:
mean of x 
    -2.15 

t.test() 不仅可以给出 \(p-\text{value}\),还会同时给出 \(\mu_A - \mu_B\) 的 95% 置信区间。\(\blacksquare\)

注意

即使样本不是独立的且总体方差不相等,也可以使用成对样本的 \(t-\text{检验}\)

8.5 关于正态总体方差的假设检验

假设 \(X_1, \dots, X_n\) 是来自正态分布总体的样本,该总体具有未知均值 \(\mu\) 和未知方差 \(\sigma^2\),并且我们希望检验以下的假设:

\(H_0 : \sigma^2 = \sigma_0^2 \quad vs \quad H_1 : \sigma^2 \neq \sigma_0^2\)

其中 \(\sigma_0^2\) 是一个特定的值。

\(H_0\) 为真时,如 定理 6.2 所述,\((n-1)S^2/\sigma_0^2\) 服从自由度为 \(n-1\) 的卡方分布,因此:

\(\frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2_{n-1}\)

由于 \(P\{\chi^2_{n-1} < \chi^2_{\alpha/2, n-1}\} = 1 - \alpha/2\)\(P\{\chi^2_{n-1} < \chi^2_{1-\alpha/2, n-1}\} = \alpha/2\),由此得出

\(P_{H_0} \left\{ \chi^2_{1-\alpha/2, n-1} \leq \frac{(n-1)S^2}{\sigma_0^2} \leq \chi^2_{\alpha/2, n-1} \right\} = 1 - \alpha\)

因此,在显著性水平为 \(\alpha\) 下的检验为:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} \chi^2_{1-\alpha/2, n-1} \leq \frac{(n-1)S^2}{\sigma_0^2} \leq \chi^2_{\alpha/2, n-1} \\ \text{拒绝} H_0&, \quad \text{否则} \end{align} \]

如上的检验可以通过:

  1. 首先,计算检验统计量 \((n-1)S^2/\sigma_0^2\) 的值——我们称之为 \(c\)——来实现
  2. 然后,计算自由度为 \(n-1\) 的卡方分布随机变量大于 \(c\) 或者小于 \(c\) 的概率
  3. 如果如上的概率中的任一个概率小于 \(\alpha/2\),则拒绝原假设。换句话说,该检验的 \(p-\text{value}\) 为:

\(p-\text{value} = 2 \min \left( P\{\chi^2_{n-1} < c\}, 1 - P\{\chi^2_{n-1} < c\} \right)\)

同样,也可以使用类似的方法得到单边检验的 \(p-\text{value}\)。我们可以使用 R 命令 pchisq(c, n-1) 得到 \(P\{\chi^2_{n-1} < c\}\) 的值。

习题 8.13 最近安装了一台自动控制磁带长度的机器。如果磁带长度的标准差 \(\sigma\) 小于 0.15 厘米,则认为该机器是有效的。如果 20 个磁带样本的方差 \(S^2 = 0.025 \ \text{cm}^2\),我们能否得出该机器无效的结论?

解 8.11. 我们将检验该机器有效的假设,因为拒绝这个假设将使我们得出该机器无效的结论。因此,我们检验以下假设:

\(H_0: \sigma^2 \leq 0.0225 \quad vs \quad H_1: \sigma^2 > 0.0225\)

因此,当 \(S^2\) 较大时,我们会拒绝 \(H_0\)。测试数据的 \(p-\text{value}\) 是自由度为 19 的卡方随机变量超过 \(19 \times 0.025 / 0.0225 = 21.111\) 的概率,即:

\(p-\text{value} = P\{\chi^2_{19} > 21.111\} = 1 - \text{pchisq}(21.111, 19) = 0.3307001\)

因此,我们必须得出结论:观察到的 \(S^2 = 0.025\) 的值不足以排除 \(\sigma^2 \leq 0.0225\) 的可能性,因此接受原假设。\(\blacksquare\)

8.5.1 检验两个正态分布的方差是否相等

\(X_1, \dots, X_n\)\(Y_1, \dots, Y_m\) 表示来自两个正态分布总体的独立样本,这两个总体的参数分别为 \((\mu_x, \sigma_x^2)\)\((\mu_y, \sigma_y^2)\),我们考虑检验如下的假设:

\(H_0: \sigma_x^2 = \sigma_y^2 \quad vs \quad H_1: \sigma_x^2 \neq \sigma_y^2\)

如果我们令:

\(\begin{align} S_x^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \\ S_y^2 &= \frac{1}{m-1} \sum_{i=1}^{m} (Y_i - \overline{Y})^2 \end{align}\)

表示样本方差,那么如 定理 6.2 所示,\((n-1)S_x^2/\sigma_x^2\)\((m-1)S_y^2/\sigma_y^2\) 服从自由度分别为 \(n-1\)\(m-1\) 的卡方分布,因此 \((S_x^2/\sigma_x^2) / (S_y^2/\sigma_y^2)\) 服从自由度为 \(n-1\)\(m-1\)\(F-\text{分布}\)。所以,当 \(H_0\) 为真时:

\(S_x^2/S_y^2 \sim F_{n-1, m-1}\)

所以:

\(P_{H_0}\{F_{1 - \alpha / 2, n-1, m-1} \leq S_x^2/S_y^2 \leq F_{\alpha / 2, n-1, m-1}\} = 1 - \alpha\)

因此,在显著性水平 \(\alpha\) 下,\(H_0 \ vs \ H_1\) 的检验为:

\[ \begin{align} \text{接受} H_0&, \quad \text{如果} F_{1-\alpha/2, n-1, m-1} < \frac{S_x^2}{S_y^2} < F_{\alpha/2, n-1, m-1} \\ \text{拒绝} H_0&, \quad \text{否则} \end{align} \]

上述检验可以通过:

  1. 首先,确定检验统计量 \(\frac{S_x^2}{S_y^2}\) 的值——记为 \(v\)
  2. 然后,计算 \(P\{F_{n-1, m-1} \leq v\}\),其中 \(F_{n-1, m-1}\) 是自由度为 \(n-1\)\(m-1\)\(F-\text{分布}\) 随机变量
  3. 如果此概率小于 \(\alpha/2\)(当 \(S_x^2\) 显著小于 \(S_y^2\) 时)或大于 \(1-\alpha/2\)(当 \(S_x^2\) 显著大于 \(S_y^2\) 时),则拒绝原假设。

换句话说,检验数据的 \(p-\text{value}\) 为:

\(p-\text{value} = 2 \min \left( P\{F_{n-1, m-1} < v\}, 1 - P\{F_{n-1, m-1} < v\} \right)\)

\(p-\text{value}\) 小于等于 显著性水平 \(\alpha\) 时,则拒绝原假设。

习题 8.14 有两种不同的催化剂可用于加快某化学反应的过程。为了检验:无论使用哪种催化剂化学反应产物的方差都是相同的,我们使用第一种催化剂生产了 10 批产品,使用第二种催化剂生产了 12 批产品。如果结果数据为: \(S_1^2 = 0.14\)\(S_2^2 = 0.28\),我们能否在 5% 的显著性水平下拒绝方差相等的假设?

解 8.12. 使用 R 命令 pf(v, n, m) 来获得具有参数 \(n\)\(m\)\(F-\text{分布}\) 随机变量小于或等于 \(v\) 的概率,我们得到:

\(P(F_{9,11} \leq 0.5) = pf(0.5, 9, 11) = 0.1537596\)

因此,

\(p-\text{value} = 2 \min(0.1537596, 1 - 0.1537596) = 0.3075\)

因此,我们不能拒绝方差相等的原假设。\(\blacksquare\)

8.6 二项分布的假设检验

二项分布在工程问题中经常遇到。例如,考虑一种产品生产线,该生产线制造的产品可以分为两类——可接受的或有缺陷的。通常会假设生产的每个产品的缺陷概率为 \(p\),因此一个具有 \(n\) 个产品的样本中的缺陷产品数量将是参数为 \((n, p)\) 的二项分布。现在考虑以下的假设检验:

\(H_0 : p \le p_0 \quad vs \quad H_1 : p > p_0\)

其中 \(p_0\) 是某个指定的值。

如果令 \(X\) 表示样本大小为 \(n\) 的样本中的缺陷数,那么显然当 \(X\) 较大时我们希望拒绝 \(H_0\)。为了计算在显著性水平 \(\alpha\) 下需要多大的 \(X\) 才能证明拒绝是合理的,我们关注到:

\(P\{X \ge k\} = \sum_{i=k}^{n} P\{X = i\} = \sum_{i=k}^{n} \binom{n}{i} p^i (1 - p)^{n-i}\)

现在,很直观(并且可以证明),\(P\{X \ge k\}\)\(p\) 的递增函数——即,样本中包含至少 \(k\) 个缺陷产品的概率随着缺陷概率 \(p\) 的增加而增加。使用这一点,我们看到当 \(H_0\) 为真时(即 \(p \le p_0\)),

\(P\{X \ge k\} \le \sum_{i=k}^{n} \binom{n}{i} p_0^i (1 - p_0)^{n-i}\)

因此,显著性水平 \(\alpha\) 下的假设检验

\(H_0 : p \le p_0 \quad vs \quad H_1 : p > p_0\)

是当 \(X \ge k^*\) 时拒绝 \(H_0\),其中 \(k^*\) 是使 \(\sum_{i=k}^{n} \binom{n}{i} p_0^i (1 - p_0)^{n-i} \le \alpha\) 成立的最小的 \(k\) 值。也就是说,

\(k^* = \min \left\{ k : \sum_{i=k}^{n} \binom{n}{i} p_0^i (1 - p_0)^{n-i} \le \alpha \right\}\)

可以通过首先确定检验统计量的值——例如 \(X = x\),然后再计算给定的 \(p\)-值 来执行假设检验。

\[ \begin{align} p-\text{value} &= P\{B(n, p_0) \ge x\} \\ &= \sum_{i=x}^{n}{\left(\begin{array}{cc} n \\ i \end{array}\right)p_0^i(1-p_0)^{n-i}} \end{align} \]

习题 8.15 一家电脑芯片制造商声称他们出售的芯片的缺陷率不超过 2%。一家电子公司对这家芯片公司的声明印象深刻,并购买了该芯片公司生产的大量芯片。为了确定芯片制造商的声明的可信性,该电子公司决定测试 300 个芯片样本。如果最终发现这 300 个芯片中有 10 个是有缺陷的,那么是否应该拒绝芯片制造商的声明?

解 8.13. 让我们在 5% 的显著性水平上检测制造商的声明。为了判断是否需要拒绝制造商 2% 缺陷率的声明,我们需要计算当 \(p\) 等于 0.02 时,300 个样本中出现 10 个或更多个缺陷产品的概率。也就是说,我们需要计算 \(p-\text{value}\)。如果 \(p-\text{value}\) 小于或等于 0.05,那么就应该拒绝制造商 2% 缺陷率的声明。

\[ \begin{align} P_{0.02}\{X \ge 10\} &= 1 - P_{0.02}\{X \le 9\} \\ &= 1 - pbinom(9, 300, 0.02) \\ &= 0.08183807 \end{align} \]

因此,在显著性水平为 0.05 时,我们不能拒绝芯片制造商的声明。

注记

当然,在 R 中,我们可以使用 binom.test() 来直接根据实验结果计算二项分布的 \(p-\text{value}\)

代码
binom.test(10, 300, 0.02, "greater")

    Exact binomial test

data:  10 and 300
number of successes = 10, number of trials = 300, p-value = 0.08184
alternative hypothesis: true probability of success is greater than 0.02
95 percent confidence interval:
 0.01819384 1.00000000
sample estimates:
probability of success 
            0.03333333 

\(\blacksquare\)

习题 8.16 为了证明编辑 A 优于编辑 B,给两位编辑提供了一份相同的稿件。如果编辑 A 发现了 28 个错误,而编辑 B 发现了 18 个错误,其中有 10 个错误两人都发现了,我们能否得出编辑 A 更优秀的结论?

解 8.14. 需要注意的是,A 发现了 B 未发现的 18 个错误,B 发现了 A 未发现的 8 个错误。因此,仅由一人发现的错误总数为 26 个。如果 A 和 B 的能力相当,那么他们单独发现某个错误的概率是相等的,即为 1/2。因此,为了证明 A 是更好的编辑,26 次试验中 18 次成功的结果必须足够强大以拒绝以下假设:

\(H_0: p \leq 1/2 \quad vs \quad H_1: p > 1/2\)

其中,\(p\) 是伯努利试验成功的概率。对于实验数据的 \(p-\text{value}\) 为:

\(p-\text{value} = P\{B(26, 0.5) \geq 18\} = 0.03776\)

因此,在 5% 的显著性水平下,我们将拒绝原假设,所以可以得出结论:在 5% 的显著性水平下,A 是更优秀的编辑。 \(\blacksquare\)

当样本量 \(n\) 较大时,我们可以通过正态分布逼近二项分布来推导显著性水平为 \(\alpha\)\(H_0: p \leq p_0 \quad vs \quad H_1: p > p_0\) 的近似检验。其原理如下:因为当 \(n\) 较大时,随机变量 \(X\) 将近似服从均值为

\(E[X] = np\)

方差为

\(\text{Var}(X) = np(1-p)\)

的正态分布,因此

\(\frac{X - np}{\sqrt{np(1-p)}}\)

将近似服从标准正态分布。因此,显著性水平为 \(\alpha\) 的近似检验为:

\(\text{拒绝} H_0, \quad \text{如果} \frac{X - np_0}{\sqrt{np_0(1-p_0)}} \geq z_\alpha\)

同样的,也可以使用正态分布来近似来计算 \(p-\text{value}\)

例 8.3习题 8.15 中,\(np_0 = 300 \times 0.02 = 6\),且 \(\sqrt{np_0(1-p_0)} = \sqrt{5.88}\)。因此,由数据 \(X = 10\) 得出的 \(p-\text{value}\)

\(\begin{align} p-\text{value} &= P_{0.02}\{X \geq 10\} \\ &= P_{0.02}\{X \geq 9.5\} \\ &P_{0.02}\left\{\frac{X - 6}{\sqrt{5.88}} \geq \frac{9.5 - 6}{\sqrt{5.88}}\right\} \\ &\approx P\{Z \geq 1.443\} \\ &= 0.0745 \end{align}\)

因此,精确的 \(p-\text{value}\) 为 0.0818,正态分布给出的近似 \(p-\text{value}\) 为 0.0745。

假设我们现在希望检验 \(p\) 等于某个指定值的原假设,即我们希望检验

\(H_0: p = p_0 \quad vs \quad H_1: p \neq p_0\)

如果一个具有参数 \(n\)\(p\) 的二项随机变量 \(X\) 的观测值等于 \(x\),如果 \(x\) 的值显著大于或显著小于在 \(p = p_0\) 时的预期值,那么显著性水平为 \(\alpha\) 的检验将拒绝原假设 \(H_0\)。更准确地说,当以下任意一项成立时,检验将拒绝 \(H_0\)

\(P\{B(n, p_0) \geq x\} \leq \alpha/2 \quad \text{或} \quad P\{B(n, p_0) \leq x\} \leq \alpha/2\)

换句话说,当 \(X = x\) 时的 \(p-\text{value}\)

\(p-\text{value} = 2 \min \left(P\{B(n, p_0) \geq x\}, P\{B(n, p_0) \leq x\}\right)\)

习题 8.17 历史数据显示,某制造商生产的组件中有 4% 是不合格的。该制造商最近刚刚结束了一场特别激烈的劳资纠纷,所以管理层想知道该劳资纠纷是否会导致 不合格率的变化。如果随机抽取的 500 个样品中有 16 个不合格品(占比 3.2%),在显著性水平为 5% 的情况下,是否足以证明不合格率确实发生了变化?

解 8.15. 需要足够强的数据支撑,以使得我们在检验以下的假设时拒绝原假设,才能够得出不合格率发生了变化的结论:

\(H_0: p = 0.04 \quad vs \quad H_1: p \neq 0.04\)

其中 \(p\) 是单个组件不合格的概率。500 个样品中有 16 个不合格品的数据的 \(p-\text{value}\) 为:

\(p\text{-value} = 2 \min\{P\{X \leq 16\}, P\{X \geq 16\}\}\)

其中 \(X\) 是一个二项式随机变量 \(\text{binomial}(500, 0.04)\)。因为 \(500 \times 0.04 = 20\),我们得知:

\(p\text{-value} = 2P\{X \leq 16\}\)

由于 \(X\) 的均值为 20,标准差为 \(\sqrt{20 \times 0.96} \approx 4.38\),显然 \(X\) 小于等于 16 的概率是比均值小于一个标准差的概率略小的一个值,该值的两倍并非足够小以允许我们拒绝原假设。事实上,可以证明:

\(p-\text{value} = 2P\{X \leq 16\} = 0.43161\)

因此,没有足够的证据拒绝原假设,即不合格品率仍将保持不变。\(\blacksquare\)

8.6.1 检验两个伯努利总体的参数是否相同

假设某类型的芯片有两种不同的生产方法,并且假设第一种生产方法生产的芯片的缺陷率为 \(p_1\),而第二种生产方法生产的芯片的缺陷率为 \(p_2\)。为了检验假设 \(p_1 = p_2\),我们使用第一种方法生产了 \(n_1\) 个芯片作为样本 1,使用第二种方法生产了 \(n_2\) 个芯片作为样本 2。

\(X_1\) 表示样本 1 中的缺陷芯片的数量,\(X_2\) 表示样本 2 中的缺陷芯片的数量。因此,\(X_1\)\(X_2\) 是相互独立的二项分布随机变量,其参数分别为 \((n_1, p_1)\)\((n_2, p_2)\)。假设 \(X_1 + X_2 = k\),那么两个样本总共有 \(k\) 个缺陷品。

如果 \(H_0\)\(p_1 = p_2\))成立,那么 \(n_1 + n_2\) 个芯片中的每一个都有相同的概率成为缺陷品。因此 \(k\) 个缺陷品的分布与从一个包含 \(n_1 + n_2\) 个物品(其中 \(n_1\) 是白色物品, \(n_2\) 是黑色物品)中随机抽取 \(k\) 个样本的分布相同。换句话说,给定总共 \(k\) 个缺陷品,当 \(H_0\) 成立时,使用第一种方法得到的缺陷品数量的条件分布将具有以下的超几何分布:

\[ P_{H_0}\{X_1 = i | X_1 + X_2 = k\} = \frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}}, \quad i = 0, 1, \ldots, k \tag{8.30}\]

在检验 \(H_0: p_1 = p_2 \quad vs \quad H_1: p_1 \neq p_2\) 时,当使用第一种方法生产的缺陷芯片比例与使用第二种方法生产的缺陷芯片比例差异很大时,似乎可以合理地拒绝原假设。因此,如果总共存在 \(k\) 个缺陷品,那么当 \(H_0\) 成立时,我们预计 \(X_1/n_1\)(使用第一种方法生产的缺陷芯片比例)将接近于 \((k - X_1)/n_2\) (使用第二种方法生产的缺陷芯片比例)。当 \(X_1\) 非常小或非常大时,\(X_1/n_1\)\((k - X_1)/n_2\) 之间的差异会比较大,因此,合理的显著性水平 \(\alpha\) 的检验如下所示。

\(X_1 + X_2 = k\) 时,

\[ \begin{align} \text{拒绝} H_0 &, \quad \text{如果} P\{X \leq x_1\} \leq \alpha/2 \quad \text{ 或 } \quad P\{X \geq x_1\} \leq \alpha/2 \\ \text{接受} H_0 &, \quad 否则 \end{align} \]

其中 \(X\) 是具有以下概率质量函数的超几何随机变量:

\[ P\{X = i\} = \frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}}, \quad i = 0, 1, \ldots, k \tag{8.31}\]

\[ p-\text{value} = 2 \min(P\{X \leq x_1\}, P\{X \geq x_1\}) \tag{8.32}\]

换句话说,如果显著性水平至少为 \(\alpha\) 大于等于 \(p-\text{value}\),我们将拒绝原假设。这种检验也称之为 Fisher-Irwin 检验。

可以通过使用 R 命令 phyper(x, n, m, k) 来计算 式 8.32 的概率,该命令用于计算超几何随机变量的概率,其参数 \(n, m, k\) 代表从一个包含 \(n\) 个红球和 \(m\) 个蓝球的盒子中随机抽取 \(k\) 个球时,抽取的红球数量小于或等于 \(x\) 的概率。

fisher.test() 和列联表

在 R 中,可以直接使用 fisher.test() 来计算 式 8.32 所示的 \(p-\text{value}\)

要使用 R 的 fisher.test 来检验两个二项分布的参数 \(p\) 是否一致,首先需要将两个二项分布的结果组织成一个 \(2 \times 2\) 的列联表。这个列联表表示两个分布的成功和失败次数。然后,使用 fisher.test 来检验两个分布是否独立,从而间接检验它们的参数 \(p\) 是否一致。

列联表(contingency table)是按两个或更多属性对数据分类后所列出的对应分类的频数表,是由两个以上的变量进行交叉分类的频数分布表。

  1. 准备数据:假设我们有两个二项分布的结果,分别记录了其成功次数和失败次数。

    • 假设 A 有 8 次成功,2 次失败。
    • B 有 5 次成功,5 次失败。

    将如上分布数据组织成如下的 \(2 \times 2\) 列联表:

    data <- matrix(c(8, 2, 5, 5), nrow = 2, byrow = TRUE)
    colnames(data) <- c("Success", "Failure")
    rownames(data) <- c("Distribution A", "Distribution B")
    print(data)

    输出的表格将是:

                    Success Failure
    Distribution A        8       2
    Distribution B        5       5
  2. 执行 Fisher 精确检验

    result <- fisher.test(data)
    print(result)
  3. 解释结果

    fisher.test 的结果将包括 \(p-\text{value}\) 以用来判断两个分布的成功率 \(p\) 是否显著不同。

    Fisher's Exact Test for Count Data
    
    data:  data
    p-value = 0.315
    alternative hypothesis: true odds ratio is not equal to 1
    95 percent confidence interval:
      0.2943 19.3332
    sample estimates:
    odds ratio 
          3.98 
    • p-value: 如果 \(p-\text{value}\) 值大于 0.05,则我们不能拒绝原假设,即没有足够证据表明两个分布的成功率(p 值)不一致。
    • odds ratio: 估计的优势比,这里为 3.98,表示 A 的成功与 B 的成功的比率。
    • 95 percent confidence interval: 这是对优势比的 95% 置信区间。

在 R 的 fisher.test() 中,列联表的行和列的顺序对计算结果的 p-valueodds ratio 等值均没有影响,即便如此,我们最好还是按照行优先来组织列联表,以保障结果的可解释性。

  1. p-value 不受影响
    • Fisher 精确检验的核心是计算列联表中不同行和列组合下观察到的频率是否显著偏离了独立性假设。这个计算基于全排列的可能性,所以 p-value 不受行列顺序的影响。
    • 换句话说,无论你如何排列列联表的行和列,p-value 会保持一致,因为 Fisher 精确检验本质上是一种对称性检验。
  2. odds ratio 不受影响
    • 具体来说,odds ratio 是通过下列公式计算的:\(\text{odds ratio} = \frac{(a \times d)}{(b \times c)}\),其中:

      • a 是第一行第一列的值
      • b 是第一行第二列的值
      • c 是第二行第一列的值
      • d 是第二行第二列的值
    • 根据 odds ratio 的计算公式可知,对于列联表而言,无论是行优先、还是列优先的存储方式,都不会影响最终的结果,但是为了保障可解释性,我们最好还是按照行优先来组织列联表,即:

                 Success Failure
      Group A        8       2
      Group B        5       5

习题 8.18 假设方法 1 生产的 100 个晶体管中有 20 个不合格,而方法 2 生产的 100 个晶体管中有 12 个不合格。我们能否以 10% 的显著性水平得出这两种方法是等效的这样的结论?

解 8.16. 利用 R,我们得到如下的数据:

\(\begin{align} p-\text{value} & = 2 \min(P(X \leq 20), \, P(X \geq 20)) \\ &= 2 \min(P(X \leq 20), \, 1 - P(X \leq 19)) \\ & =2 \times \min(\text{phyper}(20, 100, 100, 32), \, 1 - \text{phyper}(19, 100, 100, 32)) \\ &= 0.1763396 \end{align}\)

在上述计算中使用了 R 函数 min(x, y),该函数返回 \(x\)\(y\) 中的最小值。根据 \(p-\text{value}\) 的值,我们无法拒绝这两种方法是等效的假设。

注记

更简单的,我们可以直接使用 R 中的 fisher.test() 来计算 \(p-\text{value}\)

data <- matrix(c(20, 80, 12, 88), ncol=2, byrow=TRUE)
rownames(data) <- c("Method 1", "Method 2")
colnames(data) <- c("Unacceptable", "Acceptable")
fisher.test(data)

    Fisher's Exact Test for Count Data

data:  data
p-value = 0.1763
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.792462 4.381294
sample estimates:
odds ratio 
  1.827794 

\(\blacksquare\)

检验两种不同治疗方法效果是否相同的理想方法是将一组人随机分成两组,一组接受第一种治疗方法,另一组接受第二种治疗方法。然而,这种随机分组的方式并非总是万能的。例如,如果我们想研究饮酒是否会增加患前列腺癌的风险,我们不能让随机选择的样本人群去饮酒。观察性研究observational study)是研究这种假设的另一种方法,这种方法:

  • 首先,随机选择一组饮酒人群和一组不饮酒人群
  • 然后,在一段时间内跟踪这些随机选择的人群
  • 最后,使用所得到的跟踪数据来检验假设并判断这两组人群患前列腺癌的风险是否相同

接下来的 例 8.4 展示了实现 观察性研究 的另一种方法。

例 8.4 1970 年,研究人员 Herbst、Ulfelder 和 Poskanzer (H-U-P) 怀疑年轻女性中一种相当罕见的疾病——阴道癌,可能是由于她们的母亲在怀孕期间服用了己烯雌酚(Diethylstilbestrol,通常称为 DES)而引起的。为了研究这种可能性,研究人员可以通过搜索获得一组在其母亲怀孕时服用了 DES 的女性(实验组(treatment))和一组在其母亲怀孕时没有服用 DES 的女性(对照组(control))来进行 观察性研究。然后,研究人员可以在一段时间内去观察这些不同组的人群,并使用所得到的数据进行检验假设——即这两组不同人群的阴道癌发病概率是否相同。然而,对于这两组人群而言,阴道癌都非常罕见,所以这样的研究需要具备较大的群体规模,并且还需要跟踪观察多年才能获得一个显著的结果。因此,H-U-P 决定采用另一种不同的 观察性研究 方法。他们发现了年龄在 15 至 22 岁之间的患有阴道癌的 8 名女性。这些女性(称为病例)中的每一名都与 4 名其他女性(称为参照(referents)或对照(controls))进行了匹配。每个病例的任何一个参照者都没有患癌症,并且与对应病例出生在相同医院的、相同类型的房间(无论是私人房间还是公共房间),同时其出生日期相差不超过 5 天。研究人员认为,如果 DES 对阴道癌没有影响,那么病例的母亲服用了 DES 的概率 \(p_c\) 应该与参照者的母亲服用了 DES 的概率 \(p_r\) 相同,所以 H-U-P 决定检验以下假设:

\(H_0 : p_c = p_r \quad vs \quad H_1 : p_c \neq p_r\)

研究发现,8 个病例中有 7 个病例的母亲在怀孕时服用了 DES,而 32 个参照者中没有一个参照者的母亲服用了该药物。研究人员1得出结论:DES 与阴道癌之间存在强关联(这些数据的 \(p-\text{value}\) 约等于 0)。

注记
data <- matrix(c(7, 1, 0, 32), ncol = 2, byrow = TRUE)
rownames(data) <- c("Treatment", "Control")
colnames(data) <- c("C", "NC")
data
          C NC
Treatment 7  1
Control   0 32
fisher.test(data)

    Fisher's Exact Test for Count Data

data:  data
p-value = 4.291e-07
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 15.42963      Inf
sample estimates:
odds ratio 
       Inf 

\(\blacksquare\)

当样本量 \(n1\)\(n2\) 比较大时,我们可以通过正态分布逼近二项分布来推导显著性水平为 \(\alpha\) 时的原假设 \(H_0: p_1 = p_2\) 的近似检验,具体参见:习题 63。

8.7 关于泊松分布的均值的假设检验

\(X\) 表示一个均值为 \(\lambda\) 的泊松分布随机变量,我们希望检验如下的假设:

\(H_0 : \lambda = \lambda_0 \quad vs \quad H_1 : \lambda \neq \lambda_0\)

如果观察到的 \(X\) 的值为 \(X = x\),那么当以下任一条件成立时,显著性水平为 \(\alpha\) 时的检验将拒绝 \(H_0\)

\[ P_{\lambda_0} \{ X \geq x \} \leq \alpha / 2 \quad \text{或} \quad P_{\lambda_0} \{ X \leq x \} \leq \alpha / 2 \tag{8.33}\]

其中,\(P_{\lambda_0}\) 表示在泊松分布的均值为 \(\lambda_0\) 的假设下计算的概率。根据 式 8.33\(p-\text{value}\) 的计算方式为:

\(\text{p-value} = 2 \min \left( P_{\lambda_0} \{ X \geq x \}, P_{\lambda_0} \{ X \leq x \} \right)\)

可以利用 R 中的 ppois(x, lamda_0) 计算 \(P_{\lambda_0} \{ X \geq x \}\) 或者 P_{_0} { X x } 的概率。

习题 8.19 某芯片制造商的管理层声称:每天生产的计算机芯片中,存在缺陷的芯片的平均数量不超过 25 个,但是有人质疑管理层的这一说法。为了检验管理层这一说法,抽取了 5 天生产的产品作为样本,样本显示这 5 天的缺陷芯片个数分别是:28、34、32、38、22。在 5% 的显著性水平下,检验管理层的说法是否成立。

解 8.17. 对于每个计算机芯片而言,检测到其有缺陷的可能性非常小,因此,假设每天生产的芯片中存在缺陷的芯片数量近似服从均值为 \(\lambda\) 的泊松分布是合理的。为了确定管理层的说法是否可靠,我们将检验如下假设:

\(H_0: \lambda \leq 25 \quad vs \quad H_1: \lambda > 25\)

\(H_0\) 下,5 天内生产的芯片中存在缺陷的芯片总数也服从泊松分布(独立的泊松分布随机变量的和也服从泊松分布),并且其均值不超过 125。由于观察到 5 天的缺陷芯片数量总数为 154,因此 \(p-\text{value}\) 为:

\(\begin{align} p-\text{value} &= P_{125}\{X \geq 154\} \\ &= 1 - P_{125}\{X \leq 153\} \\ &= 1 - \text{ppois}(153, 125) \\ &= 0.006664794 \end{align}\)

因此,在 5% 的显著性水平下(甚至在 1% 的显著性水平下),我们将拒绝管理层的说法。\(\blacksquare\)

8.7.1 检验两个泊松分布的参数之间的关系

\(X_1\)\(X_2\) 为独立的泊松分布随机变量,其均值分别为 \(\lambda_1\)\(\lambda_2\),考虑检验如下的假设:

\(H_0 : \lambda_2 = c\lambda_1 \quad vs \quad H_1 : \lambda_2 \neq c\lambda_1\)

其中,\(c\) 为给定的常数。

如上假设的检验是一个条件检验(a conditional test),其本质类似于 小节 8.6.1 中的 Fisher-Irwin 检验。在给定 \(X_1 + X_2\) 下,\(X_1\) 的条件概率分布服从二项分布,基于这一事实,我们有 命题 8.1

命题 8.1 \(P\{X_1 = k \mid X_1 + X_2 = n\} = \binom{n}{k} \left[\frac{\lambda_1}{\lambda_1 + \lambda_2}\right]^k \left[\frac{\lambda_2}{\lambda_1 + \lambda_2}\right]^{n-k}\)

. \[ \begin{align} P\{X_1 = k \mid X_1 + X_2 = n\} &= \frac{P\{X_1 = k, X_1 + X_2 = n\}}{P\{X_1 + X_2 = n\}} \\ &= \frac{P\{X_1 = k, X_2 = n - k\}}{P\{X_1 + X_2 = n\}} \\ &= \frac{P\{X_1 = k\} P\{X_2 = n - k\}}{P\{X_1 + X_2 = n\}} \quad \text{(由于独立性)} \\ &= \frac{\exp\{-\lambda_1\} \lambda_1^k / k! \cdot \exp\{-\lambda_2\} \lambda_2^{n-k} / (n-k)!}{\exp\{-(\lambda_1 + \lambda_2)\} (\lambda_1 + \lambda_2)^n / n!} \\ &= \frac{n!}{(n-k)!k!} \left[\frac{\lambda_1}{\lambda_1 + \lambda_2}\right]^k \left[\frac{\lambda_2}{\lambda_1 + \lambda_2}\right]^{n-k} \end{align} \]

其中,倒数第二个等式成立的原因是:独立泊松随机变量的和也是泊松分布。\(\blacksquare\)

根据 命题 8.1 可知,如果 \(H_0\) 为真,那么在给定 \(X_1 + X_2\) 下,\(X_1\) 的条件概率分布是参数为 \((n, p = \frac{1}{1 + c})\) 的二项分布。因此,我们可以得出结论:如果 \(X_1 + X_2 = n\),如果我们观察到 \(X_1\) 的值为 \(x_1\),那么如果满足以下条件中的任何一个,则应拒绝 \(H_0\)

\[ \begin{align} &P\{\text{B}(n, 1/(1+c)) \geq x_1\} \leq \alpha/2 \\ &或 \\ &P\{\text{B}(n, 1/(1+c)) \leq x_1\} \leq \alpha/2 \end{align} \tag{8.34}\]

习题 8.20 一家企业经营着两个大型的工厂。如果工厂 1 在过去 8 周内发生的事故数量分别为 16、18、9、22、17、19、24、8,工厂 2 在过去 6 周内发生的事故数量分别为 22、18、26、30、25、28,我们是否可以在 5% 的显著性水平下得出这两个工厂的安全条件存在差异的结论?

解 8.18. 对于任何一分钟而言,发生工业事故的概率很小,因此每周发生的此类事故的数量应大致符合泊松分布。如果我们令 \(X_1\) 表示工厂 1 在 8 周期间发生的事故总数,\(X_2\) 表示工厂 2 在 6 周期间发生的事故总数,那么如果两个工厂的安全条件没有差异,我们将有:

\(\lambda_2 = \frac{3}{4}\lambda_1\)

其中 \(\lambda_i \equiv E[X_i],\ i = 1, 2\)

由于 \(X_1 = 133\), \(X_2 = 149\),根据 式 8.34,该检验的 \(p-\text{value}\) 为:

\(p-\text{value} = 2\min \left( P\{\text{B}(282, \frac{4}{7}) \geq 133\}, P\{\text{B}(282, \frac{4}{7}) \leq 133\} \right)\)

即, \(p-\text{value} = 9.408 \times 10^{-4}\)

因此,我们将拒绝原假设:两个工厂的安全条件相同。 \(\blacksquare\)

Problems


  1. Herbst, A., Ulfelder, H., and Poskanzer, D., Adenocarcinoma of the Vagina: Association of Maternal Stilbestrol Therapy with Tumor Appearance in Young Women, New England Journal of Medicine, 284, 878-881, 1971↩︎