译者序

最近的几年从事评估评测的工作比较多,随着对评测工作的不断深入,对评测的认知也发生了非常大的变化。我们之前总认为评测无非就是开发一套工具或者平台,再者就是做一些没有什么技术含量的评估,然后得出一个结论,仅此而已。

我在评测上的大部分工作都是数据分析:分析结果的差异性、合理性、正确性,分析结果的可解释性(例如为什么不同的人对同一个视频的画质给出了截然不同的打分),分析结果的可重复性……

得出一个评测结论非常容易,但是如何才能让评测像论文中的实验一样做到可重复执行确实是一件非常难的事情。招募用户开展评测也不是一件难事,关键是如何才能有效的从结果数据中的出有效的结论。

标准如何执行,变量如何控制、样本如何选择、结果如何解释等因素都是我们需要考虑的事情,而这些也才是真正隐藏于评测背后的最惊艳的技术。

因此,在经过这么多年的评测工作的实践积累,我总结出有价值的评测需要具备的三大能力:

  1. 良好的业务认知能力
  2. 扎实的工程技术能力
  3. 强大的数据分析能力

对于工程师而言,业务认知能力和工程技术能力相对较为容易。我们只要随着业务共同成长,自己的工程能力和业务认知,肯定会取得非常大的进步和成就。但是,强大的数据分析能力不见得我们会随业务的发展而成长起来,这需要我们具备数据分析的基础知识(例如概率论和梳理统计),还需要具备对应工具的熟练应用能力,更需要我们在实践中不断地将理论、工具、数据加以闭环整合以不断迭代、提升自己的数据分析能力。

对于数据分析而言,工作之后才发现,大学时期老师教授的相关基础内容在多年之后,也已经全部归还给了老师。脑海里仅存的知识也就只剩下了正态分布的基本概念和抛硬币计算各种概率等的一些基本知识。置信区间、\(p\) 值、大数定律等等概念在大脑中也就只剩下了一个名字而已,至于这个名字背后所蕴含的内容也被时间稀释的荡然无存。

为了能够获得更为准确的评测结果,在工作中零零点点的、不断地又恶补了概率统计的相关知识。例如,在音频评测中,在 ABX 测试方法 的研究过程中才又学习了置信区间、二项分布、\(p\) 值分析、假设检验等内容。

总想着更系统的学习一下概率论和梳理统计的相关知识,但是苦于没有找到合适的教程,所以迟迟没有启动自己的学习计划。直到今年无意中发现了 Sheldon M. Ross 教授的这本书(当时书的名称吸引了我,我更喜欢理论和实践相结合的书籍,例如 in Action 系列书籍),才下定决心要启动自己对统计学的系统学习计划。

就我的经验而言,如果想真正的领会某项技术,最好的方式就先读懂英文原本内容、然后用中文复述原书内容、最后把内容讲给别人听。因此,在学习的过程中,同步启动了这本书的翻译,主要的目的在于自己可以通过翻译过程不断优化自己的知识体系。

与之前翻译 数字视频概念,方法和测量指标从单体到微服务:如何迁移我们的单体架构到微服务 的不同之处在于,现在有类似 文心一言ChatGPT 等生成式大模型工具的帮助,我无疑加速了我的学习过程。

本书的示例主要是基于 R,很高兴本书开启了我的 R 学习之旅,在整个的学习过程中真的发现利用 文心一言KIMI 等生成式大模型工具真的可以事半功倍。

翻译版本中的大部分图表均是由 R 生成,所以该翻译版本也可以视为 R 的实践入门书籍。您可以直接点击 \(\blacktriangleright 代码\) 展开详细的代码,并复制以生成如下图所示的直方图。

代码
library(ggplot2)

df <- data.frame(value=rnorm(10000, 1, 1))
ggplot(df, aes(x=value)) +
    geom_histogram(bins=30)

翻译稿中的样式惯例

在翻译稿中,遵循以下的排版约定:

  • 斜体:表示英文术语、URL、电子邮件地址、文件名、文件扩展名。
  • 固定宽度:用于程序列表、段落中引用程序元素,如变量或函数名称、数据库、数据类型、环境变量、语句和关键字。
  • 粗体:突出显示重要文本和中文术语。
  • 笔记

    该部分内容是原书中没有的内容,是笔者在阅读过程中补充的相关资料和笔者的个人理解。

其它

  • 抛骰子、抛硬币是概率论中经常用到的例子,对于类似的场景,若无特殊说明,我们均指的是均匀的骰子或硬币(可以得到的任何结果都是等概率的)。
  • 凡是标题中带有 \(^*\) 的章节都属于选修章节,您可以根据自己的需要来自主选择是否学习这些章节的内容。