产品评测的基本模型

2024-08-17

字数统计: 3.6k | 阅读时长≈ 12 分钟

2024 年 7 月 25 日，我面向公司内部做了一次关于大模型多模态评测的分享，在这次的分享中，我总结了自己在产品评测和分析方面多年来的观察、实践和思考，并首次提出了 产品评测的基本模型 这一概念，并用这一模型分析了我们在实践中遇到的问题。

现在，把 产品评测的基本模型 这部分内容单独整理出来，以便能够让更多的人可以利用这个模型更好地进行产品评测。

评测的疑惑

刚工作的时候，经常从事性能评估工作以评估当前系统的改动是否会影响系统的整体性能。那个时候，我们总能够找到各种方法构造线下的性能测试环境，并且性能指标的测试结果往往能够代表上线后的系统的真实表现。也就是说，上线前的性能测试结果和上线后的后验表现之间具备很好的相关性，所以，性能测试结果能够解释、代表上线后的系统性能。

后来，开始参与产品评测的工作，并且开始发现：从解释、指导层面讲，产品评测和之前的性能评测非常不同，产品评测的结果和上线之后的后验结果之间往往有非常大的偏差，甚至是完全相反的结论。

曾经多少次，在系统上线之前，我们从多个方面进行了评测：性能也提升了，效果也提升了，我们兴高采烈的上线，然后激动的等待着实验数据的产出，最后得到的却是效果不明显的结论。多少个不眠的夜里，我总会问自己：技术上已经有了很大的提升啦，为什么却没有在线上表现出对应的效果呢？这究竟是为什么呀？

相机 VS iPhone

后来，我看到了旧金山摄影师 OM MALIK 制作的一张全球相机和 iPhone 销量的对比图。

在这张对比图上，我们可以明显看到相机和 iPhone 之间此消彼长的态势，以及以 iPhone 为代表的智能手机对相机展开的销量 “屠杀”：

2007 年 iPhone 问世时，正处于相机的巅峰时期，其年出货量都在上亿台左右，iPhone 对相机行业的影响也微乎其微。
2012 年，随着 iPhone 5 的面世，800 万像素的手机相机镜头已经开始对相机行业带来冲击。

近几年的情况就更不用介绍了，对于普通消费者而言，手机足以满足日常拍摄需求，相机的销量被极度压缩。如今，相机的年出货量还不到 1 千万台，已经不足鼎盛时期的 10%。而 iPhone 的出货量已超过 2 亿台，是相机的近 30 倍。

在智能手机与相机图像质量：逐渐弥合的差距这篇文章中，对比了相机和手机的拍照体验，其中也提到在很多场景下，相机的性能确实是比当前的高端手机要好很多的。所以，从技术角度上讲，相机的能力并不差，甚至在某些场景（比如抓拍）还要优于手机。尤其是在几年前，相机的拍照能力远远超过手机的时候，相机的销量依然在持续下跌。

技术没问题呀，用户怎么就是不买呢？

产品评测模型

我一直在想，为什么产品评测的结果和上线后的后验表现之间往往比较大的偏差呢？这背后究竟隐藏着什么秘密和规律呢？

用户体验模型

2021 年底的时候，基于自己的观察和思考以及阅读的大量资料，我写了一篇文章：产品的用户体验模型，在这篇文章中提出了如下的用户体验模型：

\begin{aligned} &QoE = \begin{cases} \text{用户上瘾}, &\text{if } \ QoE\ > \Delta;\\ \text{基本满足}, &\text{if } \ |\ QoE\ | < \varepsilon;\\ \text{用户离去}, &\text{if } \ \ QoE\ < -\Delta \end{cases}\\ &\\ & s.t. \ \ 0 < \varepsilon \ll \Delta \end{aligned}

事情好像渐渐明晰了起来，但是好像还是没有从根本上解释产品评测的结果和上线后的后验表现之间存在偏差的原因。

评测基本模型

直到最近，在一次针对语音的多维度评估中，我们才从多个视角的评估数据中忽然发现了这其中的秘密。高兴之情溢于言表，可真是：潇潇雨，雾蒙浓，一线阳光穿云出。我把我们的发现称之为：产品评测的基本模型。

\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX})

Perception：代表着用户使用产品的感知体验。
Actual：代表着产品的实际具有的能力，比如佳能 EOS R5 Mark II 相机可以拍摄 8K 60P 的视频。
Expected：代表着用户使用产品之前的预期，即用户希望这个产品有什么能力，比如用户希望单反相机能够拍出 4K HDR 的视频。
UX：代表的用户使用产品过程中的交互体验，比如相机的 3A——自动对焦 (AF)、自动曝光 (AE) 和自动白平衡 (AWB)——使得我们在拍照过程中不需要频繁调节各种参数，大大提升了用户拍照的交互体验。

用户的感知体验不仅仅依赖于产品的实际能力，也不仅仅与用户预期有关，而是和产品的实际能力、用户预期、交互体验这三者（我们称之为感知体验三要素）有关，是这三者共同决定的。我们之前的评测往往只关注了这三者中的某个或者某两个因素，因此导致了评测结果和上线后的后验表现之间存在偏差。

Actual

产品的实际能力取决于产品的技术实力，是产品感知体验的基础和根本。没有强大的技术实力，很难纯靠贩卖预期和在细节上死扣交互体验而做出让用户满意的产品，更很难获得较好的用户感知体验。

Expected

用户预期是感知体验的显著影响力，当用户想要一个苹果时，我们却给了他一车香蕉，即便是最好的香蕉，那么用户也很难满意。在雷军的《小米创业思考》这本书中，雷军对用户预期给予了高度关注。

在《小米创业思考》一书中，雷军总结了小米成功的互联网七字诀：专注、极致、口碑、快。对于 “口碑” 这个秘诀，书里这样写到：

用户口碑是所有产品成功的关键因素，这是不言而喻的公理。

资源永远有限，对于创业公司尤其如此。只有专注，才能集中所有资源做一件事情，才能把这件事情做到极致；只有极致，才能从内心深处打动用户，用户才愿意口口相传，从而形成良好的口碑传播效应。

良好的口碑从何而来？我的理解是，好产品不一定能带来口碑，便宜的产品不一定能带来口碑，又好又便宜的产品也不一定能带来口碑，只有超过预期的产品才能带来口碑。

在《小米创业思考》这本书中，总共提到了近 40 次用户预期，在这本书的 14 个章节中，有 5 个章节提到了用户预期，从中也可以看出用户预期的重要性。在第 12 章——生态链模式——介绍小米手环的时候，书里这样写道：

为了刺激用户的超预期感，我们玩了点“小心思”，在发布产品时，我们对外宣称可以实现 30 天的超长待机（这在当时已经是个不敢想象的数字），但实际上实验数据要远大于这个数字。

很多用户使用之后才发现续航时间比说明书里说的要长很多，大大超出预期，由此进一步扩大了小米手环的口碑。

我们认为，用户预期来自两个因素：

用户的自我认知
竞品的实际能力

如何理解呢？如果小孩平时考试都是考 70 分左右（满分 100 分），忽然有一天孩子告诉你她考了 90 分，那么作为父母的我们一定会感到很高兴。过了几天，你去参加家长会，发现那次考试全班 30 个孩子有 29 个考了满分，那么此时我们可能就不会那么高兴了。

技术变化很快，各类产品层出不穷，用户的预期也随着用户自我认知的提高而不断变化。所以用户预期并不是一成不变的，而是随着用户自我认知的变化而不断变化。这要求我们在对待用户预期时，即不能刻舟求剑，也不能坐井观天，而是要用发展的眼光看待用户预期的变化。

所以，分析到此处，我们才发现了这么多年以来，我们做产品评测的第一大误区：评测的本质应该去探测用户的预期，而不是去对比产品之间的某个具体功能的差异。预期是随着人的不同而不断变化的，是分人群的，是因人而异的；但是不同产品之间的功能差异是固定的，是不因人而异的。

UX

UX 是强有力的粘合剂，是产品实际能力和用户预期之间的润滑剂。当用户预期和产品的实际能力之间出现了偏差的时候，那么就需要依靠强大的 UX 来进行一定的补偿，以避免感知体验上的巨大落差。

在电影《抓娃娃》中，有一个马继业带着奶奶和妈妈去吃海底捞的片段：

马继业钱花完了，没钱买菜，于是就带着奶奶和妈妈去海得捞改善下伙食（排队就餐时海得捞提供的免费的饮料和零食），当服务员说可以进去用餐的时候，马继业连忙说：不用不用，我们还想多排一会呢……

从这个层面来看，我们发现 Loading 动画是 UX 最伟大的发明之一。

评测基本模型中的 f

在评测的基本模型 $\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX})$ 中，除了我们上面介绍的感知体验三要素外，感知体验三要素的组合方式 $f$ 也是一个非常重要的、我们容易忽略的因素。

在同一个坐标系之中，即便对于是相同的自变量 $x$ ，如果 $f$ 不同，那么因变量 $y = f(x)$ 也将不同。

对于评测的基本模型 $\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX})$ 也是如此，即便感知体验的三要素相同，对着三要素的不同组合方式带来的感知体验也不同。正如田忌赛马的典故中所说的那样：

孙子曰：今以君之下驷与彼上驷，取君上驷与彼中驷，取君中驷与彼下驷。既驰三辈毕，而田忌一不胜而再胜，卒得王千金。

要素很重要，但是要素的组成方式和构成结构更为重要。正如我在我的 “逆向工作” 实践中提到的那样：

对于实现特定目标的系统而言，要素很重要，但是连接更为重要。结构决定性质，性质决定用途，就是这个样子。同样都是由 $C$ 原子构成，石墨和钻石的结构不同决定了其性质存在非常大的差异。

图片中的结构模型由 molview 工具生成。

到此，我们也发现了这么多年来，我们做产品评测的第二大误区：产品评测应该去探测如何组合感知体验的三要素，从而让产品获得最优的感知体验；而不是去对比产品之间的某个具体功能的差异。如何将某一要素的领先优势发挥到极致、采用什么样的结构能够避免某一要素的不足，这才是产品评测更应该关注的事情。

总结

回头想想，我们发现 $\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX})$ 这个模型源自一次评测中的数据不一致性，这也让我想起了一句话：创新源自异种文化之间的思想碰撞。当数据出现不一致的时候，可能就是创新开始的时候。

打赏

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！