大模型评测 7 条原则

白居易在《钱塘湖春行》中写道:

孤山寺北贾亭西,水面初平云脚低。几处早莺争暖树,谁家新燕啄春泥。乱花渐欲迷人眼,浅草才能没马蹄。

2025 年 的春天,大模型的发展也正如诗句中所描述的意境那般:百花齐放,百家争鸣。在这个时候,大模型的评测也变得越来越重要。但是,如何才能确保在评测大模型时,能够得到正确、客观的结论呢?通过大量的实践、我们整理出了以下 7 条原则,希望能够帮助大家在评测大模型时,得到更加置信的结论。

阅读更多...

对大模型技术演化的思考

最近的一段时间,为了满足自己对于 OpenAI 发布的 Prompt Caching in the API 的强烈好奇心,对大模型的相关论文和技术做了非常多的梳理,包括了大模型的底层原理 Transformer 架构,到 GPT架构 的演变,到大模型的运行时推理、在线推理优化……

当我坐下来细细的回味这段解惑的时光,才发现畅游于大模型发展之路的沿途风景亦百花盛开。恰巧今年的工作大多和效率优化有关,再回顾一下自己的工作,发现这其中也存在很多相似的地方,例如:问题的量化与分析,优化方案的拆解,十字路口支出的技术信仰……

阅读更多...

大模型的运行时推理和 KV Cache

自注意力究竟是什么?从 Transformer 到 GPT 中,我们介绍了 Transformer 架构的详细细节,并介绍了基于 Transformer 的 GPT 架构的细节。距离我们探究 Prompt Caching 的原理又近了一步。就像 程序进程 之间的区别一样,Prompt Caching 属于运行时的范畴,因此在探究 Prompt Caching 的原理之前,我们还要继续了解大模型在部署和运行时推理方面的细节。

阅读更多...

从 Transformer 到 GPT


自注意力究竟是什么? 一文中,我们介绍了基于注意力机制的 Transformer 模型的基本原理和架构。

  • 2017年 6 月,谷歌机器翻译团队提出的机器翻译模型 Transformer 就像大语言模型的一颗种子一样,悄然落地生根,并迅速席卷了 AI 领域。
  • 一年之后,2018 年 6 月,OpenAI 发布了基于 Transformer 架构的 GPT-1[1],虽然当时还存在一些局限性,例如当时还不能根据一个给定的标题来生成一篇新闻报道;但是,谁也没想到,就是这个框架,在 4 年之后成为了 AI 领域最炙手可热的模型。
  • 4 个月后,2018 年 10 月,谷歌也发布了基于 Transformer 架构的 BERT 模型[2],与 GPT-1 相比,BERT 在很多下游任务上表现出更强劲的性能,并且也刷新了多个榜单的记录。在很长一段时间里,BERT(及其变体)一直处于各类榜单的首位,是人们谈论的焦点。
  • 直到 2022 年 3 月,OpenAI 发布了 GPT-3.5[3],并基于 GPT-3.5 于当年的 11 月 30 日正式发布了面向消费用户的产品——ChatGPT,大模型再次引起了圈内、圈外的广泛讨论,开启了新一轮的大模型时代。

这篇文章,我们就来详细的介绍一下传奇的 GPT 模型以及其原理,慢慢揭开 GPT 那神秘的面纱,也为后续对 Prompt Caching 的讨论打下坚实的基础。

阅读更多...

自注意力究竟是什么?

最近的 1 年多以来,一直使用 文心一言、豆包、Kimi 等大模型来帮助自己提高各种场景的效率,但是一直没有对当前大模型的底层原理做深入了解。在编写 Large Language Model in Action 这本书的时候,我也曾说过:

这是一本关于大语言模型实践的书籍,而不是一本深入研究大语言模型的运行原理和底层算法的书籍。

但是,2024 年 10 月 1 日,OpenAI 发布了 Prompt Caching in the API 以提升大语言模型 API 的性能。当听到这个消息的时候,我感到非常震惊,也非常兴奋,于是接下来的几天我总想搞明白这背后的原理是什么,这里的 prompt caching 又究竟是什么?

于是,我想,是时候需要深入了解一下当前大模型的起点——Transformer 模型,也是时候需要深入了解一下究竟什么是自注意力机制。

阅读更多...

推断统计方法在评估分析中的应用

产品评测的基本模型 这篇文章中,我提到了对 评测的疑惑

曾经多少次,在系统上线之前,我们从多个方面进行了评测:性能也提升了,效果也提升了,我们兴高采烈的上线,然后激动的等待着实验数据的产出,最后得到的却是效果不明显的结论。多少个不眠的夜里,我总会问自己:技术上已经有了很大的提升啦,为什么却没有在线上表现出对应的效果呢?这究竟是为什么呀?

同时,根据我的观察和实践,提出了评测的基本模型 Perception=f(Actual, Expected, UX)\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX}) 来解释了评测的疑惑。但是,仅仅依靠这个模型,我们就可以得出合理的结论吗?如上的模型,只能帮助我们获得准确的观察数据,但是如何从准确的观察数据中得出合理的结论呢?

阅读更多...

产品评测的基本模型

2024 年 7 月 25 日,我面向公司内部做了一次关于大模型多模态评测的分享,在这次的分享中,我总结了自己在产品评测和分析方面多年来的观察、实践和思考,并首次提出了 产品评测的基本模型 这一概念,并用这一模型分析了我们在实践中遇到的问题。

现在,把 产品评测的基本模型 这部分内容单独整理出来,以便能够让更多的人可以利用这个模型更好地进行产品评测。

阅读更多...

音频质量评估中的 ABX 测试

在音频编解码中,经常需要判断经过不同的编解码算法、参数而生成的音频在人的感知层面是否存在差异。虽然 成对打分 也可以用于这种场景,但是成对比较的结果可能会涉及到很多无意识的影响因素,例如不同受试者的经验、心情等。如果受试者采用随机选择的策略,对于成对比较而言,则缺乏有效的手段来对其进行识别。

阅读更多...

如何计算多组 ACR 打分的 ELO 积分

有趣的 Elo 积分系统 这篇文章中,我们介绍了 Elo 积分系统的基本原理,并介绍了我们如何在视频评估系统中采用 Elo 积分来评估不同编解码器之间的性能。不过,之前文章中介绍的是对于 成对打分 场景下应用 Elo 积分,在本文中,我们将介绍在 ACR 打分场景 下如何采用 Elo 积分评估不同方案的性能。

阅读更多...
  • Copyrights © 2020-2025 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信