对大模型技术演化的思考

最近的一段时间,为了满足自己对于 OpenAI 发布的 Prompt Caching in the API 的强烈好奇心,对大模型的相关论文和技术做了非常多的梳理,包括了大模型的底层原理 Transformer 架构,到 GPT架构 的演变,到大模型的运行时推理、在线推理优化……

当我坐下来细细的回味这段解惑的时光,才发现畅游于大模型发展之路的沿途风景亦百花盛开。恰巧今年的工作大多和效率优化有关,再回顾一下自己的工作,发现这其中也存在很多相似的地方,例如:问题的量化与分析,优化方案的拆解,十字路口支出的技术信仰……

阅读更多...

大模型的运行时推理和 KV Cache

自注意力究竟是什么?从 Transformer 到 GPT 中,我们介绍了 Transformer 架构的详细细节,并介绍了基于 Transformer 的 GPT 架构的细节。距离我们探究 Prompt Caching 的原理又近了一步。就像 程序进程 之间的区别一样,Prompt Caching 属于运行时的范畴,因此在探究 Prompt Caching 的原理之前,我们还要继续了解大模型在部署和运行时推理方面的细节。

阅读更多...

从 Transformer 到 GPT


自注意力究竟是什么? 一文中,我们介绍了基于注意力机制的 Transformer 模型的基本原理和架构。

  • 2017年 6 月,谷歌机器翻译团队提出的机器翻译模型 Transformer 就像大语言模型的一颗种子一样,悄然落地生根,并迅速席卷了 AI 领域。
  • 一年之后,2018 年 6 月,OpenAI 发布了基于 Transformer 架构的 GPT-1[1],虽然当时还存在一些局限性,例如当时还不能根据一个给定的标题来生成一篇新闻报道;但是,谁也没想到,就是这个框架,在 4 年之后成为了 AI 领域最炙手可热的模型。
  • 4 个月后,2018 年 10 月,谷歌也发布了基于 Transformer 架构的 BERT 模型[2],与 GPT-1 相比,BERT 在很多下游任务上表现出更强劲的性能,并且也刷新了多个榜单的记录。在很长一段时间里,BERT(及其变体)一直处于各类榜单的首位,是人们谈论的焦点。
  • 直到 2022 年 3 月,OpenAI 发布了 GPT-3.5[3],并基于 GPT-3.5 于当年的 11 月 30 日正式发布了面向消费用户的产品——ChatGPT,大模型再次引起了圈内、圈外的广泛讨论,开启了新一轮的大模型时代。

这篇文章,我们就来详细的介绍一下传奇的 GPT 模型以及其原理,慢慢揭开 GPT 那神秘的面纱,也为后续对 Prompt Caching 的讨论打下坚实的基础。

阅读更多...

自注意力究竟是什么?

最近的 1 年多以来,一直使用 文心一言、豆包、Kimi 等大模型来帮助自己提高各种场景的效率,但是一直没有对当前大模型的底层原理做深入了解。在编写 Large Language Model in Action 这本书的时候,我也曾说过:

这是一本关于大语言模型实践的书籍,而不是一本深入研究大语言模型的运行原理和底层算法的书籍。

但是,2024 年 10 月 1 日,OpenAI 发布了 Prompt Caching in the API 以提升大语言模型 API 的性能。当听到这个消息的时候,我感到非常震惊,也非常兴奋,于是接下来的几天我总想搞明白这背后的原理是什么,这里的 prompt caching 又究竟是什么?

于是,我想,是时候需要深入了解一下当前大模型的起点——Transformer 模型,也是时候需要深入了解一下究竟什么是自注意力机制。

阅读更多...

推断统计方法在评估分析中的应用

产品评测的基本模型 这篇文章中,我提到了对 评测的疑惑

曾经多少次,在系统上线之前,我们从多个方面进行了评测:性能也提升了,效果也提升了,我们兴高采烈的上线,然后激动的等待着实验数据的产出,最后得到的却是效果不明显的结论。多少个不眠的夜里,我总会问自己:技术上已经有了很大的提升啦,为什么却没有在线上表现出对应的效果呢?这究竟是为什么呀?

同时,根据我的观察和实践,提出了评测的基本模型 Perception=f(Actual, Expected, UX)\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX}) 来解释了评测的疑惑。但是,仅仅依靠这个模型,我们就可以得出合理的结论吗?如上的模型,只能帮助我们获得准确的观察数据,但是如何从准确的观察数据中得出合理的结论呢?

阅读更多...

产品评测的基本模型

2024 年 7 月 25 日,我面向公司内部做了一次关于大模型多模态评测的分享,在这次的分享中,我总结了自己在产品评测和分析方面多年来的观察、实践和思考,并首次提出了 产品评测的基本模型 这一概念,并用这一模型分析了我们在实践中遇到的问题。

现在,把 产品评测的基本模型 这部分内容单独整理出来,以便能够让更多的人可以利用这个模型更好地进行产品评测。

阅读更多...

音频质量评估中的 ABX 测试

在音频编解码中,经常需要判断经过不同的编解码算法、参数而生成的音频在人的感知层面是否存在差异。虽然 成对打分 也可以用于这种场景,但是成对比较的结果可能会涉及到很多无意识的影响因素,例如不同受试者的经验、心情等。如果受试者采用随机选择的策略,对于成对比较而言,则缺乏有效的手段来对其进行识别。

阅读更多...

如何计算多组 ACR 打分的 ELO 积分

有趣的 Elo 积分系统 这篇文章中,我们介绍了 Elo 积分系统的基本原理,并介绍了我们如何在视频评估系统中采用 Elo 积分来评估不同编解码器之间的性能。不过,之前文章中介绍的是对于 成对打分 场景下应用 Elo 积分,在本文中,我们将介绍在 ACR 打分场景 下如何采用 Elo 积分评估不同方案的性能。

阅读更多...

Sora——AGI 漫漫长夜中的星光

Prompt: 一位时尚的女士漫步在东京的街道,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。街道上,许多行人走来走去。

2024 年,2 月 16 日,农历的大年初七,当我们还沉浸在春节假期的团聚与欢乐时,大洋彼岸的 OpenAI 突然发布了轰动科技街的最新研究成果——Sora。利用如上的 提示词,Sora 可以生成较高画质的、非常逼真的、长达一分钟的视频。就像当时 ChatGPT 发布一样,Sora 的发布又一次引爆了技术大讨论。正如 Sora 的开发者 Bill Peebles 所说的那样:Sora 令他们非常兴奋,他们可以通过模拟一切来不断地追求 AGI。[1]

we’re pumped about pursuing AGI by simulating everything!

阅读更多...
  • Copyrights © 2020-2024 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信