用示例揭开 MCP 的神秘面纱

2024 年 11 月 25 日,Anthropic 在官方博客 Introducing the Model Context Protocol 中正式开源了可以将各种工具链接到 LLM 的 MCP(Model Context Protocol)协议,以增强 LLM 的能力。

Today, we’re open-sourcing the Model Context Protocol (MCP), a new standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses.

阅读更多...

大模型评测 7 条原则

白居易在《钱塘湖春行》中写道:

孤山寺北贾亭西,水面初平云脚低。几处早莺争暖树,谁家新燕啄春泥。乱花渐欲迷人眼,浅草才能没马蹄。

2025 年 的春天,大模型的发展也正如诗句中所描述的意境那般:百花齐放,百家争鸣。在这个时候,大模型的评测也变得越来越重要。但是,如何才能确保在评测大模型时,能够得到正确、客观的结论呢?通过大量的实践、我们整理出了以下 7 条原则,希望能够帮助大家在评测大模型时,得到更加置信的结论。

阅读更多...

对大模型技术演化的思考

最近的一段时间,为了满足自己对于 OpenAI 发布的 Prompt Caching in the API 的强烈好奇心,对大模型的相关论文和技术做了非常多的梳理,包括了大模型的底层原理 Transformer 架构,到 GPT架构 的演变,到大模型的运行时推理、在线推理优化……

当我坐下来细细的回味这段解惑的时光,才发现畅游于大模型发展之路的沿途风景亦百花盛开。恰巧今年的工作大多和效率优化有关,再回顾一下自己的工作,发现这其中也存在很多相似的地方,例如:问题的量化与分析,优化方案的拆解,十字路口支出的技术信仰……

阅读更多...

大模型的运行时推理和 KV Cache

自注意力究竟是什么?从 Transformer 到 GPT 中,我们介绍了 Transformer 架构的详细细节,并介绍了基于 Transformer 的 GPT 架构的细节。距离我们探究 Prompt Caching 的原理又近了一步。就像 程序进程 之间的区别一样,Prompt Caching 属于运行时的范畴,因此在探究 Prompt Caching 的原理之前,我们还要继续了解大模型在部署和运行时推理方面的细节。

阅读更多...

从 Transformer 到 GPT


自注意力究竟是什么? 一文中,我们介绍了基于注意力机制的 Transformer 模型的基本原理和架构。

  • 2017年 6 月,谷歌机器翻译团队提出的机器翻译模型 Transformer 就像大语言模型的一颗种子一样,悄然落地生根,并迅速席卷了 AI 领域。
  • 一年之后,2018 年 6 月,OpenAI 发布了基于 Transformer 架构的 GPT-1[1],虽然当时还存在一些局限性,例如当时还不能根据一个给定的标题来生成一篇新闻报道;但是,谁也没想到,就是这个框架,在 4 年之后成为了 AI 领域最炙手可热的模型。
  • 4 个月后,2018 年 10 月,谷歌也发布了基于 Transformer 架构的 BERT 模型[2],与 GPT-1 相比,BERT 在很多下游任务上表现出更强劲的性能,并且也刷新了多个榜单的记录。在很长一段时间里,BERT(及其变体)一直处于各类榜单的首位,是人们谈论的焦点。
  • 直到 2022 年 3 月,OpenAI 发布了 GPT-3.5[3],并基于 GPT-3.5 于当年的 11 月 30 日正式发布了面向消费用户的产品——ChatGPT,大模型再次引起了圈内、圈外的广泛讨论,开启了新一轮的大模型时代。

这篇文章,我们就来详细的介绍一下传奇的 GPT 模型以及其原理,慢慢揭开 GPT 那神秘的面纱,也为后续对 Prompt Caching 的讨论打下坚实的基础。

阅读更多...

自注意力究竟是什么?

最近的 1 年多以来,一直使用 文心一言、豆包、Kimi 等大模型来帮助自己提高各种场景的效率,但是一直没有对当前大模型的底层原理做深入了解。在编写 Large Language Model in Action 这本书的时候,我也曾说过:

这是一本关于大语言模型实践的书籍,而不是一本深入研究大语言模型的运行原理和底层算法的书籍。

但是,2024 年 10 月 1 日,OpenAI 发布了 Prompt Caching in the API 以提升大语言模型 API 的性能。当听到这个消息的时候,我感到非常震惊,也非常兴奋,于是接下来的几天我总想搞明白这背后的原理是什么,这里的 prompt caching 又究竟是什么?

于是,我想,是时候需要深入了解一下当前大模型的起点——Transformer 模型,也是时候需要深入了解一下究竟什么是自注意力机制。

阅读更多...

推断统计方法在评估分析中的应用

产品评测的基本模型 这篇文章中,我提到了对 评测的疑惑

曾经多少次,在系统上线之前,我们从多个方面进行了评测:性能也提升了,效果也提升了,我们兴高采烈的上线,然后激动的等待着实验数据的产出,最后得到的却是效果不明显的结论。多少个不眠的夜里,我总会问自己:技术上已经有了很大的提升啦,为什么却没有在线上表现出对应的效果呢?这究竟是为什么呀?

同时,根据我的观察和实践,提出了评测的基本模型 Perception=f(Actual, Expected, UX)\text{Perception} = f(\text{Actual}, \ \text{Expected}, \ \text{UX}) 来解释了评测的疑惑。但是,仅仅依靠这个模型,我们就可以得出合理的结论吗?如上的模型,只能帮助我们获得准确的观察数据,但是如何从准确的观察数据中得出合理的结论呢?

阅读更多...

产品评测的基本模型

2024 年 7 月 25 日,我面向公司内部做了一次关于大模型多模态评测的分享,在这次的分享中,我总结了自己在产品评测和分析方面多年来的观察、实践和思考,并首次提出了 产品评测的基本模型 这一概念,并用这一模型分析了我们在实践中遇到的问题。

现在,把 产品评测的基本模型 这部分内容单独整理出来,以便能够让更多的人可以利用这个模型更好地进行产品评测。

阅读更多...

音频质量评估中的 ABX 测试

在音频编解码中,经常需要判断经过不同的编解码算法、参数而生成的音频在人的感知层面是否存在差异。虽然 成对打分 也可以用于这种场景,但是成对比较的结果可能会涉及到很多无意识的影响因素,例如不同受试者的经验、心情等。如果受试者采用随机选择的策略,对于成对比较而言,则缺乏有效的手段来对其进行识别。

阅读更多...
  • Copyrights © 2020-2025 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信