17哥

在阿里云上部署 Vui 语音模型

作者：王伟 , 马海亮

2025-06-14

LLM

6 月初，Fluxions-AI 团队在 GitHub 上开源了一款轻量级、可在设备端运行的语音对话模型：Vui。Vui 语音模型基于 Llama transformer 架构来预测下一个语音 token。据 Fluxions-AI 团队介绍，他们在 2 张 4090 显卡上完成了 Vui 的训练，并且提供了 3 个不同的模型。Vui训练成本极低，参数量也较小，可以支持语气词的拟人化模拟，在生成效果上更自然、更逼真，并且还支持两人对话的语音生成，非常适合语聊、生成播客语音内容、采访/访谈配音等场景。

自然语言是否会统一所有的行业和领域?

2025-06-01

LLM

2025 年，大语言模型的发展进入爆发期，以 ChatGPT、Claude、Gemini、Deepseek 等为代表的大型语言模型（LLM）在文本、推理、代码、图片、视频等领域取得飞跃式的发展。在教育、医疗、工业制造等不同的行业中，大模型也有了越来越多的实际用例，展现出解决复杂问题的能力。

看起来，大模型正在向着通用人工智能（AGI）的方向发展，能够跨越多个领域而形成通用认知能力，跳出预先训练的狭窄任务范围，胜任任何智力任务（数学证明、科学发现、日常对话……），最终像人类一样理解、学习和解决不同领域的问题。

Prompt 作为与大模型交互的主要方式，其本质上还是用自然语言的方式与大模型交互。那么，未来，自然语言是否会统一所有行业和领域呢？编程语言、数学语言、化学语言、镜头语言、音乐语言……是否都会被自然语言所取代？

使用阿里云PAI-DSW快速部署模型

2025-05-04

LLM

自从 2025 年 1 月 20 日，DeepSeek-R1 发布以来，大模型行业经历了 DeepSeek 的火爆、经历了大模型厂商的密集迭代和发布、更经历了开源大模型生态的快速发展和壮大。

尤其是，开源大模型厂商会同时发布多种不同参数量的模型以满足不同的应用场景，例如 2025 年 1 月 26 日，阿里发布的 Qwen2.5-VL 系列模型就同时提供了 3B、7B、72B 三个不同参数量的版本。以 Qwen2.5-VL-3B-Instruct 为例，其模型文件的大小仅为 7GB 左右，这使得我们可以类似 RTX 4080 这样的消费级显卡上去部署 Qwen2.5-VL-3B，以体验其模型能力。

但是，如果连 RTX 4080 这样的消费级显卡都没有，或者说我们并不想购买一张显卡来部署模型，那么我们又如何来部署模型呢？另外，虽然 Qwen2.5-VL-3B 的模型文件大小仅为 7GB 左右，但是如果我们的网络带宽比较低的时候，下载模型文件也会是一个比较耗时的过程。

用示例揭开 MCP 的神秘面纱

2025-04-17

LLM

2024 年 11 月 25 日，Anthropic 在官方博客 Introducing the Model Context Protocol 中正式开源了可以将各种工具链接到 LLM 的 MCP（Model Context Protocol）协议，以增强 LLM 的能力。

Today, we’re open-sourcing the Model Context Protocol (MCP), a new standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses.

大模型评测 7 条原则

2025-03-29

LLM

白居易在《钱塘湖春行》中写道：

孤山寺北贾亭西，水面初平云脚低。几处早莺争暖树，谁家新燕啄春泥。乱花渐欲迷人眼，浅草才能没马蹄。

2025 年的春天，大模型的发展也正如诗句中所描述的意境那般：百花齐放，百家争鸣。在这个时候，大模型的评测也变得越来越重要。但是，如何才能确保在评测大模型时，能够得到正确、客观的结论呢？通过大量的实践、我们整理出了以下 7 条原则，希望能够帮助大家在评测大模型时，得到更加置信的结论。

对大模型技术演化的思考

2024-12-01

总结

最近的一段时间，为了满足自己对于 OpenAI 发布的 Prompt Caching in the API 的强烈好奇心，对大模型的相关论文和技术做了非常多的梳理，包括了大模型的底层原理 Transformer 架构，到 GPT架构的演变，到大模型的运行时推理、在线推理优化……

当我坐下来细细的回味这段解惑的时光，才发现畅游于大模型发展之路的沿途风景亦百花盛开。恰巧今年的工作大多和效率优化有关，再回顾一下自己的工作，发现这其中也存在很多相似的地方，例如：问题的量化与分析，优化方案的拆解，十字路口支出的技术信仰……

Prompt Cache 究竟是什么？

2024-11-23

LLM

在介绍了 Transformer 模型、GPT 模型、大模型的运行时推理和 KV Cache 后，我们终于越来越接近于最原始的目标：OpenAI 2024 年 10 月 1 日发布的 Prompt Caching in the API。这篇文章，我们就来介绍一下 Prompt Cache 相关技术的发展并对 OpenAI 的 Prompt Caching 技术方案进行简单的分析。

大模型的运行时推理和 KV Cache

2024-11-16

LLM

在自注意力究竟是什么？和从 Transformer 到 GPT 中，我们介绍了 Transformer 架构的详细细节，并介绍了基于 Transformer 的 GPT 架构的细节。距离我们探究 Prompt Caching 的原理又近了一步。就像 程序 和 进程 之间的区别一样，Prompt Caching 属于运行时的范畴，因此在探究 Prompt Caching 的原理之前，我们还要继续了解大模型在部署和运行时推理方面的细节。

从 Transformer 到 GPT

2024-10-31

LLM

在自注意力究竟是什么？一文中，我们介绍了基于注意力机制的 Transformer 模型的基本原理和架构。

2017年 6 月，谷歌机器翻译团队提出的机器翻译模型 Transformer 就像大语言模型的一颗种子一样，悄然落地生根，并迅速席卷了 AI 领域。
一年之后，2018 年 6 月，OpenAI 发布了基于 Transformer 架构的 GPT-1^[1]，虽然当时还存在一些局限性，例如当时还不能根据一个给定的标题来生成一篇新闻报道；但是，谁也没想到，就是这个框架，在 4 年之后成为了 AI 领域最炙手可热的模型。
4 个月后，2018 年 10 月，谷歌也发布了基于 Transformer 架构的 BERT 模型^[2]，与 GPT-1 相比，BERT 在很多下游任务上表现出更强劲的性能，并且也刷新了多个榜单的记录。在很长一段时间里，BERT（及其变体）一直处于各类榜单的首位，是人们谈论的焦点。
直到 2022 年 3 月，OpenAI 发布了 GPT-3.5^[3]，并基于 GPT-3.5 于当年的 11 月 30 日正式发布了面向消费用户的产品——ChatGPT，大模型再次引起了圈内、圈外的广泛讨论，开启了新一轮的大模型时代。

这篇文章，我们就来详细的介绍一下传奇的 GPT 模型以及其原理，慢慢揭开 GPT 那神秘的面纱，也为后续对 Prompt Caching 的讨论打下坚实的基础。

自注意力究竟是什么？

2024-10-16

LLM

最近的 1 年多以来，一直使用文心一言、豆包、Kimi 等大模型来帮助自己提高各种场景的效率，但是一直没有对当前大模型的底层原理做深入了解。在编写 Large Language Model in Action 这本书的时候，我也曾说过：

这是一本关于大语言模型实践的书籍，而不是一本深入研究大语言模型的运行原理和底层算法的书籍。

但是，2024 年 10 月 1 日，OpenAI 发布了 Prompt Caching in the API 以提升大语言模型 API 的性能。当听到这个消息的时候，我感到非常震惊，也非常兴奋，于是接下来的几天我总想搞明白这背后的原理是什么，这里的 prompt caching 又究竟是什么？

于是，我想，是时候需要深入了解一下当前大模型的起点——Transformer 模型，也是时候需要深入了解一下究竟什么是自注意力机制。