Context Engineering for AI Agents

2025 年 6 月 25 日,在 Andrej Karpathy 推文 的推动下,上下文工程Context Engineering)一词迅速在 AI 开发者社区中爆火。

+1 for “context engineering” over “prompt engineering”.

但是当时主要精力放在了大模型评估的工作上,因此一直没有时间来深入研究 上下文工程Context Engineering)。直到最近,在我们构建端到端的 TestingAgent 时,我们遇到了因上下文窗口限制,多轮交互后初始重要字段丢失,导致 TestingAgent 执行失败的问题。我想,是时候来深入研究一下 上下文工程Context Engineering)了。

阅读更多...

如何根据历史胜负数据估计 Elo 打分?

最近,Grok4.1 和 Gemini3 模型的发布都提到了人类偏好打分平台——LMArena 大模型竞技场:

  • 在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分[1]
  • 刚一发布,Gemini 3就几乎屠榜所有评测集,以1501 Elo得分位列LMArena大模型竞技场第一[2]

通过对 LMArena 的榜单进行仔细分析,我们发现,不同于我们在 有趣的 Elo 积分系统 中介绍的实时更新的 Elo 分数,LMArena 的 Elo 分数还提供了 95% 置信区间的估计,同时还提供了模型上下限能力的排序。

这种新颖的打分、排序方式引起了我们的兴趣,于是我们决定深入研究 LMArena 的 Elo 评分系统,了解其背后的原理和方法,从而可以对 LMArena 的榜单有更深入的理解。

阅读更多...

如何评估知识图谱的质量

在基于我们所构建的 知识图谱 数据执行复杂任务之前,检查 知识图谱 的质量是必不可少的步骤。知识图谱 的质量检查能够确保导入数据的完整性和准确性,及早发现数据异常、关系映射错误等问题,避免低质量数据影响模型效果。同时,知识图谱 的质量检查可以为后续的图分析提供可靠的数据基础,确保后续任务的成功。本文将基于 Neo4j 的图数据科学库(GDS)介绍如何评估 知识图谱 的质量,主要包括 WCC(弱联通网络)和 Louvain Modularity 这两种算法。

阅读更多...

Cypher 初学者指南

Knowledge GrahpKG) 可用于表示现实世界中的不同实体网络并对其关系进行建模,例如:基于人和人的关系构建的社交网络图,基因与蛋白质之间的关系图…… KG 代表了一种理解数据的思维范式的转变,这有助于我们理解数据之间的关系,以便我们能够轻松识别数据中隐藏的重要模式并做出更好的决策。尤其是在生成式 LLM 快速发展的今天,KG 可以作为一种结构化的知识表示方式,为 LLM 提供更准确、更丰富、更精简的上下文信息,从而提升 LLM 的性能。

阅读更多...

Neo4j Cypher 语法速查表

Cypher 是 Neo4j 的声明式图查询语言,类似 SQL,但专为图模型设计。与其他编程语言或查询语言一样,Cypher 有一套既定的规则,用于编写可读性强且设计良好的结构。如果你对图数据库或 Cypher 还不熟悉,也不用担心,本文将为你提供一个 Cypher 语法速查表,帮助你快速上手。

阅读更多...

在阿里云上部署 Vui 语音模型

6 月初,Fluxions-AI 团队在 GitHub 上开源了一款轻量级、可在设备端运行的语音对话模型:Vui。Vui 语音模型基于 Llama transformer 架构来预测下一个语音 token。据 Fluxions-AI 团队介绍,他们在 2 张 4090 显卡上完成了 Vui 的训练,并且提供了 3 个不同的模型。Vui训练成本极低,参数量也较小,可以支持语气词的拟人化模拟,在生成效果上更自然、更逼真,并且还支持两人对话的语音生成,非常适合语聊、生成播客语音内容、采访/访谈配音等场景。

阅读更多...

自然语言是否会统一所有的行业和领域?

2025 年,大语言模型的发展进入爆发期,以 ChatGPT、Claude、Gemini、Deepseek 等为代表的大型语言模型(LLM)在文本、推理、代码、图片、视频等领域取得飞跃式的发展。在教育、医疗、工业制造等不同的行业中,大模型也有了越来越多的实际用例,展现出解决复杂问题的能力。

看起来,大模型正在向着通用人工智能(AGI)的方向发展,能够跨越多个领域而形成通用认知能力,跳出预先训练的狭窄任务范围,胜任任何智力任务(数学证明、科学发现、日常对话……),最终像人类一样理解、学习和解决不同领域的问题。

Prompt 作为与大模型交互的主要方式,其本质上还是用自然语言的方式与大模型交互。那么,未来,自然语言是否会统一所有行业和领域呢?编程语言、数学语言、化学语言、镜头语言、音乐语言……是否都会被自然语言所取代?

阅读更多...

使用阿里云PAI-DSW快速部署模型

自从 2025 年 1 月 20 日,DeepSeek-R1 发布以来,大模型行业经历了 DeepSeek 的火爆、经历了大模型厂商的密集迭代和发布、更经历了开源大模型生态的快速发展和壮大。

尤其是,开源大模型厂商会同时发布多种不同参数量的模型以满足不同的应用场景,例如 2025 年 1 月 26 日,阿里发布的 Qwen2.5-VL 系列模型 就同时提供了 3B、7B、72B 三个不同参数量的版本。以 Qwen2.5-VL-3B-Instruct 为例,其模型文件的大小仅为 7GB 左右,这使得我们可以类似 RTX 4080 这样的消费级显卡上去部署 Qwen2.5-VL-3B,以体验其模型能力。

但是,如果连 RTX 4080 这样的消费级显卡都没有,或者说我们并不想购买一张显卡来部署模型,那么我们又如何来部署模型呢?另外,虽然 Qwen2.5-VL-3B 的模型文件大小仅为 7GB 左右,但是如果我们的网络带宽比较低的时候,下载模型文件也会是一个比较耗时的过程。

阅读更多...

用示例揭开 MCP 的神秘面纱

2024 年 11 月 25 日,Anthropic 在官方博客 Introducing the Model Context Protocol 中正式开源了可以将各种工具链接到 LLM 的 MCP(Model Context Protocol)协议,以增强 LLM 的能力。

Today, we’re open-sourcing the Model Context Protocol (MCP), a new standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses.

阅读更多...

大模型评测 7 条原则

白居易在《钱塘湖春行》中写道:

孤山寺北贾亭西,水面初平云脚低。几处早莺争暖树,谁家新燕啄春泥。乱花渐欲迷人眼,浅草才能没马蹄。

2025 年 的春天,大模型的发展也正如诗句中所描述的意境那般:百花齐放,百家争鸣。在这个时候,大模型的评测也变得越来越重要。但是,如何才能确保在评测大模型时,能够得到正确、客观的结论呢?通过大量的实践、我们整理出了以下 7 条原则,希望能够帮助大家在评测大模型时,得到更加置信的结论。

阅读更多...
  • Copyrights © 2020-2025 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信