深入研究 Anthropic 的 Agent 评估实践

2026 年 1 月 9 日,Anthropic 发布了一篇题为 Demystifying evals for AI agents [1]的博文,详细介绍了他们在评估 Agent 方面的思考、实践和方法。恰巧,我们在 LLM 评估领域也做了一些工作,并且也遇到了很多亟待解决的问题,因此对这篇博文产生了浓厚的兴趣。于是,花了几天时间,认真研习了这篇博文,并对其中的内容进行了整理和总结。

阅读更多...

对 Agent Skills 的认知与思考

自从 12 月 9 日,Anthropic 的 Barry Zhang 和 Mahesh Murag 在内部做了一个名为 Stop Building Agents, Build Skills Instead[1] 的分享之后,Skills 突然就火了起来。微信公众号、小红书等平台上涌现出了大量的介绍 Skills 的文章。一开始对这个概念也是迷迷糊糊的,于是就花了点时间阅读了 Claude 官方对 Skills 的所有博客与文档,自己也写了一个简单的 Skills 体验了一把这个火得不能再火的技术。

Skills 的本质

  • Agent Skills 通过工程层面的优化,改变了 如何管理如何交付如何使用 大模型能力的方式,让 Agent 的构建更加简便、可控。
  • 从技术层面看,Agent Skills 并没有改变 LLM 的底层原理,Transformer 架构没变、权重没变、预测下一个 token 的逻辑也没变……
阅读更多...

Context Engineering for AI Agents

2025 年 6 月 25 日,在 Andrej Karpathy 推文 的推动下,上下文工程Context Engineering)一词迅速在 AI 开发者社区中爆火。

+1 for “context engineering” over “prompt engineering”.

但是当时主要精力放在了大模型评估的工作上,因此一直没有时间来深入研究 上下文工程Context Engineering)。直到最近,在我们构建端到端的 TestingAgent 时,我们遇到了因上下文窗口限制,多轮交互后初始重要字段丢失,导致 TestingAgent 执行失败的问题。我想,是时候来深入研究一下 上下文工程Context Engineering)了。

阅读更多...

如何根据历史胜负数据估计 Elo 打分?

最近,Grok4.1 和 Gemini3 模型的发布都提到了人类偏好打分平台——LMArena 大模型竞技场:

  • 在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分[1]
  • 刚一发布,Gemini 3就几乎屠榜所有评测集,以1501 Elo得分位列LMArena大模型竞技场第一[2]

通过对 LMArena 的榜单进行仔细分析,我们发现,不同于我们在 有趣的 Elo 积分系统 中介绍的实时更新的 Elo 分数,LMArena 的 Elo 分数还提供了 95% 置信区间的估计,同时还提供了模型上下限能力的排序。

这种新颖的打分、排序方式引起了我们的兴趣,于是我们决定深入研究 LMArena 的 Elo 评分系统,了解其背后的原理和方法,从而可以对 LMArena 的榜单有更深入的理解。

阅读更多...

如何评估知识图谱的质量

在基于我们所构建的 知识图谱 数据执行复杂任务之前,检查 知识图谱 的质量是必不可少的步骤。知识图谱 的质量检查能够确保导入数据的完整性和准确性,及早发现数据异常、关系映射错误等问题,避免低质量数据影响模型效果。同时,知识图谱 的质量检查可以为后续的图分析提供可靠的数据基础,确保后续任务的成功。本文将基于 Neo4j 的图数据科学库(GDS)介绍如何评估 知识图谱 的质量,主要包括 WCC(弱联通网络)和 Louvain Modularity 这两种算法。

阅读更多...

Cypher 初学者指南

Knowledge GrahpKG) 可用于表示现实世界中的不同实体网络并对其关系进行建模,例如:基于人和人的关系构建的社交网络图,基因与蛋白质之间的关系图…… KG 代表了一种理解数据的思维范式的转变,这有助于我们理解数据之间的关系,以便我们能够轻松识别数据中隐藏的重要模式并做出更好的决策。尤其是在生成式 LLM 快速发展的今天,KG 可以作为一种结构化的知识表示方式,为 LLM 提供更准确、更丰富、更精简的上下文信息,从而提升 LLM 的性能。

阅读更多...

Neo4j Cypher 语法速查表

Cypher 是 Neo4j 的声明式图查询语言,类似 SQL,但专为图模型设计。与其他编程语言或查询语言一样,Cypher 有一套既定的规则,用于编写可读性强且设计良好的结构。如果你对图数据库或 Cypher 还不熟悉,也不用担心,本文将为你提供一个 Cypher 语法速查表,帮助你快速上手。

阅读更多...

在阿里云上部署 Vui 语音模型

6 月初,Fluxions-AI 团队在 GitHub 上开源了一款轻量级、可在设备端运行的语音对话模型:Vui。Vui 语音模型基于 Llama transformer 架构来预测下一个语音 token。据 Fluxions-AI 团队介绍,他们在 2 张 4090 显卡上完成了 Vui 的训练,并且提供了 3 个不同的模型。Vui训练成本极低,参数量也较小,可以支持语气词的拟人化模拟,在生成效果上更自然、更逼真,并且还支持两人对话的语音生成,非常适合语聊、生成播客语音内容、采访/访谈配音等场景。

阅读更多...

自然语言是否会统一所有的行业和领域?

2025 年,大语言模型的发展进入爆发期,以 ChatGPT、Claude、Gemini、Deepseek 等为代表的大型语言模型(LLM)在文本、推理、代码、图片、视频等领域取得飞跃式的发展。在教育、医疗、工业制造等不同的行业中,大模型也有了越来越多的实际用例,展现出解决复杂问题的能力。

看起来,大模型正在向着通用人工智能(AGI)的方向发展,能够跨越多个领域而形成通用认知能力,跳出预先训练的狭窄任务范围,胜任任何智力任务(数学证明、科学发现、日常对话……),最终像人类一样理解、学习和解决不同领域的问题。

Prompt 作为与大模型交互的主要方式,其本质上还是用自然语言的方式与大模型交互。那么,未来,自然语言是否会统一所有行业和领域呢?编程语言、数学语言、化学语言、镜头语言、音乐语言……是否都会被自然语言所取代?

阅读更多...

使用阿里云PAI-DSW快速部署模型

自从 2025 年 1 月 20 日,DeepSeek-R1 发布以来,大模型行业经历了 DeepSeek 的火爆、经历了大模型厂商的密集迭代和发布、更经历了开源大模型生态的快速发展和壮大。

尤其是,开源大模型厂商会同时发布多种不同参数量的模型以满足不同的应用场景,例如 2025 年 1 月 26 日,阿里发布的 Qwen2.5-VL 系列模型 就同时提供了 3B、7B、72B 三个不同参数量的版本。以 Qwen2.5-VL-3B-Instruct 为例,其模型文件的大小仅为 7GB 左右,这使得我们可以类似 RTX 4080 这样的消费级显卡上去部署 Qwen2.5-VL-3B,以体验其模型能力。

但是,如果连 RTX 4080 这样的消费级显卡都没有,或者说我们并不想购买一张显卡来部署模型,那么我们又如何来部署模型呢?另外,虽然 Qwen2.5-VL-3B 的模型文件大小仅为 7GB 左右,但是如果我们的网络带宽比较低的时候,下载模型文件也会是一个比较耗时的过程。

阅读更多...
  • Copyrights © 2020-2026 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信