普通视图

发现新文章，点击刷新页面。

昨天以前bang’s blog

做好 AI Agent 最重要的是什么

bang’s blog

作者 bang

2025年4月27日 18:15

是评测，或者说是基准测试(Benchmark)。

为什么？

因为我们已经有足够的技术方案，只要定义清楚我们要解决的问题（基准测试），就能解决它。

OpenAI 姚顺雨近期提出“AI下半场”的概念，我们已经拥有了

存储大量知识的预训练模型（先验知识），并知道怎么持续训练它
通过这个模型做思考推理并执行动作的 Agent 能力（环境）
强化学习算法

为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用，整个方案已经标准化，能很好地泛化，所有场景都适用，能快速攻破一个又一个的基准测试。

重点会变成，我们应该定义什么样的基准测试？我们已经有涵盖数学推理编程等领域非常多的基准测试，经常大模型发布刷分刷得飞起，但对现实世界的影响却并没有那么大。

显然我们应该定义更能贴近现实世界问题的基准测试，只要定义了，用上述方案就能持续优化解决它：基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。

而定义的基准测试越贴近现实世界，对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题，也是做好 AI Agent 最重要的问题。（AI Agent 就是目前 AI 的代表，大模型有先验知识和推理能力，Agent 给大模型装上环境感知和行动能力，要解决现实世界的问题，一定需要 Agent）

是什么？

什么是贴近现实世界的基准测试？

过去大量的基准测试，基本是封闭世界的固定任务，例如数学题、算法题、围棋、游戏，能明确定义问题、规则、答案，定义这样的基准测试是比较容易的，规则和过程都是现成的，推理也可以属于这一类，大模型发展到这个阶段，解决这些问题也是相对容易的。

但这些任务与现实世界大家日常要解决的问题距离太远，并不是现实世界的环境，因为之前缺乏感知和处理现实世界海量复杂规则任务的能力，现在大模型和 Agent 已经初步具备了这个能力。

目前有比较多横切面上单一维度的基准测试，包括规划能力（PlanBench、AutoPlanBench等）、工具调用能力（ToolBench、BFCL等）、反思能力（LLF-Bench、LLM-Evolve等），也有大统一的通用任务完成能力的基准测试，主要是操作浏览器和操作电脑方面，例如 OpenAI 的 browsecomp （评测复杂信息检索和理解能力），学术界的 OSWorld （评测理解 GUI 操作完成任务的能力）。

但这些横切面或者通用的基准测试，可能并不是用户关心的。AI Agent 要实用，用户角度上更关注的是垂直任务上的能力，例如它能不能帮我写好代码，做好客服，创作出好的故事，给出好的调研报告等。当前行业处于早期，先把基础通用的问题做好基准测试去解决，达到一定阈值后，垂直领域任务上的基准测试才是更重要的。

如果简单分类，可以把这些任务分为两类：目标明确和不明确的任务。

目标明确的任务

现实中有些任务，有很明确的结果是否正确的定义，能像数学那样有标准答案，但过程中又是需要跟现实环境不断交互。典型的是 AI Coding，程序能不能跑通，bug有没有修复，都是能明确验证的。其他的还有像客服、数据分析等。

这一类是最容易被 AI 突破，但要定义出好的基准测试也不容易。

发展得最好的 AI Coding，在这个领域最权威的基准测试是 SWE-Bench，它已经在尽量贴近现实世界去定义问题，以解决 github 上的真实 issue 为出发点，但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右，但实际用起来，Claude 3.5 在可用性上高出一个档次，没有其他基准测试能反应 Claude 3.5 断档的效果，而 Claude 3.7 分数高达70%，但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后，windsurf、cursor、trae、argument 等几十个 AI Coding 工具，他们实际效果差异怎样，如何评测衡量，都是不清楚的。

SWE-Bench 只覆盖了 Coding 的一部分，大型项目理解能力、视觉动画开发能力、代码CR、需求理解等，要补的基准测试还有很多，现在也有 SWE – bench Multimodal、AgentBench、SWELancer 这些基准测试在不断推出试图覆盖。

其他领域还没看到有相关的基准测试。

目标不明确的任务

大部分现实世界的任务，都是结果难以明确定义的，不是非黑即白。例如调研报告、旅行规划、简历筛选面试，各种涉及文字/图片/视频创作的场景，比如营销、故事创作、邮件回复沟通等，结果的好坏很多只有人能判断。

Deepseek 年初的一波火爆，除了各项分数刷爆外，其中有一个原因是它输出的中文质量很好，但这个点并没有基准测试能衡量到，因为确实是很难定义什么样的文字是明确的好，跟文化/偏好品味/逻辑性/多样性等都有关系。

图片视频生成也一样，过了一定门槛后，生成的图片怎样才算更好，也是有很多维度和人的主观判断，目前没有基准测试能做到。

如何做好这类任务的评测？

靠人工：例如对于图片生成，常见的做法是分维度人工打分，给不同模型生成的结果人工打分综合对比，文章/视频也可以是同样的评测方式。另外也有在线盲测PK，做大批量结果PK对比，按总得分区分各模型的排行。对于自己产品内部迭代，也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与，主观成分大，难以形成公认的标准基准测试。
靠模型：模型理解能力逐渐增强，它能拥有人一样的评估能力，就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估，当前像4o这样的多模态模型理解能力越来越强，是能评估出部分好坏。文字也一样，可以有评估模型去评估，模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK，定义好相关数据集、评估维度，就可以是一个基准测试，只是目前模型还没达到能与人工评估媲美的程度。
靠任务分解：不衡量整体结果，只衡量中间可明确定义的部分，把任务部分转成上面提到的目标明确的任务。例如邮件沟通，只评估邮件内是否含有需要的关键信息，旅行规划，只评估是否符合定性的偏好（如最低价）、订机票API调用等操作是否正确。

如果要让 Agent 在各个领域上能很好发挥作用产出价值，可能每个领域都有自己的垂类 Agent，也都需要定义自己的一个或多个基准测试去覆盖这个领域，AI Coding 领域跑得最快，已经有多个，像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务，每一类任务可能都需要一个基准测试，去衡量谁在这个任务上做得最好，去促进这个任务成功率的提升。

如果要做一个垂类 Agent，最值得做的是把基准测试定义好，比较像软件开发的TDD(测试驱动开发)，在 AI 时代这种做法可能更重要，它明确问题定义，指引优化方向，提供优化数据，不会受到模型升级的影响，是这个领域 Agent 的重要资产。

附：

大模型基准测试大全：https://github.com/onejune2018/Awesome-LLM-Eval

《Survey on Evaluation of LLM-based Agents》：https://arxiv.org/abs/2503.16416

HAL（批量跑 Agent 基准测试的框架）：https://github.com/princeton-pli/hal-harness/

Browser Use 原理解析-为一个小项目能融1700万美元

bang’s blog

作者 bang

2025年4月7日 20:29

Browser Use 成为近期的明星项目，两个人的纯技术开源项目，核心代码 8000 行，融资 1700 万美元，让人好奇它具体做了什么，为什么这么值钱。

做了什么？

简单说 Browser Use 让大语言模型对网页的识别和操作的效率、准确度变高了，有利于 Agent 完成任务。

目前要让 AI Agent 完成任务，可以直接让 AI 浏览网页，像人一样去理解页面，执行操作，之前一般的做法主要靠截屏：

其他产品（Anthropic 的 Computer use、OpenAI 的 Operator 等）操作 GUI，主要靠 VLM 识别截屏，再输出要操作的坐标位置，Agent 执行操作。
在这过程中，web 的源码也可以加入上下文，让模型获得更多信息，但 web 源码内容太多，信息噪音太大，token 消耗也高。

而 Browser User 对 web 页面做了结构化处理，翻译成大模型友好的格式，再输入 LLM 识别。举例 Google 首页：

1.Browser use 会在页面上嵌入脚本，遍历 DOM 结构，找出页面上的元素，显式打上标记：

2. 转换为以下纯文本：

[Start of page]
[1]<a Gmail >Gmail/>
[2]<a 搜索图片 >图片/>
[3]<div />
[4]<a false;button;Google 应用/>
[5]<a 登录/>
[6]<img />
[7]<div />
[8]<textarea 搜索;false;q;combobox;Google 搜索/>
[9]<div />
[10]<div 按图搜索;button/>
[11]<input button;Google 搜索;btnK;submit/>
[12]<input btnI; 手气不错 ;submit/>
[13]<a English/>
[14]<a Bahasa Melayu/>
[15]<a தமிழ்/>
[16]<a 关于 Google/>
[17]<a 广告/>
[18]<a 商务/>
[19]<a Google 搜索的运作方式/>
[20]<a 隐私权/>
[21]<a 条款/>
[22]<div false;button/>
[23]<div 设置/>
[End of page]

内容格式极简，关键信息都有，提取了所有可交互元素，模型完全可以通过这些信息“看”和“操作”网页。

例如要执行搜索，模型很容易判断搜索框是索引为[8]的元素，Agent只需要把元素[8]对应的 XPath 拿出来，获取到页面上对应的元素，执行操作就可以。

所以 Browser Use 使用非多模态的模型例如 Deepseek 也可以跑起来，不依赖截图识别。但如果是多模态模型，截图也默认会一起输入模型，提升识别准确率。

Browser Use 核心就是做了这个点，剩下的就是怎样把流程串起来。

实现细节

核心代码包括四个部分：agent 负责决策和串流程，controller 负责转换决策为具体操作，dom 负责网页分析，browser 负责与实际浏览器交互。

agent：实现了个小型 AI Agent，负责串起流程，管理上下文信息，决策生成下一步指令，让 Browser Use 可以一步步完整执行一个任务（例如购买机票），这也让 Browser Use 变成易于集成为 Agent
1. service.py 实现了典型的 Agent 的 ReAct 模式，推理 → 执行步骤 → 模型观察结果下一步。可单独配置 plan 模型。
2. message_manager 管理消息历史，并做了一些类似敏感数据过滤、图片内容处理等。
3. memory 实现记忆功能，基于mem0，但目前应该只实现了一半，只把每步存起来，没有调取使用。
controller：负责控制和执行浏览器操作的高级指令，是连接AI代理和浏览器操作的桥梁。
1. registry/ 实现了 Action 的注册和管理能力
2. service.py 定义和注册了所有可用的浏览器 Action，click/go_to_url/input_text等。
dom：对 web 页面的处理和分析，生成上述 AI 友好的文本结构。
1. buildDomTree.js 是嵌入页面的 JS 脚本，遍历 dom 过滤出可交互元素，绘制高亮框等。
2. service.py 操作 JS 注入、节点信息获取、跨域处理等能力，views.py 提供 DOM 节点在 python 的数据模型。
browser：对接 Playwright，在它上面封装了一些能力。
1. context.py 管理浏览器上下文，以及一些细节功能处理，像标签页/导航管理、截图、定位和获取元素、URL白名单检测、文件下载处理等。
2. browser.py 封装了浏览器实例的创建和配置。

它也用到了很多开源项目和服务：

Playwright：微软开发的 web 自动化测试框架，核心是提供了用代码命令操作浏览器的能力，这能力刚好是 AI Agent 需要的，Browser Use 只需要基于它做上层开发。如果只需要浏览器的能力，官方也有封装的 MCP 服务(github.com/microsoft/playwright-mcp)
LangChain：Agent 基于 LangChain 构造，主要用到模型调用和 message 管理。
Laminar：trace / 评估 AI 产品的服务，Laminar 对 LangChain / OpenAISDK 等框架做好了适配，加一行代码就可以对 Browser Use 整个 Session 调用链路调用过程进行追踪和评估。Laminar 跟 Browser User 一样也是 YC 初创公司，开源→服务的打法。跟另一个项目 openllmetry 类似，都是基于 OpenTelemetry 做 AI 的监控分析工具，这个赛道也很卷。
posthog：数据采集，让 Browser Use 的作者能更好知道项目被使用的情况，会收集一些使用数据上报到 posthog，Agent的执行过程都会上报，对数据敏感的可以关了。
mem0：专为 LLM 提供的记忆层服务，分级存储用户信息、RAG 召回、易用的 API。也是开源+服务的模式。
浏览器服务：Browser Use 支持连接远程的 Browser 服务去执行任务（这也是 Playwright 支持的），官方文档里推荐的就有 browserbase.com、anchorbrowser.com、steel.dev、browserless.io 这几个服务。

其他就是一些配套实现了，gif 动图、多种模型调用的 example、test case 等。

为什么这么值钱

一个并不复杂的开源项目，得到市场这么大的认可，事后分析，可能是因为：

是 Agent 的核心基础设施
1. Agent 跟现实世界交互，最优方案是通过 API，而不是 GUI 界面，所以基于 MCP 统一协议封装 API 是当下一大热门。
2. 但绝大多数服务没有 API，只有给人类提供的 GUI，现阶段要让 Agent 用处更广泛，还是得让它能理解、使用 GUI，而 Browser 是 GUI 的主要容器，在现阶段就是最核心的基础设施之一。
有很高的上限
1. Browser 足够复杂，需要持续迭代，优化识别率、上下文管理、新的评测机制、探索模型上限等，深耕能形成壁垒。
2. Browser 一定有很强的云服务诉求，要各种上层 Agent 自己部署容器和 Browser 成本太高，商业化路径清晰。
在这个领域做到了 SOTA
1. 据 Browser Use 自己的评测，在 WebVoyager Benchmark 上获得业界最好的效果：
2. 从近期声量、github 的活跃上看，稳居头部。

有需求，有商业化，有流量，在这个时间点让它很值钱。

想法

长期看，模型直接理解截屏是更自然更能 scale up 的做法，所有信息截屏都有，大模型应该像人一样能准确识别和操作，模型公司应该会一直在这条路上尝试。
Browser Use 是在模型能力不足时期的中间优化方案，如果这个时期足够长，它就价值很大，如果模型很快突破，它就会失去价值。
可以用同样的思路复刻 Mobile Use，iOS / Android 都有现成的 accessibility 能力，能拿到当前界面结构化的数据，只是会有沙盒的各种限制，这事很适合系统厂商去做。桌面端应该也可以。
Agent 上下游相关配套基建都处于起步阶段，小团队很有机会把其中某个点做出彩。

bang’s blog
GTC 2025 见闻bang
2025年3月28日 21:50

GTC 2025 见闻

bang’s blog

作者 bang

2025年3月28日 21:50

参加了 NVidia GTC (GPU Technology Conference)，由于英伟达的地位，这会也已经成了 AI 开发者最大的交流会，很多公司和业内人士都会过来分享、交流，大概写下会议中相关见闻感受。

Keynote

老黄没提词器洋洋洒洒讲了两个多小时，出了小状况还会开个小玩笑，大佬范很足，也满满的理工男既视感，非常多的数字和未经包装的细节，不过感觉会讲得有些啰嗦。

总的来说，核心论证的是世界对 GPU 诉求会越来越大，而 NVidia 在 GPU 这个领域会持续遥遥领先。

GPU诉求

计算机的核心从 CPU 转向 GPU，上个时代依靠程序员写代码指挥 CPU 执行指令解决问题，构成了现在庞大的 IT 产业，程序员是中心。现在的时代逐渐转变，GPU 生产的 token 逐渐能解决越来越多的问题，能思考，能生成代码指挥 CPU 去执行解决问题，计算的核心一定会转向 GPU，世界对 GPU 的需求只会越来越高。

给 AI 分了四个阶段，Perception AI → Generative AI → Agentic AI → Physical AI，不是很认同，Agentic 和 Physical 都是 Generative AI 的延续，不过无所谓，可以看到 Agentic 这个概念实在是火爆。

Scaling Law 没有停止，Agentic AI 需要深度思考，深度思考有新的 Test-time Scaling Law，越多的 token 输出效果越好需，要多轮理解和工具调用对 token 的消耗更是指数级上涨。

Physical AI 要更好地理解现实世界，声音/视觉/触感，都会比纯文本思考对 token 消耗的诉求更高，像 2G 时代看文字新闻，3G 4G 图片，5G 视频一样。

这两个发展中的领域对 GPU 的需求只会越来越高，Deepseek 做的优化也不足以影响这个需求的增长，这个市场不容质疑。

NVidia 优势

GPU 需求量是高，但未来大家一定会买 NVidia 卡吗？当然。NVidia 这一代 blackwell 算力是 hopper 的 68 倍，下一代计划明年推出的 Rubin 算力是 hopper 的900 倍，一年一迭代，远比摩尔定律快的速度，还做了大量的大规模部署的优化，省电、稳定，号称买越多，省越多，赚越多，竞对看起来会很难追上。这些论述还是挺能让人 buyin 的。

Agentic AI

Agent 的相关 session 有接近 200 个，Agent 集合了几个元素：

概念火，一些涉及 Workflow/RAG 什么的 AI 应用都统一称为 Agent 了，GenAI 在各行业的落地都可以冠以 Agent 的名义，跟以前 H5 那样，不纠结于具体定义，只要有一个统一称呼。
人群广，Agent 目前主要是在上层的工程架构上，大量的工程师都能理解、参与讨论、建设，不像基础模型训练，多数人难以参与。
应用广，非研发也能大概听得懂，涵盖了 AI 在各行业的应用这个课题，各行业都会有兴趣了解 Agent 是什么，自己业务上能怎么用。

所以 Agent 相关的 session 大部分都很热门。听完一些的感受：

多数做企业服务、云的公司都在卷 Agent 的基建和解决方案，像基础设施公司 Fireworks AI、Nebius，数据库公司 Couchbase、datastax，企业服务公司 serviceNow、Dropbox，新兴公司 huggingface、langchain、langflow 等，都来分享推广在 Agent 这事上能提供的能力和服务。
Agent 相关的建设都在刚起步，基本都是在分享概念、工程问题的优化和应用方案，没看到有涉及模型训练去优化 Agent 效果上限的相关分享。Agent 的一些关键课题上一篇文章有提到，基本差不太多。
也没有讨论 Agent 在工程和模型上的界限，后续端到端的模型进步，能吃掉多少 Agent 能做的事？这两天 4o 的图生成出来后，预计后面才会有更多的讨论。

NVidia AI 基础服务

NVidia 作为领头羊，是希望自己能覆盖 AI 全链路基础设施的，大力在 AI 的每一层都提供了相关框架、服务、能力，这次会议上也有非常多的分享和推广。

其中跟 AI 应用 / Agent 相关的几个基建：

BluePrint：应用蓝图。给了很多 AI 应用场景的 example 工作流（也称为 Agent），例如 PDF 转博客、数字人应用等，提供工作流架构、数据集、源码，可定制，供开发者快速参考和部署。
NIM（NVIDIA Inference Microservices**）**：模型推理。把模型推理封装在 Docker 容器里，可以直接快速部署，对外提供标准化API。也封装了模型在不同 GPU 型号下的优化，提升性能效率。
NeMo（Neural Modules）：模型训练。提供了相关工具用于构建、定制、训练 AI 模型，训练后的模型可以通过 NIM 部署。
AgentIQ：开源 Agent 开发套件，支持组合链接不同框架创建的 Agent，提供性能 profiler、评估、UI 界面等工具。

这些基建的声量比较低，国内没怎么见到，不确定海外使用情况怎样。

多个 session 都在推广 NVidia 的 Video Search and Summarization Agent，串联从视频的获取→分割→VLM识别、CV物体识别和跟踪→数据处理存储和RAG召回→用户对话整个流程，做到可以对视频提供实时分析和报警，也可以自然语言交互查询视频内容，边缘部署，适合用于监控，算是用 NVidia 技术栈做 AI 应用的一个标杆范例。

AIGC

关注了下视频 AIGC 相关的几个 Session

在好莱坞干了几十年的视觉效果的 Ed Ulbrich 开了个公司 Metaphysic，以前的电影特效制作成本巨大，对人的处理还很难跨过恐怖谷，而基于 AI 技术做特效，用完全不同的技术栈，效果好成本低，是一种颠覆。metaphysic 给娱乐行业提供人脸替换、数字人的服务，看起来是用的 GAN，在人物换脸技术上，GAN 还是更能做到稳定和实时，特别是实时这个点，基于 diffusion 很难做到。基于市场需求，利用已有的不同技术(甚至是上一代技术)深入解决问题，是有空间的。
PixVerse Co-Founder 在一次对话中聊到，视频实时生成的能力差不多要 ready 了，目前 5 秒的视频可以做到5-10秒推理完成，可能会解锁新的人跟视频的交互方式。不确定质量怎样，质量达到一个阈值，以前设想的很多类似自定义剧情走向的新玩法新交互有很大空间。
Adobe 和 OpenSora 都来分享了视频生成模型的训练和推理的方案和优化，鉴于已经不是SOTA模型，可参考性不高。TCL 分享了AI电影制作，很惊讶这公司竟然在做这个，更多的是在做链路串联，而不是端到端的视频模型。

其他

OpenAI 只来了两个人给 blackwell 架构站站台，Anthropic 一个人也没来，从这上看，这行业最领先的技术还是很 close，毕竟是核心竞争力，而且很容易被复刻，不像上个时代，大规模并发架构等技术，更重的是实践中解决具体问题，大方案分享了问题不大。（所以 DeepSeek 开源最领先的技术带来的冲击才会那么大。）
DeepSeek 就是 Reasoning Model 的代名词，开源模型的顶流，出镜率极高，老黄的 keynote、各种演讲里都有它的身影，而 llama 通常是作为上一代开源模型与它做对比，只要是提供开源模型部署服务的公司（HuggingFace/Fireworks等），分享里都会对 DeepSeek 极度推崇。
遇到不少学生来参加，有的来找方向，看看业界前沿在做什么，做学术交流，找合作机会，这个会是挺合适的。清华、中科大、SJSU。最大的问题是实验室没有足够的卡，这领域是必须校企合作，实验室才进行得下去了。
使用 Nvidia Jetson 做边缘计算也是预期后续空间比较大的方向，设备端部署模型，可以提升实时性和隐私性，多数分享是用在具身智能上，还有一个分享的场景是在货架上实时分析用户行为，更精准推送广告。
机器人、自动驾驶的 session 也很多，数字孪生是提得比较多的（用 AI 生成仿真环境，用于机器人训练），但现场没看到什么能震惊人的机器人，包括老黄演讲时演示的类 wall-e 机器人，惊艳不够，这一行感觉还早。

总体感受，眼花缭乱，人潮纷杂，在开拓视野以外，大会更多是一个社交场所，推广产品/技术/服务，促进合作，这类大会需要的是多创造一些面对面交流的机会。

花絮

现场有限量的原价 5080、5090，知道时已经不可能排队买到。
跟七年前参加 WWDC 在同一个地方，估计一直还是同一个承办公司，午餐还是那么难吃。
参观 NVidia 工区，老黄作为华裔也是信风水的，新办公楼会模拟依山傍水的设计，风水好。NVidia 搞渲染出身，渲染里三角形是最基本单元，所以办公楼都是三角形元素。办公环境很宽敞，但没啥人，总部居家办公没有限制，很多都不来公司。

LangChain 作者聊 AI Agent 的几个相关课题

bang’s blog

作者 bang

2025年3月24日 15:58

参加 NVIDIA GTC 会，其中一场听了 LangChain 的作者 Harrison Chase的分享《AI Agents in Production Insights and Future Direct》，聊了 Agent 当前遇到的一些问题和他的想法，包括 Planing，UX，Memory，Reliability，Deployment，Multi-Agent，也结合我的理解说说这几个课题。

Planing

任务规划是 Agent 的核心，这个课题是进展比较多的，业界解决得相对比较好，核心是 o1/r1 推理模型的出现和不断增强，让规划能力上了一个台阶，这也是 agent 能起来的基础。

但模型本身目前解决不了所有问题，还需要工程上的一些策略和串联做优化。例如 Tree of Thought 让任务不是以线性一步步执行的形式，而是生成解决问题的多个节点，多角度思考问题，形成树结构的任务，评估节点的价值，在里面寻找最优解。 Reflexion 会有 Evaluator 对各种反馈（工具调用结果/模型输出/用户指令）进行反思，梳理改进方向，也会把反思结果作为知识库经验，指导后续的任务。

这些策略链路是需要有一个工程流程把他们串起来的，这个工程链路的构建也是 Agent 在 Planing 能不能做好的关键因素，langgraph 和众多 Agent 框架服务都持续在做这个事。

UX

Agent 的交互应该是怎样的？

Devin 多窗口，有聊天框发送指令、又能实时看到 Agent 在怎样用浏览器、命令行、编辑器，是不错的交互。

大部分 Agent 会是后台异步运行的模式，可以让它直接跑在后台，在需要人类给出反馈处理的，用类似邮件 inbox 的方式交互，Agent 发邮件给你等待指示，你回复邮件给输入。

相较于交互界面形态，交互的策略可能更关键。Agent 在执行任务过程中，

用户是否应该能随时中断并提出新的指示？
Agent 应该在什么时候暂停任务等待用户反馈再进行下一步？
用户指示应该用表单一次性收集，还是一步步收集？

如果做每一步都要用户反馈做指示，那是非常枯燥不好用的，如果完全不需要用户反馈，那做出来的东西可能不符合用户预期的概率高很多。模型应该能做好这里的交互策略，但目前还没看到有特别好的实践。

Memory

长时记忆是个有意思的话题，杨立昆在对话中也有提到，记忆这个课题是值得研究的方向，现在是缺乏突破和讨论的。

现在的 Agent，普遍都只有知识库 RAG 而没有记忆，记忆不是知识库，或者说知识库只是记忆的一种。

记忆应该跟人类一样，模型能记住和学习交互过程中用户给到的信息和偏好，在每次推理过程中发挥作用。

它跟 UX 相关，如果模型能理解记住用户偏好，用户的反馈交互就可以减少。

它也跟 System Prompt 的优化相关，System Prompt 是激活了模型按某个方向去做推理预测，记忆也应该是在模型推理的过程中发挥作用。

简单做的话记忆可以作为 System Prompt 的一部分去影响模型，更彻底的可能应该是能持续内化到模型内，或者以新的模型架构去做这事。

现在的应用场景还没到记忆是必选项的程度，但要做 AGI 或者要 Agent 好用这块必不可少。

Reliability

主要是指 Agent 能不能稳定地解决同一个(或同一类)问题。

Agent 跟之前的软件工程不同，受限于模型输出的不稳定，整个系统的可靠性是远不如传统工程的，用户输入同样的或差不多的需求，agent 不一定每次都能解决问题。

模型输出的，一是会受用户对任务描述的影响，可能描述不准确，可能会有歧义。二是受模型本身不够聪明的影响，近期模型能力越来越好，解决了部分问题，但仍是不稳定。

保持 Agent 输出的稳定性，是一个非常需要持续迭代优化的工程，搭一个 demo 容易，持续优化难。

Agent 节点多，需要能看清每个任务节点的详细情况，有问题时知道问题出在哪里，需要有效果评估的测试能力，也需要框架有能力比较方便地在过程中对模型的输出进行评估实时纠错，提升稳定性，这些配套 langchain 相关生态都提供了，NVidia 这次开源的 AgentIQ 框架也基本涵盖了，还有很多框架服务也在做。

Deployment

Agent 要在线上跑，相关部署基建现在也还没有很完善，它跟传统工程链路还是有一些区别，主要是链路长、耗时长、成本高。提供 Agent 部署的服务应该针对这几个特性做好相关基础设施。

稳定性：整个 agent 链路很长，每一个环节调用如果成功率是 99%，平均要调用十次接口的 agent 成功率就只有90%，而大模型的接口往往也不稳定，如何保证成功率？重试策略、排队机制等，这些都是 agent 工程基建应该做的事。
性能：当前 agent 处于效果大于耗时的阶段，只要效果好，五分钟输出还是十分钟输出都可以接受，但真正规模化应用起来时，性能问题肯定也是重点，整个链路耗时太长，可优化空间会比较大，NVidia 对 agent 的分享也提到了，很多任务不一定要串行做，可以并行化节省整体耗时。
监控： Agent 线上跑的效果怎样，准确率多高，有没有安全风险，应该有直接可用的相应配套。
成本：如果 Agent 全程用最好的模型，跑一次十几分钟的任务可能要几美元的成本，前期问题不大，效果优先，粗放式探索，后续真能规模化上线应用，成本这里的优化空间会比较大，用不同的专家小模型处理不同的任务、做好模型 – GPU 卡适配优化推理（NVidia NIM 提供了相关能力），都是可优化的方向。

Multi-Agent

预期后续会有非常多的 Agent 出现，Agent 跟 Agent 之间如果能相互联系，能形成新的智能体，但 Agent 之间应该怎样通信？

这里的通信不止是把 Agent 当成一个黑盒，给指令 – 输出结果，而是能深入 Agent 内部的通信，上下文共享、中间步骤共享、过程中的协作、用户操作插入等。

目前没有一个标准，各项目都是自己的一套，业界可能需要这样一个标准，能实现把使用不同框架、不同服务上部署的 agent 连接起来。

MCP 是近期在快速发展的标准协议，很有前景，但它只是把工具工具调用标准化了，对 Agent 和 Agent 相关的协作是没有定义的，可能需要另外的协议。

上一篇文章刚好探讨了这个内容，用 Agent as Tool 的方式，把 Agent 当成工具的一种，基于 MCP 去做，好处是架构简单，Agent 可复用性高。

但它只把 Agent 当成黑盒 Tool 去使用，给指令 → 输出结果，Agent 之间更深入的联系是没有的。我们也在尝试，给这个 MCP 子 Agent 输入主 Agent 的上下文，同时这个子 Agent 也可以流式把每步处理过程上下文输出给主 Agent，这样就可以实现 Agent 之间的上下文共享。同时也可以继续做更深入的交互定义，比如子 Agent 与用户反馈交互的流程协议。

目前这些协议都需要自定义，但以 MCP 、以 Agent as Tool 去定义标准的 Agent 间交互协议，也是可行的，MCP 可以把这套交互协议也定了，可能是 Anthoropic 很好的机会。

上述这些基本是工程上的事情，这次 GTC 很少有人讨论到 Agent 在数据收集/模型调优上的实践，基本是直接使用基础通用模型，但要提升 Agent 的上限，应该是需要专有模型并能支持端到端训练的形态，待探索。

bang’s blog
聊聊 Agent 架构 – Single Agent / MCP / Multi-Agentbang
2025年3月16日 13:42

聊聊 Agent 架构 – Single Agent / MCP / Multi-Agent

bang’s blog

作者 bang

2025年3月16日 13:42

近期在业务中尝试落地 Agent，有一个架构设计问题，应该用单 Agent 架构，还是多 Agent 架构？

Single Agent

先来看看单 Agent 架构，在之前的文章里，OpenHands 这里的架构是典型的单 Agent 架构，依赖一个模型，组织多个工具调用，做好 ReAct 和上下文管理，整个过程很简单。

Tools 是一个个函数，定义和调用都是在当前程序里进行。Tools的函数定义会作为 System Prompt 的一部分让 LLM 理解当前可用工具
Memory 分两部分：
1. 当前 Session 数据流，包括每一步执行了什么，结果是什么，在当前 Session 内存中保存，随时全量输入 LLM，让 LLM 判断下一步应该做什么。
2. 用户的长期数据、知识库，例如用户在平台的偏好数据、领域内容、多轮对话上下文等，这些内容会从向量数据库召回。
Router 中心化程序调度整个过程，拿用户 Prompt / System Prompt / Memory 输入 LLM，LLM 进行深度思考和给出具体执行的任务，Router 去调用对应的 Action 函数。

这是简单通用的单 Agent 架构，实现 Agent 中 Thought – Plan – Action – Reflection(Thought) 的循环，一个模型负责所有事情。

MCP

上述架构里，Tools 模块有一些小问题：工具函数可维护性和可扩展性不太好，多了后难管理，要加函数得更新主程序，另外得自己定义一个 Function call 规范，对外部的一些会用到的工具服务都需要自己封装一遍。

对这些小问题，这个架构可以有一个优化：Tool 模块从 Agent 剥离出来，用 MCP 协议统一管理和实现。

附：MCP是什么？

MCP 是 Anthropic 24年11月推出的协议，近期 Cursor / windsurf / cline 等一众 AI Coding 产品支持了 MCP 后出圈，众多开源框架也开始支持 MCP，大有统一的趋势。

MCP 的概念很简单，就是统一了工具调用的接口规范，这几张图可以帮助理解：

MCP 统一了各工具能力接入的接口调用定义，原先一个服务(例如slack）要对接多个用户端产品（例如cursor）定义的 Function call 格式，现在服务和客户端统一对接同一种格式就行，两边都只需要实现一次。

MCP Server 独立运行在任意服务器上，也可以有自己独立的数据库信息/资源，不与 Agent 服务器绑定，可复用、易于插拔。

把原先 Tool 几个工具函数调用用 MCP Server 封装，架构变成这样：

跟原先纯 Function call 的区别在于架构上更灵活，包括：

聚类，对零散的一个个函数可以统一放到一个服务，便于管理。
解耦：调用实际发生在各自 MCP 服务端，而不是 Agent 服务直接去调用，部署扩展工具与 Agent 工程上解耦。
内聚：MCP Server 本身可以内聚做一些事，包括独立的资源管理、独立上下文等。
复用：通用协议，Tool 能力便于在多个 Agent 间接入复用，外部生态有较多现成 MCP Server 可直接接入。
统一：客户端、云端的工具调用，都可以用统一的 MCP 协议去实现。

这个架构似乎已经可以满足大部分场景下对 Agent 的诉求，为什么还需要考虑 Multi-Agent？

Multi-Agent

考虑 Multi-Agent 最主要的问题是上下文过长。

如果一个 Agent 能力足够强，它应该能完成需要非常多轮调用完成各种任务，这些任务的制定和执行结果全部塞在一个上下文里，可能会超出当前模型能理解和处理的范围。

这时候，计算机工程的典型解决思路就是：分治模块化。把整体 Agent 能力拆分成解决一个个独立复杂任务的子 Agent，让这些 Agent 在它的范围内能有自主思考和自主行动能力。

从 Agent 的组成来说，必不可少的部分包括：

模型：独立的处理模型，可以跟其他 Agent 不同，称为专家模型。也可以相同，看需要。
上下文：独立的多轮 ReAct Loop 上下文管理，完成自己特定的任务
System Prompt：对应任务制定特定的 System Prompt

而 Tools 可以不是 Agent 专用的，这个 Agent 需要什么 Tools，就注册什么 Tools。长时记忆/知识库也可以是多个 Agent 共用的。

架构会变成这样：

这样 Plan Agent 只专门制定计划，它需要知道的上下文是其他几个 Agent 能完成什么大的任务，至于他们调了什么工具怎么完成不用管，只需管它要结果，整个任务的上下文就被分出多个部分，每个 Agent 的上下文对另一个 Agent 可以是黑盒。每个 Agent 也可以有自己对应的模型，做独立的训练和 Prompt 调优。

这样是不是一个更优的架构？

它的好处是解决了上下文过长，模型处理不好的问题。
但坏处也是很明显：整个架构是复杂化了，而效果也不一定好。多个 Agent 需要协同，Plan Agent 能获取的上下文信息变少了，它没有了更细粒度统筹规划整个任务的能力，变成一个偏项目管理的角色协调各方的工作，多人协作带来信息熵增大，组织效率低。

AI 的范式，可能不应该这样分治，可能大模型在对上下文的支持、细节信息的理解上会越来越好，能统筹把握好各项细节，把一个复杂任务完成，而不是像人类社会一样分工协作。这样对大模型来说，有足够的信息量能做规划/决策/反思，也更便于端到端的模型训练。

从号称泄漏的 Manus Prompt 来看，Manus 也没有 Multi Agent，所有能力包括工具函数都在一个上下文中定义，看起来目前也能跑得起足够复杂的任务。

所以如果项目在早期，没有遇到很明显的瓶颈，并不需要用 Multi-Agent 架构，用 Single Agent 简单的架构足够能做好。工程架构越简单，后续基础模型升级带来的增益越大。

基于 MCP 的(伪)Multi-Agent

再探讨下，如果在应用过程中已经发现上下文处理不过来的问题，或者某个任务的内部实现细节对整个任务无影响，或者三方都实现好了，那采用另一种伪 Multi-Agent 架构，也是可以考虑的方案：

例如对接 browser-base 实现更深度的 research 能力，需要多轮打开不同网页、判断资料收集是否完成、整理资料，有自己的 loop 、上下文和模型。但这个完全可以封装在一个 MCP 服务上，自行闭环完成多网页搜索和整理，不需要与原 Agent 流程上有更深入的交互。

跟上面的 Multi-Agent 架构的区别在于，并没有改变原来单 Agent 架构，不会增加架构复杂度。Agent 不需要感知 MCP 调用背后是 Agent 还是一个普通的函数调用，没有区别。

MCP 协议本身也是 SSE 流式输出，对这个背后是 Agent 的 MCP 调用，要输出多少上下文信息给原 Agent，也是可以非常方便地调控。

以上是近期的一些想法，Agent 是新东西，后续实践有认知的更新再分享。

bang’s blog
细看 Claude 3.7 两个重要的 Benchmark：SWE-Bench & TAU-Benchbang
2025年2月27日 20:12

细看 Claude 3.7 两个重要的 Benchmark：SWE-Bench & TAU-Bench

bang’s blog

作者 bang

2025年2月27日 20:12

Claude 3.7 Sonnet 在万众期待中推出了，为什么期待，因为从 Claude 3.5 Sonnet 发布后，一直是AI Coding Agent 领域最好的模型，综合效果没有对手，后面陆续推出的 o1/o3/DeepSeek 都没能撼动，更让人期待 Claude 3.7 Sonnet 在 AI Coding 领域能不能有进一步提升。

Claude 3.7 放出来的 Benchmark 里，有两个是跟 AI Coding Agent 表现强相关的：

Agentic coding，SWE-bench，衡量解决实际软件工程编码问题的能力。
Agentic tool use，TAU-bench，衡量理解用户意图调用工具执行命令的能力。

可以看到 SWE-bench 有显著的提升，问题解决率 49% 提升到最高 70%，TAU-bench 也有不错的绝对值10个点的提升，确实重点提升了 AI Coding Agent 相关能力。

接下来详细看看这两个 Benchmark 究竟测了什么，可以大致知道，目前模型的能力上限大概是怎样。

SWE-bench

SWE-bench 是由普林斯顿大学 NLP 团队开发的项目，23年10月就开始提出，主要是想找到一种方式可以评估大模型解决实际软件工程问题的能力，而不是像之前只衡量算法题的解决能力。当时还是 Claude 2 和 GPT4 的时代，随着 AI Coding 的逐渐火爆，OpenAI 也加入对这个 benchmark 的完善，这个项目也逐渐成为主流。

数据构造

分三步：

选靠谱的库：选了 12 个流行的 Python 开源库，选择的标准是，热门库，长期维护，有比较多的 Pull Request 修复相关 issue，PR 的管理也很规范，有很好的测试覆盖率。这些库修复 issue 的 PR 就是我们要获取的测试 case，但会对这些 PR 进行一些过滤。
特性过滤：1)明确 PR 是解决了某个特定问题。2) PR里包含了测试 case，可以很容易从测试 case 上判断代码修改是否有效。这些在运行前就能过滤出来。
运行时过滤：这些 PR 应用前后，测试用例中要有明确的从不通过到通过的变化，程序跑起来也不会有错误，便于评估结果。

基于上述规则从 github 热门项目上抽取相关的数据，这些数据还可以持续更新，避免模型因为看到过这些数据而“作弊”。

这是抽取的几个流行的 python 库，以及数据集数量：

经过上述步骤抽取构造数据后，得到 SWE-Bench 数据集，后来 OpenAI 对这个数据集再进行人工过滤筛选掉了一些不太好的 case，比如 issue 问题描述不准确、开发环境难搭建难测试等，也对每个挑选的 case 做了精心人工验证，一共500个样本，组成 SWE-bench_Verified 数据集，现在一般测的是这个数据集。

来看看这个数据集具体都由哪些部分组成：

instance_id: 实例ID，通常格式为 repo_owner__name-PR-number

//代码基本信息
repo: 仓库名
base_commit: PR 提交之前的代码 commit id，定位代码基线
version: 用于运行的版本号
environment_setup_commit: commit id，安装运行环境的代码基线
created_at: PR 创建时间

//PR基本信息
problem_statement: PR 对应的 issue 内容，也就是要解决的问题
test_patch: 这个 PR 提交的测试 case patch 代码
FAIL_TO_PASS: 应用修复的 PR 后会通过的测试 case
PASS_TO_PASS: 应用 PR 前和应用后，都应该通过的测试 case
patch: 这个 PR 修复的 patch 代码，相当于标准答案
hints_text: PR 提交之前，github 上对这个 issue 的讨论 comment。可选，如果要上榜单，禁止使用这个数据。

代码信息、问题描述、测试用例，重点是这几个，剩下的都是用于把程序跑起来、验证修复结果用。

测试执行

大体流程见下面这张图，输入 issue 描述和代码库，模型根据输入，输出要修改的代码，最后有个环境运行模型生成修改的代码，跑测试用例，把应用代码之前没跑通的单元测试跑通，这个任务就完成了。

这个过程一个最大的问题是：代码上下文怎么给模型？这几个热门项目代码库平均 43w 行，不可能直接给，需要有个检索的能力。

项目论文中给了两个方法：

作弊：上述构造数据时，我们有拿到人类修复这个 issue 提交的 PR 对应的 patch，而这个 patch 里修改到的代码文件，就是最重要的代码上下文，可以直接作为代码上下文给到模型。这个接近于标准答案，除了一些需要更多文件上下文才可以解的问题外。这个只用于做实验，或去检测其他的检索方式命中率如何。
稀疏检索：用 BM25 算法做检索，基于 issue 的描述搜索相关代码，限制长度在1.3万行-5万行。实验看起来，检索长度在2.7w行时，这种检索方法只有 40% 会命中上述 PR 对应的代码文件。

上述两个检索代码的方法，只是论文中做实验的参考，实际在测试 SWE-Bench 时，各模型会有自己的方法，因为检索代码的准确性对成功率影响也很大，所以榜单上很多是 Agent + 模型的测试结果，而不是单大模型的。

Claude 3.7 跑分的说明里提到：

SWE-bench Verified: Claude 3.7 Sonnet scores 62.3% out of 500 problems using pass@1 with bash/editor tools plus a "thinking tool" for single-attempt patches — no additional test-time compute used. 70.3% score uses internal scoring and custom scaffold on a reduced subset of problems. Scaffold Deepseek R1 results use the "Agentless" framework. OpenAI results from o3-mini system card cover a different subset of problems with a custom compute.

Claude 没有具体说明怎么做检索代码的，官方blog附录里提到在运行环境上是用了极简的方案，只提供了命令和编辑文件的能力，看起来是只把代码仓库目录扔给 LLM，让它自行去做文件搜索。另外有提到 Deepseek 的跑分是基于 Agentless 框架跑的，Agentless 专门介绍说明了如何跑 SWE-Bench，以及具体是怎么做代码检索的。见 Agentless/README_swebench.md。

可以看到 SWE-Bench 测试集其实是比较局限，这里面全是 Python 代码，也基本是纯逻辑代码，不涉及 UI 渲染相关，也不涉及其他语言，很多实际的软件工程场景没有覆盖到，所以即使 benchmark 到 100%，也不代表能解决绝大多数工程问题。

不过这事是一步步推进的，SWE-Bench 刚出来时解决率是个位数，这一年多一步步提上来，Claude 3.7 干到了 70%，解决了这个 Bench，还会有更多的更高难度的 Benchmark 等着，SWE-bench Multimodal 就是其中之一，包含了一些 JS UI 渲染相关的 issue 修复 case，Claude 3.5 也只有 12% 左右的解决率，还有很长路要走。

TAU-bench

TAU-bench 又叫 τ-bench，是 Sierra 团队（OpenAI 董事会主席 Bret Taylor 和谷歌前高管 Clay Bavor 联合创立的 AI 初创公司，主要开发 AI Agent 为企业服务）推出的用于评估 AI Agent 在现实世界场景中性能和可靠性的基准测试。

TAU-bench 设计了两个领域场景

Airline（航空场景），模拟用户在航空业务场景下进行航班查询、预订、改签、退票、机场服务等操作，测试大模型利用工具理解用户需求、提供准确信息、遵循业务规则流程、准确进行业务操作的能力。
Retail（零售场景），模拟在零售场景中进行购物咨询、商品推荐、订单修改、退货换货等操作，同样测试在这个场景下用户需求理解能力、准确处理用户订单等相关问题的能力。

这两个场景都包含了多个复杂任务 case，涉及代理与用户的多轮对话，以及代理使用工具获取信息的能力，这些任务可以综合地评估一个 Agent 所需要的推理、规则遵循、长期记忆、工具调用等能力。为此 TAU-bench 项目也实现了一个完整的 Agent 框架，以执行这个流程。

数据构造

以零售为例，用于测试准备的数据包含以下几个部分：

数据库：json 格式，模拟电商零售领域一些订单信息、商品属性。
Tools：操作上述数据库的工具函数，包括获取订单/商品信息、修改订单、修改收货地址等。这些 Tools 信息描述会在一开始给 LLM，让 LLM 知道当前有哪些工具可调用，过程中会 LLM 会根据用户意图调用相应工具修改数据库。
策略：system prompt，写明了模拟的零售场景下一些背景，包括订单状态说明/退换规则/支付方式规则、工具调用规则等。
Tasks：预先设计好的测试数据集，每个测试 case 包含 instruction 和 actions，instruction 写明了这个测试 case 里用户的诉求，actions 里包含基于这个诉求下，应该调用什么工具方法改写数据库达到目的，相当于标准答案，actions 只用于最后的验证，不会在每轮测试中作为输入。

航空领域也是同样的这几类数据，只是处理的内容变成航班、订单、用户信息管理。

测试执行

具体测试 case 执行的流程：用户 instruction + 领域策略 System Prompt + Tool 描述，一起输入 LLM，LLM 循环逐步输出用户对话、助理回复、工具调用，整个流程就是一个通用的 Agent 交互流程，跟上次说到的 OpenHands 的流程差不多，只是这里用户输入也是 LLM 根据 instruction 模拟生成的。

整个多轮对话结束后，模型在这过程中会调用工具修改数据库，同时再跑一遍测试 case 里预定的 action，看对数据库的修改跟模型在这过程中调工具的修改结果是否一致，一致则测试 case 通过，不正确就不通过。

来看一个具体的例子，这是一条测试case，包含对用户诉求描述的 instruction 和标准答案 actions：

{
    "annotator": 0,
    "user_id": "omar_rossi_1241",
    "instruction": "Your user id is omar_rossi_1241. For your upcoming trip from New York to Chicago, you want to change the passenger to yourself, upgrade it to economy class, and have 3 checked bags. You prefer gift card payment. Your birthday is in your user profile so you do not prefer to provide it. You are reactive to the agent and will not say anything that is not asked.",
    "actions": [
        {
            "name": "update_reservation_flights",
            "arguments": {
                "reservation_id": "FQ8APE",
                "cabin": "economy",
                "flights": [
                    {
                        "flight_number": "HAT056",
                        "date": "2024-05-25",
                    },
                    {
                        "flight_number": "HAT138",
                        "date": "2024-05-25",
                    },
                ],
                "payment_id": "gift_card_8190333",
            },
        },
        {
            "name": "update_reservation_passengers",
            "arguments": {
                "reservation_id": "FQ8APE",
                "passengers": [
                    {
                        "first_name": "Omar",
                        "last_name": "Rossi",
                        "dob": "1970-06-06",
                    }
                ],
            },
        },
        {
            "name": "update_reservation_baggages",
            "arguments": {
                "reservation_id": "FQ8APE",
                "total_baggages": 3,
                "nonfree_baggages": 0,
                "payment_id": "gift_card_8190333",
            },
        },
    ],
},

转化后这个case实际跟大模型交互的过程：

{"traj": [
      {
        "role": "system",
        "content": "# Airline Agent Policy\n\nThe current time is 2024-05-15 15:00:00 EST.\n\nAs an airline agent, you can help users book, modify, or cancel flight reservations.\n\n- Before taking any actions that update the booking database (booking, modifying flights, editing baggage, upgrading cabin class, or updating passenger information), you must list the action details and obtain explicit user confirmation (yes) to proceed.\n\n- You should not provide any information, knowledge, or procedures not provided by the user or available tools, or give subjective recommendations or comments.\n\n- You should only make one tool call at a time, and if you make a tool call, you should not respond to the user simultaneously. If you respond to the user, you should not make a tool call at the same time.\n\n- You should deny user requests that are against this policy.\n\n- You should transfer the user to a human agent if and only if the request cannot be handled within the scope of your actions.\n\n## Domain Basic\n\n- Each user has a profile containing user id, email, addresses, date of birth, payment methods, reservation numbers, and membership tier.\n\n- Each reservation has an reservation id, user id, trip type (one way, round trip), flights, passengers, payment methods, created time, baggages, and travel insurance information.\n\n- Each flight has a flight number, an origin, destination, scheduled departure and arrival time (local time), and for each date:\n  - If the status is "available", the flight has not taken off, available seats and prices are listed.\n  - If the status is "delayed" or "on time", the flight has not taken off, cannot be booked.\n  - If the status is "flying", the flight has taken off but not landed, cannot be booked.\n\n## Book flight\n\n- The agent must first obtain the user id, then ask for the trip type, origin, destination.\n\n- Passengers: Each reservation can have at most five passengers. The agent needs to collect the first name, last name, and date of birth for each passenger. All passengers must fly the same flights in the same cabin.\n\n- Payment: each reservation can use at most one travel certificate, at most one credit card, and at most three gift cards. The remaining amount of a travel certificate is not refundable. All payment methods must already be in user profile for safety reasons.\n\n- Checked bag allowance: If the booking user is a regular member, 0 free checked bag for each basic economy passenger, 1 free checked bag for each economy passenger, and 2 free checked bags for each business passenger. If the booking user is a silver member, 1 free checked bag for each basic economy passenger, 2 free checked bag for each economy passenger, and 3 free checked bags for each business passenger. If the booking user is a gold member, 2 free checked bag for each basic economy passenger, 3 free checked bag for each economy passenger, and 3 free checked bags for each business passenger. Each extra baggage is 50 dollars.\n\n- Travel insurance: the agent should ask if the user wants to buy the travel insurance, which is 30 dollars per passenger and enables full refund if the user needs to cancel the flight given health or weather reasons.\n\n## Modify flight\n\n- The agent must first obtain the user id and the reservation id.\n\n- Change flights: Basic economy flights cannot be modified. Other reservations can be modified without changing the origin, destination, and trip type. Some flight segments can be kept, but their prices will not be updated based on the current price. The API does not check these for the agent, so the agent must make sure the rules apply before calling the API!\n\n- Change cabin: all reservations, including basic economy, can change cabin without changing the flights. Cabin changes require the user to pay for the difference between their current cabin and the new cabin class. Cabin class must be the same across all the flights in the same reservation; changing cabin for just one flight segment is not possible.\n\n- Change baggage and insurance: The user can add but not remove checked bags. The user cannot add insurance after initial booking.\n\n- Change passengers: The user can modify passengers but cannot modify the number of passengers. This is something that even a human agent cannot assist with.\n\n- Payment: If the flights are changed, the user needs to provide one gift card or credit card for payment or refund method. The agent should ask for the payment or refund method instead.\n\n## Cancel flight\n\n- The agent must first obtain the user id, the reservation id, and the reason for cancellation (change of plan, airline cancelled flight, or other reasons)\n\n- All reservations can be cancelled within 24 hours of booking, or if the airline cancelled the flight. Otherwise, basic economy or economy flights can be cancelled only if travel insurance is bought and the condition is met, and business flights can always be cancelled. The rules are strict regardless of the membership status. The API does not check these for the agent, so the agent must make sure the rules apply before calling the API!\n\n- The agent can only cancel the whole trip that is not flown. If any of the segments are already used, the agent cannot help and transfer is needed.\n\n- The refund will go to original payment methods in 5 to 7 business days.\n\n## Refund\n\n- If the user is silver/gold member or has travel insurance or flies business, and complains about cancelled flights in a reservation, the agent can offer a certificate as a gesture after confirming the facts, with the amount being $100 times the number of passengers.\n\n- If the user is silver/gold member or has travel insurance or flies business, and complains about delayed flights in a reservation and wants to change or cancel the reservation, the agent can offer a certificate as a gesture after confirming the facts and changing or cancelling the reservation, with the amount being $50 times the number of passengers.\n\n- Do not proactively offer these unless the user complains about the situation and explicitly asks for some compensation. Do not compensate if the user is regular member and has no travel insurance and flies (basic) economy.\n"
      },
      {
        "role": "user",
        "content": "Hi! I'd like to make a few changes to my trip from New York to Chicago. Can you help me with that?"
      },
      {
        "role": "assistant",
        "content": "Of course! I can help you modify your trip. Could you please provide your user ID and the reservation ID for the trip you want to change?",
      },
      {
        "role": "user",
        "content": "Sure! My user ID is omar_rossi_1241. But I'm not sure about the reservation ID at the moment."
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"user_id":"omar_rossi_1241"}",
              "name": "get_user_details"
            },
            "id": "call_FXi5dyufwOlkHksVgNwVhhVB",
            "type": "function"
          }
        ]
      },
      {
        "role": "assistant",
        "content": "I found your reservations. Could you please confirm which reservation ID you'd like to modify for your trip from New York to Chicago? Here are your reservation IDs:\n\n- UM3OG5\n- 5RJ7UH\n- FQ8APE\n- QKRY03\n\nLet me know which one you'd like to modify!",
      },
      {
        "role": "user",
        "content": "I'm not entirely certain, but I believe it might be the first one, UM3OG5."
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"reservation_id":"UM3OG5"}",
              "name": "get_reservation_details"
            },
            "id": "call_FApEDaUHdL2hx8FNbu5UCMb8",
            "type": "function"
          }
        ]
      },
      {
        "role": "assistant",
        "content": "The reservation ID "UM3OG5" is for a round trip from Seattle (SEA) to Dallas/Fort Worth (DFW), not from New York to Chicago. \n\nCould you please check if any of the other reservation IDs match your trip from New York to Chicago? Here are the remaining reservation IDs:\n\n- 5RJ7UH\n- FQ8APE\n- QKRY03\n\nLet me know which one you'd like to modify!",
      },
      {
        "role": "user",
        "content": "In that case, I think it might be FQ8APE. Can you check that for me?"
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"reservation_id":"FQ8APE"}",
              "name": "get_reservation_details"
            },
            "id": "call_W507pQxieFVdAxvqONuYWvN2",
            "type": "function"
          }
        ]
      },
      {
        "content": "The reservation ID "FQ8APE" is for a one-way trip from Newark (EWR) to Chicago (ORD) with a stop in Houston (IAH). Since this reservation is in basic economy, please note that the flights cannot be modified. However, I can assist with other changes like cabin upgrades or baggage additions.\n\nPlease let me know what specific changes you would like to make to this reservation!",
        "role": "assistant"
      },
      {
        "role": "user",
        "content": "Great! I'd like to add three checked bags, change the passenger to myself, and upgrade to economy class, please."
      },
      {
        "role": "assistant",
        "content": "Here are the changes you want to make to your reservation:\n\n1. **Add three checked bags**: \n   - Since you are a gold member and upgrading to economy class, you will have 3 free checked bags, so no additional charges for the bags.\n\n2. **Change the passenger to yourself**:\n   - Current passenger: Ivan Garcia\n   - New passenger: Omar Rossi (DOB: 1970-06-06)\n\n3. **Upgrade to economy class**:\n   - Upgrade from basic economy to economy class.\n\nPlease confirm if you would like to proceed with these changes.",
      },
      {
        "role": "user",
        "content": "Yes, I'd like to proceed with those changes. And please use a gift card for any payment needed."
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"reservation_id": "FQ8APE", "passengers": [{"first_name": "Omar", "last_name": "Rossi", "dob": "1970-06-06"}]}",
              "name": "update_reservation_passengers"
            },
            "id": "call_jK7xz4ERk3csc9jBfroPobGs",
            "type": "function"
          }
        ]
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"reservation_id":"FQ8APE","cabin":"economy","flights":[{"origin":"EWR","destination":"IAH","flight_number":"HAT056","date":"2024-05-25"},{"origin":"IAH","destination":"ORD","flight_number":"HAT138","date":"2024-05-25"}],"payment_id":"gift_card_8190333"}",
              "name": "update_reservation_flights"
            },
            "id": "call_zeyT5c2EYzRvfY42X7YOKOng",
            "type": "function"
          }
        ]
      },
      {
        "role": "assistant",
        "content": null,
        "tool_calls": [
          {
            "function": {
              "arguments": "{"reservation_id":"FQ8APE","total_baggages":3,"nonfree_baggages":0,"payment_id":"gift_card_8190333"}",
              "name": "update_reservation_baggages"
            },
            "id": "call_PA1XaKLPX8egjewaxIArCkRc",
            "type": "function"
          }
        ]
      },
      {
        "role": "assistant",
        "content": "Your reservation has been successfully updated with the following changes:\n\n1. **Passenger Change**: The passenger is now Omar Rossi.\n2. **Cabin Upgrade**: Upgraded to economy class.\n3. **Checked Baggage**: Added three checked bags, all free due to your gold membership.\n\nThe payment for the cabin upgrade was processed using your gift card. If you have any more questions or need further assistance, feel free to ask!",
        
      },
      {
        "role": "user",
        "content": "Thank you for helping with the changes! That's all for now. ###STOP###"
      }
    ],
}

在跑的过程中，可以看到大模型可以一步步理解好用户意图，调用get_reservation_details 工具获取信息，最后依次调用 update_reservation_flights、update_reservation_passengers、update_reservation_baggages，修改数据库。

执行完后，会重新加载初始状态的数据库，把 Task 里的 actions 依次执行一遍，对比最终数据库的状态是否一致，一致则说明模型这轮跑下来，调用的工具和修改的数据跟我们预期的一致，测试通过。

这里可以看到每条测试的过程和结果，可以从 Reward=1/0 看这条 case 是否通过，Claude 3.7 在零售领域问题解决率高达81%，但航空领域只有58%，细看下航空领域一些 case 涉及非常多的查询匹配航班信息、金额计算、行李/支付/退换多步操作，难度还是很大的。

Pass^k

这个测试集还定义了另一个指标：多次稳定通过的概率。因为 Agent 真正使用时，比如让它去订机票、处理退换货，如果执行失败会让人有很大的挫败感，所以它的成功率稳定性很重要，这个 benchmark 定义了pass^k 的指标，也就是对一个测试 case 连续执行 k 次，每次都成功，才能算任务成功。

可以看到每个模型的稳定性都不是很好，航空领域下，Claude Sonnet 3.5 从 46% 通过率下降到pass^4 的 22.5%，也就是只对 22.5% 的问题，连续测4遍都能成功。

这跟我们目前体感也一致，Agent 还没那么可靠，并不能期望它在复杂的场景、多轮交互中很稳定地理解意图做出正确的行动。Claude 3.7 没有 pass^k 相关的指标，不确定稳定性是否有提升。

最后

上述两个 Benchmark 都是尽量在模拟真实世界的问题场景，算是模拟得比较好的了，但跟真正现实的使用方式和多样性还是有很大差距，分数只能是个参考，能大致知道模型在哪些方面表现还不好，实际在某个场景下好不好用，还得真正上手测试，实际体验上据了解 Claude 3.7 远好于 3.5，这两个 benchmark 的分数提升还不足以反应优化的程度。

DeepSeek R1 是怎么训练出来的？- R1 论文精读

bang’s blog

作者 bang

2025年2月10日 10:39

背景

DeepSeek 里程碑式的爆火，有必要学习下是怎么回事。

大语言模型的发展，之前一直是以预训练为主，虽然性能一直在提升，但主要是小修小补，跨越式的 GPT5 一直出不来。OpenAI 在 24 年 9 月发布的 o1 提出了新的路线：在预训练好的模型上，用强化学习做后训练，能显著提高模型推理能力，其效果在解数学、编码等问题上屠榜。

但 o1 只说了强化学习能让模型学会思维链的方式提升推理能力，其他的发现都没有公布，加上 o1 一直是期货，12月才正式推出，200美元一个月，普通人都用不上，充满神秘。

而 DeepSeek 自主研发了通过强化学习让模型学会思维链提升推理能力，性能逼近 o1，加上之前 DeepSeekV3 在预训练基础模型上的创新，推理成本也显著低于 o1，直接推出全民免费可用媲美 o1 的模型，甚至在一些中文语境下效果显著超过 o1，大众用户一用感受到 NB，业内人士震惊它的创新能力纷纷学习，美国人民恐慌中国 AI 的发展有超越美国引领技术潮流的可能性，结合大国叙事，爱国情怀，各种元素综合下各觉得都会乐此不疲地研究、使用、讨论，引爆全网。

接下来一步步精读下 DeepSeek-R1 的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》了解现象级 R1 模型是怎么做出来的。

R1 论文

DeepSeek R1 是基于预训练好的 DeepSeekV3 基础模型进行的后训练优化，V3 做了很多创新优化，很大降低了预训练模型和模型推理的成本，是 R1 的基础，这里先不讨论 V3，只看 R1 在 V3 基础上做了什么后训练。

在 DeepSeekR1 这篇论文里核心做的三个事：

R1-Zero：首个证明只通过 RL 而不通过 SFT 就能让模型涌现推理能力。
R1：新的强化学习后训练范式。
蒸馏：蒸馏显著提升小模型能力，小模型有潜力。

我们一个个具体看下这三个事。

R1-Zero

R1-Zero 证明了对已预训练好的模型，不需要经过 SFT，只需要纯粹的 RL，就能让模型涌现 CoT 推理能力。

SFT是监督式微调，也就是准备好一堆标注好的数据，让模型去学习拟合，可以粗略理解为刷题，大量的刷题学习能解决类似的题目；

RL是强化学习，只告诉模型什么是好的什么是不好的，过程中模型自己学习怎么达到目标，可以理解为不靠刷题，自己去理解探索数学和世界的规律，理论上灵活性强，上限更高，还有可能探索出人类未知的能力。

强化学习首次出圈是 AlphaGo，AlphaGo 先学习人类棋谱，再用强化学习自我对弈进化，而随后的 AlphaGo Zero 没有人类棋谱，只定义好围棋奖励规则，模型自己学习怎么下，达到更高的水平。R1-Zero 这命名也是致敬 Alpha-Zero，因为它们非常类似，脱离人类的指导自主发现规律提升智能。

为什么之前没人做到？

模型能力没达到一定阈值，仅通过强化学习没法涌现。
强化学习是种方法，过程中用什么算法做价值判定也很大程度影响效果
o1 可能已经做了同样的探索和结果，也可能没有，它闭源不公开，而 DeepSeek 首次探索并公开了。

GRPO vs PPO

R1-Zero 最大的不同，是在强化学习中使用 GRPO 算法代替 PPO。GRPO 算法也是 DeepSeek 团队在 24 年 2 月《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》这篇论文提出的，其核心思想可以理解为两个字：内卷。

简单来说，PPO 是用一个模型去评估当前输出的收益，模型觉得这个输出好，就更新参数往这方向靠近，类似四六级考试的判定，有个分数线，过了就好，不过就不好；GRPO 是让模型一次性输出一组数据，在这组数据中选得分最高的，让模型逐步靠近得分高的输出，类似高考的内卷选拔，你只要比同龄人好，就是好。

更具体的可以看这张图：

图上的一些概念：

Reference Model：预训练的大语言模型

Reward Model：奖励模型，给定输入和输出，给出得分。可以是基于神经网络训练的模型，使用人类标注数据做训练；也可以是规则模型，定死一些规则做打分。这里的输入是大语言模型一次完整的输出。

Value Model：对模型输出的每一步做一个预测，预测当前状态下后续能得到的收益。这里的输入是大语言模型每一次 token 的输出。

Policy Model：我们正在训练的大语言模型。base 是 Reference Model，训练过程中会不断更新参数，得到我们最终需要的模型。

GAE：Generalized Advantage Estimation 广义优势估计，评估每一个动作的好坏程度

q：输入 question

o：输出 output

r：模型完整的输出经过 Reward Model 计算后的分数

v：模型每一步的输出后的状态，经过 Value Model 计算后的价值估计值，用于评估当前 token 输出的好坏。

KL：Kullback-Leibler divergence KL散度，衡量新策略(当前训练中的模型输出的结果)和旧策略(base模型输出的结果)之间的差异，保障训练中策略更新幅度不要过大，保证稳定性。

PPO 用 Reward Model 计算大模型完整输出的奖励分数(r)，过程中会跟原始模型的输出做对比(KL)，避免偏离太远。大模型每步 token 输出，都会经过 Value Model 判定输出对后续奖励的期望值(v)，经过 GAE 函数计算每步动作的好坏程度，更新我们在训练的大模型 Policy Model 参数。

GRPO 去掉了 Value Model，对每个输入(q)输出多个结果o1 o2 o3 …，奖励模型判断这些结果的好坏，从中选出最好的，更新模型参数。对算法和公式更详细的介绍，推荐这两个讲解：（1），（2）

GRPO 去掉 Value Model，带来了一些好处：

大大降低计算成本，少了价值模型，训练过程的内存占用、计算量、整体效率都更好。
更适合开放式的问题推理，不受限于价值模型判断的准确性。
整个流程也更简洁优美了。

Reward Model

从上图可以看到，主要需要设计的只剩 Reward Model，R1-Zero 设计了一个基于规则的 Reward Model，之所以用简单的规则而不是基于神经网络的模型做奖励判定，一个是不需要训练，简化了流程和降低成本，一个是如果用神经网络模型作为奖励判定，如果这个判定模型不够强，可能会让训练的大语言模型钻空子作弊，效果不一定好。

主要是两个简单的规则：

答案判断，如果是数学问题，会要求按格式要求输出最终答案，对比答案是否正确，对于 LeeCode 上的程序问题，会用编译器去判断能不能跑通对应的 test case。
格式判断，有没有按照指定的格式输出内容，也就是思维链的内容在<think></think>里，输出的内容在<answer></answer>里。

训练模板

训练时会输入预置 prompt，让模型按格式要求输出。这个模板有意设置得很简单，避免带偏模型，也不会告诉模型要进行反思性推理或者其他推理策略，确保可以观察到模型在强化学习过程中自发去发现怎样的推理方式才是更有效的。

现象&结果

训练过程中两个重要的现象：

1. 输出越来越长：随着训练量的推进，输出的长度稳步加长，推理能力也随之提升。这也验证了 OpenAI o1 里提到的 test-time scaling，也就是更长的推理输出能更好提升模型推理能力，模型在强化学习过程中自主发现了这个规律。

2. Aha moment：训练过程中模型学会了停下来重新评估前面的思考，而且使用拟人的口气进行了反思。强化学习过程中人类没有输入任何类似的反思引导，模型能自主进行这种反思，十分有趣。我理解为，在预训练的模型里，模型已经有这样的反思意识潜力，在训练的某次输出过程中偶然出现，而出现后的结果对复杂推理有帮助，强化学习的机制会持续鼓励这样的输出。

训练的结果，在推理相关的 benchmark上，基本达到 o1 的水平：

R1-Zero 有非常有趣的发现，即不做监督学习，仅对预训练模型进行强化学习这条路是 OK 的，最终的模型有媲美o1的推理能力，但当前这种方式训练出的 R1-Zero 实际对外使用会有些问题，主要是对人不友好，比如输出的内容中英文混杂，猜测是奖励模型并没有做这种人类阅读友好的奖励判定，模型没理由能做好这块。

R1

为了做出一个推理能力强，输出对人类友好，综合能力 OK 的模型，DeepSeek 另外训练了R1模型。

整个流程可以可以看这图，图片来自这个视频，顺便推荐这个视频的讲解。

这里做了两个阶段的后训练，每个阶段都是先 SFT，再进行 RL，只是数据和目标不同。

一阶段

用少量的几千个包含了思维链推理的数据，对预训练模型做 SFT。虽然上面说 R1-Zero 不用 SFT 直接用 RL 也可以涌现推理思维链，但有少量精品数据做 SFT，RL 初期就能让模型生成可读性较好的结果，另外可能也能让训练冷启动效率更高，可以看这个视频感受下，在复现过程中，如果没有 SFT 直接 RL，前期要经历比较长的无效训练。
用跟训练 R1-Zero 同样的步骤，用 coding、数学、科学、逻辑这些推理密集的数据，对 SFT 后的模型做强化学习。这次强化学习的奖励模型里增加了对语言一致性的奖励，减少模型输出中英夹杂的概率，虽然加了后发现对模型的推理能力会有些下降，但还能接受。

二阶段

用把上述强化学习后的模型，生成与推理相关的数据，并对这些数据择优，包括去掉语言一致性不行的case、去掉长篇大论的case、对同个问题生成多次并选择最好的一次，拿到质量相对好的60w个推理相关数据，加上另外收集标注的 20w 个跟推理无关，包含写作、事实性回答、翻译等数据，一起对模型再做一次SFT。R1 的中文输出很强，更大可能是跟这 20w 数据的质量高相关。
把上述 SFT 后的模型，再做一次强化学习。这次强化学习具体没有展开，主要是引导模型安全输出，过滤有害输出，以及再次提升推理能力的一次训练。这次的奖励模型额外再加上了对通用内容的奖励，在文科内容、日常问答上，应该也准备了一些质量比较高的 case 和奖励规则模型。

这几个步骤后，R1 就训练完成了，可以看到这个基于 V3 模型的后训练过程成本是很低的，数据量不大，但效果非常显著，特别是在编码和数学问题上，R1 相对 V3 提升了几个档次。

而这个过程，看起来也是可以 scale 的，可以用这个训好的模型继续多步生成一些case，择优组成新的数据，继续进行 SFT 和强化学习。

这条显著提升模型推理能力的后训练路跑通了，公开解了 o1 一直遮遮掩掩的强化学习路线，也展现了很好的低成本持续 scale up 的潜力。沿着这条路走能 scale 到什么程度还不太清楚，拭目以待。

蒸馏

R1 训完了，最终我们用的就是上述训练出来的模型，但这篇论文还没完，DeepSeek 的同学发现用上述 R1 训练过程中生成的 60w 推理相关的数据，以及 20w 的额外数据去对小模型做 SFT，小模型性能的提升非常明显。

看起来这一步纯粹是用质量更好的数据对小模型做SFT，只是这些数据大部分是 R1 生成的，相当于是蒸馏提取了 R1 的能力精华，拟合了 R1 的能力，这样也能给小模型带来较好的推理能力提升。

从分数看，这些小模型在数学和 coding 上的性能是不错的，如果1.5b在部分场景上能有媲美4o的效果，那端上大模型会迎来一波应用潮。但实际用起来没那么理想，试过 1.5B 模型基本不遵循指令，有些刷分的感觉，但这仅是做了初步的SFT 后的效果，在这基础上对小模型继续进行强化学习，可能整体能力能有提升，也是值得期待的点。

这里论文上还额外做了另一个实验，用类似 R1-Zero 的方法直接对小模型做强化学习，实验效果是相对用蒸馏数据做 SFT 的方式，效果差很多。一个猜测是小模型就是能力有限，直接用强化学习达到顿悟和性能提升，得基于模型本身能力足够才行。

到这里 R1 论文内容结束了，结尾部分提到后续会在多轮对话、json输出、语言混合、提示词问题、写工程代码弱这些问题上提升的展望，解决这些只是时间问题。

复现

这篇论文介绍了 R1 整个算法、训练流程和结果，但最核心的应该是数据，包括用于 R1-Zero 的数据是什么，数据量有多大，生成的 60w 数据具体是什么样的，标注的 20w 文科数据是什么，这是决定模型效果的另一个核心因素，DeepSeek 的中文效果出圈，应该很大程度还是标注的 20w 文科数据质量高，不确定 RL 带来的推理能力提升在文科这块上的帮助有多大。这些数据没有公开，友商要复刻出 DeepSeek 的效果没那么容易。

网上有不少开始复现 R1 和 R1-Zero 的开源项目研究，最大的是 huggingface 的 open-r1，也有学生在 3B 模型上小规模复现 R1-Zero 的开源项目 TinyZero。

感受

DeepSeek APP 上线 20天 DAU 超过 2000w，成为历史用户增长最快的 APP，更让人感受到通用 AI chatbot 没有护城河可言，无论是国内的豆包、kimi，还是 ChatGPT、Claude，只要有更好的模型出现，用户瞬间转移不带留恋的。搜索是有技术积累的壁垒的，社交有关系链，内容平台有内容壁垒，基于 chatbot 形态的产品，没看到有什么壁垒，用户数据没有作用，曾以为模型领先就是壁垒，OpenAI 可以凭借领先收高额费用和大部分用户的忠诚，DeepSeek 这波又打破了这种壁垒，领先者无法保证自己一直领先。
DeepSeek 带来中国自信，曾经认为，类似 AICoding 这种全球无差异竞争的产品，国内同学们怎么搞得过海外那些清一色 MIT 天才搞的产品？DeepSeek 的成功叙事给了这些直面竞争产品很大的信心，这种信心下中概股都被疯狂拉动，还是很让人激动的。

500 美元一个月的 Devin 是怎么实现的

bang’s blog

作者 bang

2025年1月19日 17:58

使用

这两天有机会体验了下 Devin，感受到一些小小的震撼。

虽然之前已经用过 cursor 和 windsurf，它们用的模型都一样，理论上能完成的任务和智力是差不多的，但用 Devin 感受还是不太一样，有种 AGI 已经实现了的感觉。

Cursor 和 Devin 核心区别是交互范式，Cursor 是 Copilot，在你工作写代码过程中，实时辅助完成编程任务，而 Devin 是一个员工，交给他复杂任务后不用管它，它主动帮你搞定。可能现在这两者完成的很多任务是一致的，但体验有差异。

我试用的其中一个任务，是扔给它开源项目 JSPatch 的 github 地址，告诉它找个 issue 修一下。它会分解任务逐步执行，包括：

访问 github 网站，浏览issue列表，随机看几个 issue 详情
挑了个 block 相关 issue，浏览项目相关文件，寻找与 issue 相关联的代码文件，制定修复计划
写测试用例 → 修改项目代码尝试修复 issue → 跑用例验证(没 iOS 环境没跑起来) → commit 和提交 PR

这个过程是自动和异步的，它跑在虚拟机里，不需要你提供环境，不需要盯着它，它会自己去调研怎么完成这个任务，做完了会来告诉你（如果用 slack，这个体验过程更顺畅，@它下达任务，任务完成slack回复），这跟给一个员工布置任务，等他做完验收结果的体验很一致。

畅想

现在 Devin 解决问题的能力肯定还有限，真正用下来磕磕碰碰很多任务还是完成不好，现在的模型能力下 Cursor 这种 Copilot 的形态是更实用的，但未来理想的形态肯定是 Devin 这种“员工”形态，因为可以解放注意力，无限扩展同一时间能做的事。

可以想象，这种形态未来的优化速度会很乐观：

基础模型的思维规划能力还没收敛，从sonet o1 到 o3 可以看到还在快速提升
即使基础模型能力放缓了，模型在领域上的调优还有很大空间。
更多工具的接入，也能带来更强大的能力和体验。

以及，模型成本必然比摩尔定律更快速的下降，Devin 会持续用最好的模型最贵的方案，但今天 500美金的效果，一年后成本可能只要5美金就能做到。

Devin 所实现的概念早在 23年初 AutoGPT 就提出，只是当时模型能力还不具备，Claude Sonnet / GPT 4o / GPT o1 这种级别推理能力的模型出现后，才具备可用性，Devin 是实现了这个概念下初步可用的雏形，让人看到这个方向已经初步 ready，剩下的就是持续往这个方向优化和扩展了，Devin 确实称得上是数字员工的开端，设计师agent，交易员agent，数据分析师agent，电商agent，预计会陆续出现。

原理

Devin 是怎么实现的？

有个开源项目 OpenHands（前身 OpenDevin），尝试用开源社区的方式去构建类似 Devin 做的事，虽然能力和效果上不能完全对标 Devin，但可以看个基本雏形。相关论文：https://arxiv.org/abs/2407.16741

文中的这张架构图，可以比较好描述 OpenHands 是怎么做：

三个主要部分：

Event Stream：记录每一步指令和执行结果，Action 是指令，Observation 是指令对应的工具执行的结果，Action 和 Observation 最终都是以纯文本记录结果。
Runtime：程序运行在独立的 docker 容器里，提供一些工具给 Agent 调用执行，当前包括 Python 运行、终端命令行、浏览器
Agent：把 Event Stream 里的所有内容作为上下文，输入到 LLM 推理下一步Action。

还有个关键点没有在图上画出来，为什么把 Event Stream 的所有内容输入到 LLM，LLM 就会按照要求推理出下一步 Action？因为输入到 LLM 的除了 Event Stream 的上下文，还有 Agent 本身的 Prompt，这个 Prompt 描述一些处理原则、当前环境、可用的工具、每个工具的参数、预期输出的格式等，以及还配套了一个示例，指引模型按要求输出。这个 Prompt 本身贴在了文末。

我们跟着图上 Event Stream 的示例，跑一下这个流程：

用户输入一个任务命令：“Can you create a list of numbers from 1 to 10, and create a web page to display them at port 5000?” 到 Event Stream
当前 Event Stream 只有这一条命令内容，输入到 Agent，Agent 会拿它跟上述预置 prompt 一起输入给 LLM，LLM 会推理出下一步是调用 Python 去创建 app.py 文件，输出 Action 指令到 Event Stream。
工具 IPython 对应的 Observation 监听到这个指令，在 Runtime 环境执行了这个命令，输出执行结果“app.py created” 记录在 Event Stream 上
Event Stream 接收到 Observation 新的执行结果后，Agent 程序会自动继续把整个 Event Stream 记录连同预置 Prompt 输入给 LLM，推测下一步 Action。推测出来的下一步 Action 是把一大段代码用调用 python 命令的方式写入刚才创建的文件
IPython Observation 接收到这个 Action，在 Runtime 环境执行命令，输出执行结果到 Event Stream。

接下来就是不断的循环：Action 驱动 Observation 用工具做处理 → 处理结果输出到 Event Stream → Event Stream 拿所有前文内容到 LLM 输出下一步 Action → 驱动Observation 用工具做处理…

后面的6-9步用了命令行工具和浏览器工具，流程是一样的。这个循环流程什么时候结束？有一个特殊的 Action 叫 finish，如果一个任务 LLM 认为完成了，就会输出调用 finish Action，程序接收到就退出循环，等用户下一步输入。

整体就是自动循环让 LLM 预测下一步动作 → Agent 程序调用工具执行动作的过程。补充一些点：

整个项目不涉及模型训练，纯工程方案，使用通用 LLM 模型，可以配置 Claude/GPT/Deepseek 等，不过可预见的演进是根据用户使用数据去优化模型以达到领域内更好的效果。
这里没有实现像 Devin 在输出 Action 前先会规划好任务的步骤再一步步执行，但要在上述这个系统加上这个规划能力预计不难。
项目使用 BrowserGym 去和浏览器交互，Agent 对浏览器的操作和识别是另一个大课题，有单独的 benchmark 多种方案，待调研。
随着 Event Stream 里链路的不断增加，上下文会越来越长，到一定程度 openhands 会做两种处理，一种是压缩内容，把前面的上下文发给 llm 精练总结，用更简短的内容作为后续的上下文。另一种是让 LLM 对过去的内容进行重要度排序，只选择对预测下一步重要的几个记录作为上下文，具体逻辑在 condenser.py 里。更长的上下文会用向量数据库 ChromeDB 存储。

附：预置prompt

You are OpenHands agent, a helpful AI assistant that can interact with a computer to solve tasks.
<IMPORTANT>
//
* If user provides a path, you should NOT assume it's relative to the current working directory. Instead, you should explore the file system to find the file before working on it.
* When configuring git credentials, use "openhands" as the user.name and "openhands@all-hands.dev" as the user.email by default, unless explicitly instructed otherwise.
* The assistant MUST NOT include comments in the code unless they are necessary to describe non-obvious behavior.
RuntimeInfo(available_hosts={'http://localhost:54090': 54090, 'http://localhost:55602': 55602})
</IMPORTANT>

<RUNTIME_INFORMATION>
The user has access to the following hosts for accessing a web application,
each of which has a corresponding port:
* http://localhost:54090 (port 54090)
* http://localhost:55602 (port 55602)

When starting a web server, use the corresponding ports. You should also
set any options to allow iframes and CORS requests.
</RUNTIME_INFORMATION>
You have access to the following functions:

---- BEGIN FUNCTION #1: execute_bash ----
Description: Execute a bash command in the terminal.
* Long running commands: For commands that may run indefinitely, it should be run in the background and the output should be redirected to a file, e.g. command = `python3 app.py > server.log 2>&1 &`.
* Interactive: If a bash command returns exit code `-1`, this means the process is not yet finished. The assistant must then send a second call to terminal with an empty `command` (which will retrieve any additional logs), or it can send additional text (set `command` to the text) to STDIN of the running process, or it can send command like `C-c` (Ctrl+C) to interrupt the process.

Parameters:
  (1) command (string, required): The bash command to execute. Can be empty string to view additional logs when previous exit code is `-1`. Can be `C-c` (Ctrl+C) to interrupt the currently running process.
---- END FUNCTION #1 ----

---- BEGIN FUNCTION #2: finish ----
Description: Finish the interaction when the task is complete OR if the assistant cannot proceed further with the task.
No parameters are required for this function.
---- END FUNCTION #2 ----

---- BEGIN FUNCTION #3: web_read ----
Description: Read (convert to markdown) content from a webpage. You should prefer using the `web_read` tool over the `browser` tool, but do use the `browser` tool if you need to interact with a webpage (e.g., click a button, fill out a form, etc.).

You may use the `web_read` tool to read content from a webpage, and even search the webpage content using a Google search query (e.g., url=`https://www.google.com/search?q=YOUR_QUERY`).

Parameters:
  (1) url (string, required): The URL of the webpage to read. You can also use a Google search query here (e.g., `https://www.google.com/search?q=YOUR_QUERY`).
---- END FUNCTION #3 ----

---- BEGIN FUNCTION #4: browser ----
Description: Interact with the browser using Python code. Use it ONLY when you need to interact with a webpage.

See the description of "code" parameter for more details.

Multiple actions can be provided at once, but will be executed sequentially without any feedback from the page.
More than 2-3 actions usually leads to failure or unexpected behavior. Example:
fill('a12', 'example with "quotes"')
click('a51')
click('48', button='middle', modifiers=['Shift'])

Parameters:
  (1) code (string, required): The Python code that interacts with the browser.

The following 15 functions are available. Nothing else is supported.

goto(url: str)
    Description: Navigate to a url.
    Examples:
        goto('http://www.example.com')

go_back()
    Description: Navigate to the previous page in history.
    Examples:
        go_back()

go_forward()
    Description: Navigate to the next page in history.
    Examples:
        go_forward()

noop(wait_ms: float = 1000)
    Description: Do nothing, and optionally wait for the given time (in milliseconds).
    You can use this to get the current page content and/or wait for the page to load.
    Examples:
        noop()

        noop(500)

scroll(delta_x: float, delta_y: float)
    Description: Scroll horizontally and vertically. Amounts in pixels, positive for right or down scrolling, negative for left or up scrolling. Dispatches a wheel event.
    Examples:
        scroll(0, 200)

        scroll(-50.2, -100.5)

fill(bid: str, value: str)
    Description: Fill out a form field. It focuses the element and triggers an input event with the entered text. It works for <input>, <textarea> and [contenteditable] elements.
    Examples:
        fill('237', 'example value')

        fill('45', 'multi-line
example')

        fill('a12', 'example with "quotes"')

select_option(bid: str, options: str | list[str])
    Description: Select one or multiple options in a <select> element. You can specify option value or label to select. Multiple options can be selected.
    Examples:
        select_option('a48', 'blue')

        select_option('c48', ['red', 'green', 'blue'])

click(bid: str, button: Literal['left', 'middle', 'right'] = 'left', modifiers: list[typing.Literal['Alt', 'Control', 'ControlOrMeta', 'Meta', 'Shift']] = [])
    Description: Click an element.
    Examples:
        click('a51')

        click('b22', button='right')

        click('48', button='middle', modifiers=['Shift'])

dblclick(bid: str, button: Literal['left', 'middle', 'right'] = 'left', modifiers: list[typing.Literal['Alt', 'Control', 'ControlOrMeta', 'Meta', 'Shift']] = [])
    Description: Double click an element.
    Examples:
        dblclick('12')

        dblclick('ca42', button='right')

        dblclick('178', button='middle', modifiers=['Shift'])

hover(bid: str)
    Description: Hover over an element.
    Examples:
        hover('b8')

press(bid: str, key_comb: str)
    Description: Focus the matching element and press a combination of keys. It accepts the logical key names that are emitted in the keyboardEvent.key property of the keyboard events: Backquote, Minus, Equal, Backslash, Backspace, Tab, Delete, Escape, ArrowDown, End, Enter, Home, Insert, PageDown, PageUp, ArrowRight, ArrowUp, F1 - F12, Digit0 - Digit9, KeyA - KeyZ, etc. You can alternatively specify a single character you'd like to produce such as "a" or "#". Following modification shortcuts are also supported: Shift, Control, Alt, Meta, ShiftLeft, ControlOrMeta. ControlOrMeta resolves to Control on Windows and Linux and to Meta on macOS.
    Examples:
        press('88', 'Backspace')

        press('a26', 'ControlOrMeta+a')

        press('a61', 'Meta+Shift+t')

focus(bid: str)
    Description: Focus the matching element.
    Examples:
        focus('b455')

clear(bid: str)
    Description: Clear the input field.
    Examples:
        clear('996')

drag_and_drop(from_bid: str, to_bid: str)
    Description: Perform a drag & drop. Hover the element that will be dragged. Press left mouse button. Move mouse to the element that will receive the drop. Release left mouse button.
    Examples:
        drag_and_drop('56', '498')

upload_file(bid: str, file: str | list[str])
    Description: Click an element and wait for a "filechooser" event, then select one or multiple input files for upload. Relative file paths are resolved relative to the current working directory. An empty list clears the selected files.
    Examples:
        upload_file('572', '/home/user/my_receipt.pdf')

        upload_file('63', ['/home/bob/Documents/image.jpg', '/home/bob/Documents/file.zip'])

---- END FUNCTION #4 ----

---- BEGIN FUNCTION #5: execute_ipython_cell ----
Description: Run a cell of Python code in an IPython environment.
* The assistant should define variables and import packages before using them.
* The variable defined in the IPython environment will not be available outside the IPython environment (e.g., in terminal).

Parameters:
  (1) code (string, required): The Python code to execute. Supports magic commands like %pip.
---- END FUNCTION #5 ----

---- BEGIN FUNCTION #6: str_replace_editor ----
Description: Custom editing tool for viewing, creating and editing files
* State is persistent across command calls and discussions with the user
* If `path` is a file, `view` displays the result of applying `cat -n`. If `path` is a directory, `view` lists non-hidden files and directories up to 2 levels deep
* The `create` command cannot be used if the specified `path` already exists as a file
* If a `command` generates a long output, it will be truncated and marked with `<response clipped>`
* The `undo_edit` command will revert the last edit made to the file at `path`

Notes for using the `str_replace` command:
* The `old_str` parameter should match EXACTLY one or more consecutive lines from the original file. Be mindful of whitespaces!
* If the `old_str` parameter is not unique in the file, the replacement will not be performed. Make sure to include enough context in `old_str` to make it unique
* The `new_str` parameter should contain the edited lines that should replace the `old_str`

Parameters:
  (1) command (string, required): The commands to run. Allowed options are: `view`, `create`, `str_replace`, `insert`, `undo_edit`.
Allowed values: [`view`, `create`, `str_replace`, `insert`, `undo_edit`]
  (2) path (string, required): Absolute path to file or directory, e.g. `/workspace/file.py` or `/workspace`.
  (3) file_text (string, optional): Required parameter of `create` command, with the content of the file to be created.
  (4) old_str (string, optional): Required parameter of `str_replace` command containing the string in `path` to replace.
  (5) new_str (string, optional): Optional parameter of `str_replace` command containing the new string (if not given, no string will be added). Required parameter of `insert` command containing the string to insert.
  (6) insert_line (integer, optional): Required parameter of `insert` command. The `new_str` will be inserted AFTER the line `insert_line` of `path`.
  (7) view_range (array, optional): Optional parameter of `view` command when `path` points to a file. If none is given, the full file is shown. If provided, the file will be shown in the indicated line number range, e.g. [11, 12] will show lines 11 and 12. Indexing at 1 to start. Setting `[start_line, -1]` shows all lines from `start_line` to the end of the file.
---- END FUNCTION #6 ----


If you choose to call a function ONLY reply in the following format with NO suffix:

<function=example_function_name>
<parameter=example_parameter_1>value_1</parameter>
<parameter=example_parameter_2>
This is the value for the second parameter
that can span
multiple lines
</parameter>
</function>

<IMPORTANT>
Reminder:
- Function calls MUST follow the specified format, start with <function= and end with </function>
- Required parameters MUST be specified
- Only call one function at a time
- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after.
- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls


----------

Here's a running example of how to perform a task with the provided tools.

--------------------- START OF EXAMPLE ---------------------

USER: Create a list of numbers from 1 to 10, and display them in a web page at port 5000.

ASSISTANT: Sure! Let me first check the current directory:
<function=execute_bash>
<parameter=command>
pwd && ls
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
/workspace
openhands@runtime:~/workspace$

ASSISTANT: There is no `app.py` file in the current directory. Let me create a Python file `app.py`:
<function=str_replace_editor>
<parameter=command>create</parameter>
<parameter=path>/workspace/app.py</parameter>
<parameter=file_text>
from flask import Flask
app = Flask(__name__)

@app.route('/')
def index():
    numbers = list(range(1, 11))
    return str(numbers)

if __name__ == '__main__':
    app.run(port=5000)
</parameter>
</function>

USER: EXECUTION RESULT of [str_replace_editor]:
File created successfully at: /workspace/app.py

ASSISTANT: I have created a Python file `app.py` that will display a list of numbers from 1 to 10 when you run it. Let me run the Python file for you:
<function=execute_bash>
<parameter=command>
python3 app.py > server.log 2>&1 &
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
[1] 121
[1]+  Exit 1                  python3 app.py > server.log 2>&1

ASSISTANT: Looks like the server is running with PID 121 then crashed. Let me check the server log:
<function=execute_bash>
<parameter=command>
cat server.log
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
Traceback (most recent call last):
  File "/workspace/app.py", line 2, in <module>
    from flask import Flask
ModuleNotFoundError: No module named 'flask'

ASSISTANT: Looks like the server crashed because the `flask` module is not installed. Let me install the `flask` module for you:
<function=execute_bash>
<parameter=command>
pip3 install flask
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
Defaulting to user installation because normal site-packages is not writeable
Collecting flask
  Using cached flask-3.0.3-py3-none-any.whl (101 kB)
Collecting blinker>=1.6.2
  Using cached blinker-1.7.0-py3-none-any.whl (13 kB)
Collecting Werkzeug>=3.0.0
  Using cached werkzeug-3.0.2-py3-none-any.whl (226 kB)
Collecting click>=8.1.3
  Using cached click-8.1.7-py3-none-any.whl (97 kB)
Collecting itsdangerous>=2.1.2
  Using cached itsdangerous-2.2.0-py3-none-any.whl (16 kB)
Requirement already satisfied: Jinja2>=3.1.2 in /home/openhands/.local/lib/python3.10/site-packages (from flask) (3.1.3)
Requirement already satisfied: MarkupSafe>=2.0 in /home/openhands/.local/lib/python3.10/site-packages (from Jinja2>=3.1.2->flask) (2.1.5)
Installing collected packages: Werkzeug, itsdangerous, click, blinker, flask
Successfully installed Werkzeug-3.0.2 blinker-1.7.0 click-8.1.7 flask-3.0.3 itsdangerous-2.2.0

ASSISTANT: The `flask` module is installed successfully. Let me run the Python file again:
<function=execute_bash>
<parameter=command>
python3 app.py > server.log 2>&1 &
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
[1] 124

ASSISTANT:
Let me check the server log again:
<function=execute_bash>
<parameter=command>
cat server.log
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
* Serving Flask app 'app'
 * Debug mode: off
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
 * Running on http://127.0.0.1:5000
Press CTRL+C to quit

ASSISTANT:
The server is running on port 5000 with PID 124. You can access the list of numbers by visiting http://127.0.0.1:5000. If you have any further questions, feel free to ask!

USER: Now kill the server, make it display the numbers in a table format.

ASSISTANT:
Sure! Let me stop the server first:
<function=execute_bash>
<parameter=command>
kill 124
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
[1]+  Terminated              python3 app.py > server.log 2>&1

ASSISTANT:
Now let me display the numbers in a table format:
<function=str_replace_editor>
<parameter=command>str_replace</parameter>
<parameter=path>/workspace/app.py</parameter>
<parameter=old_str>return str(numbers)</parameter>
<parameter=new_str>return '<table>' + ''.join([f'<tr><td>{i}</td></tr>' for i in numbers]) + '</table>'</parameter>
</function>

USER: EXECUTION RESULT of [str_replace_editor]:
The file /workspace/app.py has been edited. Here's the result of running `cat -n` on a snippet of /workspace/app.py:
     3
     4  @app.route('/')
     5  def index():
     6      numbers = list(range(1, 11))
     7      return '<table>' + ''.join([f'<tr><td>{i}</td></tr>' for i in numbers]) + '</table>'
     8
     9  if __name__ == '__main__':
    10      app.run(port=5000)
Review the changes and make sure they are as expected. Edit the file again if necessary.

ASSISTANT:
Running the updated file:
<function=execute_bash>
<parameter=command>
<parameter=command>
python3 app.py > server.log 2>&1 &
</parameter>
</function>

USER: EXECUTION RESULT of [execute_bash]:
[1] 126

ASSISTANT:
The server is running on port 5000 with PID 126. You can access the list of numbers in a table format by visiting http://127.0.0.1:5000. Let me know if you have any further requests!
<function=finish>
</function>

--------------------- END OF EXAMPLE ---------------------

Do NOT assume the environment is the same as in the example above.

附：任务 Prompt示例

以下是真实执行一个任务时，循环添加输入 LLM 的 Prompt case：

--------------------- NEW TASK DESCRIPTION ---------------------
创建一个可以调用deepseek模型的程序，并运行测试确保可用
--------------------- END OF NEW TASK DESCRIPTION ---------------------

PLEASE follow the format strictly! PLEASE EMIT ONE AND ONLY ONE FUNCTION CALL PER MESSAGE.


----------

Let me start by checking the current directory and listing its contents:

<function=execute_bash>
<parameter=command>pwd && ls</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
/workspace
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 0]

----------

I see we are in the `/workspace` directory. Let's create a Python file that can call the DeepSeek model. First, I'll create a new file called `deepseek_app.py`:

<function=str_replace_editor>
<parameter=command>create</parameter>
<parameter=path>/workspace/deepseek_app.py</parameter>
<parameter=file_text>
from deepseek import DeepSeekModel

def call_deepseek_model(input_text):
    model = DeepSeekModel()
    response = model.generate(input_text)
    return response

if __name__ == "__main__":
    test_input = "Hello, DeepSeek!"
    result = call_deepseek_model(test_input)
    print("Model Response:", result)
</parameter>
</function>

----------

EXECUTION RESULT of [str_replace_editor]:
File created successfully at: /workspace/deepseek_app.py

----------

Now, let's check if the `deepseek` module is installed. If not, we'll need to install it:

<function=execute_bash>
<parameter=command>pip3 show deepseek</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
WARNING: Package(s) not found: deepseek
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 1]

----------

The `deepseek` module is not installed. Let me install it using pip:

<function=execute_bash>
<parameter=command>pip3 install deepseek</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Collecting deepseek
  Downloading deepseek-1.0.0-py3-none-any.whl.metadata (3.9 kB)
Requirement already satisfied: requests in /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages (from deepseek) (2.32.3)
Requirement already satisfied: charset-normalizer<4,>=2 in /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages (from requests->deepseek) (3.4.1)
Requirement already satisfied: idna<4,>=2.5 in /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages (from requests->deepseek) (3.10)
Requirement already satisfied: urllib3<3,>=1.21.1 in /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages (from requests->deepseek) (2.3.0)
Requirement already satisfied: certifi>=2017.4.17 in /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages (from requests->deepseek) (2024.12.14)
Downloading deepseek-1.0.0-py3-none-any.whl (4.5 kB)
Installing collected packages: deepseek
Successfully installed deepseek-1.0.0
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 0]

----------

The `deepseek` module is now installed. Let's run the `deepseek_app.py` program to test if it works:

<function=execute_bash>
<parameter=command>python3 deepseek_app.py</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Traceback (most recent call last):
  File "/workspace/deepseek_app.py", line 1, in <module>
    from deepseek import DeepSeekModel
ImportError: cannot import name 'DeepSeekModel' from 'deepseek' (/openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages/deepseek/__init__.py)
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 1]

----------

It seems the `DeepSeekModel` class is not available in the `deepseek` module. Let me check the documentation or available classes in the `deepseek` module:

<function=execute_bash>
<parameter=command>python3 -c "import deepseek; print(dir(deepseek))"</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
['DeepSeekAPI', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', 'api', 'const']
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 0]

----------

The `deepseek` module provides a `DeepSeekAPI` class instead of `DeepSeekModel`. Let me update the `deepseek_app.py` file to use the correct class:

<function=str_replace_editor>
<parameter=command>str_replace</parameter>
<parameter=path>/workspace/deepseek_app.py</parameter>
<parameter=old_str>
from deepseek import DeepSeekModel

def call_deepseek_model(input_text):
    model = DeepSeekModel()
    response = model.generate(input_text)
    return response
</parameter>
<parameter=new_str>
from deepseek import DeepSeekAPI

def call_deepseek_model(input_text):
    api = DeepSeekAPI()
    response = api.generate(input_text)
    return response
</parameter>
</function>

----------

EXECUTION RESULT of [str_replace_editor]:
The file /workspace/deepseek_app.py has been edited. Here's the result of running `cat -n` on a snippet of /workspace/deepseek_app.py:
     1        from deepseek import DeepSeekAPI
     2        
     3        def call_deepseek_model(input_text):
     4            api = DeepSeekAPI()
     5            response = api.generate(input_text)
     6            return response
     7        
     8        if __name__ == "__main__":
     9            test_input = "Hello, DeepSeek!"
    10            result = call_deepseek_model(test_input)
Review the changes and make sure they are as expected. Edit the file again if necessary.

----------

Now that the file is updated, let's run the program again to test if it works:

<function=execute_bash>
<parameter=command>python3 deepseek_app.py</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Traceback (most recent call last):
  File "/workspace/deepseek_app.py", line 10, in <module>
    result = call_deepseek_model(test_input)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/workspace/deepseek_app.py", line 4, in call_deepseek_model
    api = DeepSeekAPI()
          ^^^^^^^^^^^^^
  File "/openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages/deepseek/api.py", line 9, in __init__
    raise ValueError("DEEPSEEK_API_KEY is missing")
ValueError: DEEPSEEK_API_KEY is missing
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 1]

----------

The program requires an API key to use the `DeepSeekAPI`. Let me update the program to include the API key as an environment variable. First, I'll modify the `deepseek_app.py` file:

<function=str_replace_editor>
<parameter=command>str_replace</parameter>
<parameter=path>/workspace/deepseek_app.py</parameter>
<parameter=old_str>
from deepseek import DeepSeekAPI

def call_deepseek_model(input_text):
    api = DeepSeekAPI()
    response = api.generate(input_text)
    return response
</parameter>
<parameter=new_str>
import os
from deepseek import DeepSeekAPI

def call_deepseek_model(input_text):
    api_key = os.getenv("DEEPSEEK_API_KEY")
    if not api_key:
        raise ValueError("Please set the DEEPSEEK_API_KEY environment variable.")
    api = DeepSeekAPI(api_key=api_key)
    response = api.generate(input_text)
    return response
</parameter>
</function>

----------

EXECUTION RESULT of [str_replace_editor]:
The file /workspace/deepseek_app.py has been edited. Here's the result of running `cat -n` on a snippet of /workspace/deepseek_app.py:
     1        import os
     2        from deepseek import DeepSeekAPI
     3        
     4        def call_deepseek_model(input_text):
     5            api_key = os.getenv("DEEPSEEK_API_KEY")
     6            if not api_key:
     7                raise ValueError("Please set the DEEPSEEK_API_KEY environment variable.")
     8            api = DeepSeekAPI(api_key=api_key)
     9            response = api.generate(input_text)
    10            return response
    11        
    12        if __name__ == "__main__":
    13            test_input = "Hello, DeepSeek!"
    14            result = call_deepseek_model(test_input)
Review the changes and make sure they are as expected. Edit the file again if necessary.

----------

Now, let's set the `DEEPSEEK_API_KEY` environment variable and run the program again. Please provide the API key for DeepSeek, and I will set it up for you. If you don't have one, you may need to sign up for an API key from DeepSeek's official website.

<function=execute_bash>
<parameter=command>export DEEPSEEK_API_KEY=your_api_key_here && python3 deepseek_app.py</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Traceback (most recent call last):
  File "/workspace/deepseek_app.py", line 14, in <module>
    result = call_deepseek_model(test_input)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/workspace/deepseek_app.py", line 9, in call_deepseek_model
    response = api.generate(input_text)
               ^^^^^^^^^^^^
AttributeError: 'DeepSeekAPI' object has no attribute 'generate'
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 1]

----------

It seems the `DeepSeekAPI` class does not have a `generate` method. Let me check the available methods in the `DeepSeekAPI` class:

<function=execute_bash>
<parameter=command>python3 -c "from deepseek import DeepSeekAPI; print(dir(DeepSeekAPI))"</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_post_request', 'chat_completion', 'completion_impl', 'fim_completion', 'get_models', 'user_balance']
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 0]

----------

The `DeepSeekAPI` class provides methods like `chat_completion`, `fim_completion`, and `get_models`. Let's update the `deepseek_app.py` file to use the `chat_completion` method instead of `generate`:

<function=str_replace_editor>
<parameter=command>str_replace</parameter>
<parameter=path>/workspace/deepseek_app.py</parameter>
<parameter=old_str>
api = DeepSeekAPI(api_key=api_key)
    response = api.generate(input_text)
    return response
</parameter>
<parameter=new_str>
api = DeepSeekAPI(api_key=api_key)
    response = api.chat_completion(input_text)
    return response
</parameter>
</function>

----------

EXECUTION RESULT of [str_replace_editor]:
The file /workspace/deepseek_app.py has been edited. Here's the result of running `cat -n` on a snippet of /workspace/deepseek_app.py:
     4        def call_deepseek_model(input_text):
     5            api_key = os.getenv("DEEPSEEK_API_KEY")
     6            if not api_key:
     7                raise ValueError("Please set the DEEPSEEK_API_KEY environment variable.")
     8            api = DeepSeekAPI(api_key=api_key)
     9            response = api.chat_completion(input_text)
    10            return response
    11        
    12        if __name__ == "__main__":
    13            test_input = "Hello, DeepSeek!"
    14            result = call_deepseek_model(test_input)
Review the changes and make sure they are as expected. Edit the file again if necessary.

----------

Now, let's run the program again with the updated method. Please provide the `DEEPSEEK_API_KEY` environment variable:

<function=execute_bash>
<parameter=command>export DEEPSEEK_API_KEY=your_api_key_here && python3 deepseek_app.py</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Traceback (most recent call last):
  File "/workspace/deepseek_app.py", line 14, in <module>
    result = call_deepseek_model(test_input)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/workspace/deepseek_app.py", line 9, in call_deepseek_model
    response = api.chat_completion(input_text)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages/deepseek/api.py", line 62, in chat_completion
    response = self._post_request(API_CHAT_COM, payload, stream)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/openhands/poetry/openhands-ai-5O4_aCHf-py3.12/lib/python3.12/site-packages/deepseek/api.py", line 25, in _post_request
    raise Exception(f"HTTP Error {response.status_code}: {response.text}")
Exception: HTTP Error 401: {"error":{"message":"Authentication Fails (no such user)","type":"authentication_error","param":null,"code":"invalid_request_error"}}
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 1]

----------

The error indicates that the provided API key is invalid or does not correspond to a valid user. To proceed, you will need to:

1. Obtain a valid API key from DeepSeek's official platform.
2. Ensure the API key is correctly set in the environment.

Once you have a valid API key, you can set it and run the program again. Let me know if you need further assistance!

----------

key: *** ///在这里输入了key，隐藏

----------

Thank you for providing the API key. Let's set the environment variable and run the program again:

<function=execute_bash>
<parameter=command>export DEEPSEEK_API_KEY=sk-4a727097b1ef4e61a3444ec96e1e0db0 && python3 deepseek_app.py</parameter>
</function>

----------

EXECUTION RESULT of [execute_bash]:
Model Response: Hello! How can I assist you today? 😊
[Python Interpreter: /openhands/poetry/openhands-ai-5O4_aCHf-py3.12/bin/python]
[Command finished with exit code 0]

bang’s blog
2024bang
2024年12月31日 22:40

2024

bang’s blog

作者 bang

2024年12月31日 22:40

又到了 31 号这天，回想起来 24 年过得很快，回顾过去一些事，有的感觉就前几周的事，一看原来已经过去四五个月。照例在这天写篇生活记录。

学习

去年说今年要学下AI，总算有点进展，虽然进度不理想，但也算迈开了步伐。

学习如果没有一些事项引导，就很难进行，最好的学习方式是直接在做的过程中学，真正进去做这个事的过程中会不断遇到一些问题，解决这些问题过程就是很自然的逐渐学习和深入的过程。

没这个条件的话，就退而求其次，用分享输出的方式引导学习，所以我时隔四五年不写博客，今年又开始写了，主要就是让我的学习有个地方做完整的记录，有相应的引导。

在软件工程时代，一个功能能不能实现，原理链路大概是怎样，基本都能知道，上一轮以推荐为主的 AI 也大致能了解原理。而这次的生成式 AI 太魔法了，应用范围和影响力也远超过去，完全不了解它是怎么回事很让人难受，有种跟不上时代的感觉，学一些皮毛后感觉好一些。

不过最好还是机会边做边学，希望25年能多一些深入实践，让自己在创造的状态里学习。

今年 AI 继续快速发展，有几个时刻对 AI 的能力和带来的体验还是很震惊的：

AI Coding：第一次用 cursor 的补全能力、compose 创建多个文件能力，第一次用 windsurf 直接创建项目跑起来，都让人震惊。虽然一些微调和 bug AI 还不能解决得很好，但做一个 demo 完全没问题，对程序员来说，也可以完全忽略不同编程语言/平台特性前期学习的障碍，无差别上手码代码。AI Coding 是今年完全跑出来的赛道，大家都看到了它的机会，以后没有一个程序员不需要 AI 辅助 Coding，而且 AI Coding 还能不断转换非程序员群体进来构建任意软件交互功能，想象空间很大，可以预料 25 年这个赛道会比百团大战更热闹。
Prompt 的能力：看到 Glif 的 AI 梗图生成很惊讶，只需要输入工种比如“程序员”，LLM 就能生成信息量极大的针对这个工种的梗，当时感觉自己确实是 LLM 小白，LLM 本身存储压缩的信息量是巨大的。
视频生成：年初的 sora 震惊许多人，但第一次上手用视频生成才会真实感受到冲击，第一次用即梦的视频S2.0模型时，超高清和稳定的人脸运动属实惊艳，很容易做画面感很好的视频，一直想给小说《十日终焉》配个AI生成的小片，终于圆了这个念想。
NotebookLM：生成的真实对话声音的真实性实在太强，一点AI味都没有。文字/图片/音频/视频，以后 AI 可以自由在多个模态之间自由切换，只要有源头内容，各种形态的展示都不会是问题。

播客

前两天小宇宙推送年度总结，看到今年我在上面听的总时长时很惊讶，166个小时，我已经成为播客的忠实用户了。想想也合理，一年200多个工作日，如果每个工作日上下班开车一小时听一小时，也有200多个小时。

网络上高质量内容一直在切换形态，从最开始的 blog，到后来的公众号知乎，在公众号和知乎泛化后，高质量的内容逐渐转移到播客上了，在海外更是这样，特别是AI前沿信息基本都在播客上，国内也逐渐是这个趋势，今年特别明显。

除了听几个AI相关的博客，听得最多的是半拿铁，内容做得太好了，有几个很喜欢的系列，包括任天堂往事、日漫史、改革开放系列。

改革开放系列让人看到整个路径的曲折，路线反复的历史背景，一大波有担当的政府官员推动历史，克服极大的困难才让改革开放走下去，听到最近一期成事后的片尾曲《春天的故事》时，竟有些动容。

日漫史和任天堂往事，也跟着它回忆了一下这些从小到大的精神粮食，任天堂不断把游戏欢乐带给更广泛的人，强大的创新能力，至暗时刻也能翻身，不愧是游戏界的神。日本漫画家没日没夜奋斗完成作品的干劲，这种投入强度和一根筋的热情，也只有日本能把漫画行业做出来。

游戏

今年玩过最好的游戏当然是《黑神话悟空》，远超预期，独有的中国文化之美，光看画面就是很大的享受，尤其是小西天，剧情音乐也都很顶，黄风岭陕西说唱、《壁上观》都很美，能玩到这样的游戏真好。不足的是难度没有循序渐进，开头的白衣居士卡得我差点放弃，后面反而障碍不多，但偶尔被 boss 卡还是挺难受。另外玩游戏过程中几乎感受不到剧情，这么顶的剧情全靠外部解说，也不知是不是个传播策略。

看了黑神话悟空相关的访谈，一个体制以外冒出来的好的作品，都是极具个人色彩的，精品是靠一小撮人投入极大的热情和毅力创造出来的。有黑神话悟空，国产 3A 大作有希望，但5年-10年内还会不会有其他精品出来，不太乐观，只能肯定的是大公司不会有。

物品

九号电动车，体验超预期，一线互联网水准的 APP 体验，停车自动锁，坐上自动解锁，二轮电动也跟上了智能电动汽车的步伐，生活中再也没有钥匙这个东西了。
Vision Pro，年初在同事那里体验了一波 Vision Pro，效果很震撼，特别是演示的恐龙视频，3D 全景高分辨率带来真正身临其境的感觉，但它更像是一个概念机，长板很长，短板很短，希望苹果能坚持继续解决佩戴舒适度、成本价格问题，真正把这个领域做起来，还是很期待 Vision Pro 的体验能成为日常的时代，不知道10年后能不能达成，掐指一算 Google glass 都已经12年了，穿戴式设备的进度十分缓慢。
meta 眼镜，Vision Pro 没那么快普及，但可以预见的是类 meta 眼镜接下来一年会爆发，可能是今年最吸引人的硬件，随时抓拍记录生活，叠加AI对话的概念，除了拍摄和AI，还有望部分代替掉 Airpods，绝对的爆款，期待国产卷出性价比体验都更高的版本，迫不及待想买了。
Airpods 非入耳式的降噪，在飞机上效果极佳，至今每一代的Airpods 基本都买了，仍是非常值得入手的产品。
米家智能家居，今年终于出了独立的电动窗帘，让我这没留充电位置的窗帘也能支持电动了，外加捣鼓了玄关灯、灯带，可惜楼盘自带的“智能“系统阻止了我进一步捣鼓，如果有机会装修房子，一定让全家都配好米家。

旅游

去了银川中卫，香格里拉，西双版纳，哈尔滨雪乡，成都(团建)，中山，长沙。

银川中卫沙漠星星酒店，感受非常好，就算在五一假期，也是一片片空旷的沙漠没什么人，小朋友骑骑骆驼玩玩沙，很惬意。

雪乡在我印象中是前几年坑人口碑很差的形象，实际上超预期，雪景小镇很美，游玩设施也不错，没遇到什么坑人的场景，体验不错，可惜的是时间太短了，有机会可以再去。

香格里拉没想象中美，可能因为天气一直是阴天和下雨，偶尔的蓝天惊鸿一瞥是很漂亮，另外带着小孩没法去徒步，也没去雪山，就小小感受下藏族的风格。西双版纳很有泰国风味，热带雨林的感觉很明显，云南这两个地方的差异太大了。

成都的毕棚沟和香格里拉海拔都3000米以上，感觉没什么高原反应，明年可以去西藏了。

对成都和长沙印象都挺好，长沙五一广场方圆一大片人山人海，走哪都是商店大商场，都是茶颜悦色，夜夜笙歌，真是娱乐之都。

25年希望继续解锁世界地图。

小孩

跟同事聊娃，经常会聊出焦虑，不鸡娃不上奥数和考KET就上不了好的初中，而我们什么都没准备，让我有点担心是不是对娃太佛系了，到时会后悔，但每次想来想去最终还是不想让小孩太卷。大娃三年级作业开始变多，偶尔拖拉和烦躁，但总体上学习还是比较自觉的，成绩也不错，只要保持这个感觉，应该不至于太落后？

小娃5岁了，3-4岁有段时间专门气人，回看以前大娃也是一样有这样的时期，然后今年某个时候突然间感觉就长大了，讲理、能沟通，情绪控制也好一点了，甚至惊奇发现他学习也是挺认真的，超出预期的成长，很欣慰。

再次推荐洪恩系列 APP，小娃玩着玩着就学会了很多汉字/拼音/英文单词，以前大娃也是，这过程就是在不断玩游戏，玩的过程中学，好的学习就应该是这样。

一些喜欢的瞬间：

跟小娃的玩马里奥惊奇，一不小心挂了，小屁孩嫌弃地说“你会不会的，我来给你示范一下”
某次玩黑猴时卡在 boss 上，我吐槽打不过好烦，小娃在旁边一本正经纠正我说：“玩游戏是享受”
我的朋友圈开始收到来自大娃的评论，微信开始用得溜了，长大了，不想她那么快长大。
大娃二娃在家日常的吵吵闹闹。每当这时候就想起《IQ博士》里小云和小吉在屋子里翻天覆地吵闹的画面，真是太像了。以后我一定会怀念这样的场景。

其他

身体好了很多，中招咳嗽也就两次，健身断断续续，没坚持上。

今年大环境不太好，但困难总会过去，希望能保持乐观和学习心态，希望25年大家都能过得好~

带文字的 AI 图片生成是怎么做的？

bang’s blog

作者 bang

2024年12月15日 19:37

近期即梦上线了 AI 图片生成文字的能力，在生成海报、封面以及各种场景下渲染文字效果是非常不错的。最开始AI生成的图片中，涉及到文字的基本都是不能看的乱码，需要针对性训练优化才能做到生成清晰的文字并融入图片。那这里是怎么做优化的？对这个原理比较好奇，尝试通过几篇公开论文学习下相关实现思路原理。

大致思路：Recraft

目前生成文字(英文)最好的模型是 Recraft，官方有篇文章《How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights》介绍了模型训练的大体过程，挺适合简单了解大致思路的，简单复述下。

首先说明下为什么图片生成文字容易乱码？

一是数据量不足：图片生成模型是通过大量图片+图片描述去做训练，而大部分图片的描述是不怎么包含图上的文字的，比如拍一个街道建筑图，图上会有很多店面的名字文字，图片描述可能就是类似城市/街道/红色招牌等描述，并没有把图上的所有文字放进去，模型只能在少部分相对简单的场景（比如图上只有几个字，图片描述中也有这几个字）中学习生成正确的文本，幻觉会比较严重。
二是文字的错误更容易被发现，相对于人物动作不协调、衣服花纹的差错，文字只要有一笔一划错误就很容易被人察觉识别为乱码，需要更精确的生成。

接下来看优化文字生成能力的大致流程：

第一步，准备数据。准备大量的包含文字的图片，包括海报、封面、广告、Logo等，对这些图片进行处理。处理包含两部分，一是用 OCR 模型识别图像上的文字位置和文字内容，二是用多模态模型识别这张图的内容，输出描述文本。得到了海量的图片 – 文本布局和内容 – 图片描述组合的数据。

第二步，使用数据训练模型，跟第一步是反着的过程。先训练一个布局模型，可以通过输入 prompt → 输出文本布局+内容。再把 prompt 和文本布局输入生图模型，最终生成带文字的图片。

大流程就是这样，再稍微把其中布局模型展开一下：

输入 prompt 输出文字内容+布局，用的是一个大语言模型(LLM)，定义了一个输出的文本格式，包含文本内容和这些文本的坐标。同时还会根据文本和坐标数据，用文字渲染工具画张图片出来。

这张渲染出来的文字布局图会作为生图时的参考，用类似ControlNet 的方式作用在生图过程中，最终生成图上的文字。

这是个大致流程，文中没有展开里面模型架构的一些细节，原文上表示思路基于 TextDiffuser2，但看起来思路上跟 GlyphControl、TextDiffuser、TextDiffuser2 都有关系。

各方案大的思路都差不多，基本都是分两步，生成文字布局信息，再作用在生图过程中，主要是模型架构不同，以及数据集质量不同。下面看看这些相关的论文和一些模型细节。

GlyphControl

先看看相对简单的 GlyphControl，23年11月的论文，基本就是一种 ControlNet，跟边缘轮廓、姿态等 ControlNet 没太大差异。ControlNet 的相关介绍可以看回这篇。

训练阶段：找一批带文字的图片，用OCR 识别文字内容和位置，再渲染出一张白底黑字的图片，将图片描述和这张白底黑字图片一起进入 Glyph ControlNet 网络训练。这个白底黑字的图片就是参考图，跟边缘轮廓/姿态等其他 ControlNet 的参考图作用和流程都一样。

推理阶段：分两部分输入，生图的 Prompt 和白底黑字参考图，这张参考图看起来是要用户自己另外准备的，可以直接画一张白底黑字的图，或者描述文字内容、行信息、大小位置布局，用工具生成白底黑字参考图，再和 prompt 一起去生成相应的带图的文字。

效果：文字能较准确生成，但没有控制字体样式和文本颜色的能力，泛化性会比较差。布局和位置需要额外输入，产品化实用性低一些。

疑问：controlNet 23年2月出现，为什么11月才有人用于改进图片文字渲染，ControlNet作者自己不试试呢？

还有一篇更直接的，直接用 ControlNet 的边缘轮廓做文字生成，也不用自己训练，做了个评测：《Typographic Text Generation with Off-the-Shelf Diffusion Model》

TextDiffuser

TextDiffuser 是23年10月的论文，跟上面 ControlNet 的思路有差异：

不用准备参考图，用一个模型从 prompt 中推断文字布局。
直接在生图扩散模型中训练，非 ControlNet 插件的形式。

流程：

布局生成：先根据 prompt 生成逐个字母的文字形状 mask 图。用一个 transformer 模型（非LLM）理解输入的语义，识别出图上要画哪些文字，这些文字在画布上应该是在哪个位置，获得每一个字符在画布上的box位置，再用字体渲染库（如pillow）把这些文字渲染上去，生成这些字符的遮罩表示(Mask)。
图像生成：将上一步得到的字符遮罩输入扩散模型，参与引导扩散过程，使图片能在遮罩对应的位置生成对应的字符形状。

训练：

数据：作者从各处收集了1000万张带有文字的图像-文本对，称为MARIO-10M，主要来源是开源的LAION-400M，从中筛选带文字的高质量的图，也对数据进行了处理，包括文本检测识别、字符级的位置数据、原有的图片描述文字等。
布局阶段：会使用这个数据集去做训练上面提到的 transformer 模型，输入是图片描述文字，输出是每个字符的 mask 遮罩。在数据集中，每张图片的描述、以及每张图片经过 OCR 识别处理后字符的遮罩位置都有，模型就能学习到对不同的图片描述，对应的最终的文本位置和形状应该是怎样的。
图片生成阶段：这个数据集也会在扩散模型的基础上去做进一步训练，在这过程中 U-Net 的参数是冻结的，猜测是避免核心生图能力被破坏？训练过程中只会修改扩散模型 U-Net 以外的其他模块参数，整个网络还是能学习拟合到数据集里图片描述(prompt) + 字符遮罩数据 → 带文字图片这里的对应关系。

这整个过程，就是为生图增加信息量，布局阶段渲染的每个字符的 mask 是很大的信息量来源，引导图片扩散方向不飘。

效果：

相对未针对性训练的生图模型，能生成合理清晰的文字，在给定图像补充文字上效果也不错，也能做到控制文本颜色了，但字体多样性差一些。

TextDiffuser2

TextDiffuser 有个问题，它第一阶段产生的文字 mask 是用单一字体渲染的结果，用这个 mask 引导生图，结果是生成的结果字形的多样性比较差，生成的文字倾向于规整，手写或艺术字很难出现，GlyphControl也有同样的问题。另外 TextDiffuser 布局转换器对用户输入 prompt 的理解能力也有限。

TextDiffuser2 差异在于：

布局模型用大语言模型去替换。LLM 能表现出比较强的语义理解布局规划能力，用一个 LLM 去理解 prompt 转化为对应的布局格式，效果会更好。
生图阶段，对扩散模型中的语言模型(clip)和 U-Net 都做了训练。

训练

布局模型：

使用 LLM vicuna-7b-v1.5 模型进行微调，训练用的还是前面的 MARIO-10M 数据集，拿这个数据集每张图对应的描述文字作为输入，用 OCR 把每张图片的内容和位置信息提取出来作为预期输出做训练。
这里自定义了布局的格式，一个关键词以一组坐标和字母组成，比如 [x25][y89][x108][y96][W][I][L][D]，两个坐标表示方块左上右下两个点。每个字符单独标记，会比去做BPE分词标记效果好。
LLM在学习了大量文字对应图片的构图后，可以从语义推理这些文字的构图应该是怎样的，同时 LLM 自身也能很好理解哪些词是关键字，哪些词应该在同一行。比如上图的旷野之息邮票 a stamp of Breath of the Wild，LLM 可以学到图上的文本应该是 Breath of the Wild，而对于邮票比较好的布局是上下两行，有个关键字 Wild 突出，得出相应的布局数据。
根据论文描述，5000个数据量的训练效果是最好的，可能数据多了反而过拟合效果不好。

生图模型：

直接在扩散模型中训练，图上的 M2 是扩散模型里的 clip 文本模型，布局内容和文本 prompt 会一起输入，U-Net 也参与了训练，继续在用 MARIO-10M 数据集做训练。为什么这种方式训练效果好，文中没怎么提到。

效果

TextDiffuser2 的多样性会好一些，字体形态多样。

总结

还有一些其他方案，例如 GlyphDraw、AnyText等，大原理差不多，不展开多说了。最后，用 notion AI 总结下本篇文章：

AI 图片生成文字主要有以下几种方案：

GlyphControl：通过白底黑字的参考图来控制生成文字的位置和内容，实现简单但泛化性较差。
TextDiffuser：采用两阶段方案 – 先用 transformer 模型生成文字布局 mask，再用扩散模型生成最终图像。但生成的字体样式比较单一。
TextDiffuser2：改进了 TextDiffuser，用大语言模型替代布局生成，并对扩散模型进行更全面的训练，使生成的文字样式更加丰富多样。

这些方案的核心思路都是：

准备大量包含文字的图片数据集（如广告、海报等）
设计两阶段架构：先生成文字布局，再生成最终图像
通过不同的技术手段（如 ControlNet、LLM等）来提升生成效果

目前 TextDiffuser2 的效果最好，既保证了文字的准确性，又能生成多样化的字体样式。Recraft 借鉴了 TextDiffuser2 和 GlyphControl。

客户端大模型进展怎样了？

bang’s blog

作者 bang

2024年12月8日 17:45

近期苹果发布的新品，无论是 iPhone 还是 Mac，都一改之前挤牙膏的风格，在最低配机器上都加大了内存，目的很明确，就是支撑 iPhone 和 Mac 上的端 AI 大模型。过去一年，AI手机、AI电脑的概念也一度在炒，在之前写的文章也说过，在客户端上跑大模型，一定是未来趋势。那目前端上大模型情况怎样？

应用近况

总的来说，各家陆续出了不少小模型，相关工具链也能支持它们在客户端上跑起来，但可用的应用几乎没见到。

不少手机厂商都号称接入了端模型，但实际上没搜到相关具体应用，Apple Intelligence 还在路上，演示的能力似乎大多是云端模型，不确定本地小模型能做的事。Google Pixel 8 也没有接入Gemini nano，小米14上没有MiLM，小爱完全靠云端模型，OPPO find7 号称端侧模型用于生成通话摘要等一系列能力，但似乎得联网，不确定端模型在上面起到的作用有多大，真正能离线用的也只有图片消除功能。

为什么雷声大雨点小？

完全体 LLM 近一年的应用场景也有限，端上也就更少了，当前阶段业界精力还是主要投入在研发最好的模型上，很难顾得上端的优化。
现在的硬件和模型优化程度还不允许 LLM 在端上有作为。端设备基本都对体积和功耗敏感，这两者都限制了硬件能提供的最大性能，7B的模型硬件支持不好，3B的效果不好。

我在 Macbook pro M1 上试跑了下，感受是：3B级别的小模型基本不可用，7B/8B级别的模型速度太慢，资源占用也太大：

llama3.2 3B模型，大小2G，推理速度 62 token/s，翻译/总结/简单的指令理解，都有很大偏差，基本不可用。3B 这个级别或更小的模型，目前看起来需要针对特定任务做微调才能有作用，通用能力不太行。
llama 3.1 8B模型，大小15G，推理速度约 8 token/s，基本问答/翻译/总结可用，但速度太慢，资源要求太高。（这篇文章估算了推理速度，与实测差不多）

LLM 端推理引擎

客户端 LLM 应用还没到时候，但不妨碍大家对这个方向的投入热情，相关的工具链有比较大的进展。

这块工具链的核心是推理引擎，LLM 的训练和推理一般都用 PyTorch，它在GPU适配/加速/生态上都是最好的，但在客户端跑模型，有一些其他诉求：

在 CPU 上推理的能力，以及能适配多种 GPU 加速
量化技术，需要更小的模型、更低的资源消耗
可以轻量编译部署到多种客户端环境

所以需要另一种推理引擎，目前用得最多的是 llama.cpp。

llama.cpp 是 C++ 开发的 LLM 推理引擎，最开始只用于 meta 的 Llama 模型推理，后来扩展到更多模型，包括 Mistral / Gemma / Phi / QWen 等基本所有开源的 LLM，也包括基于 LLM 的多模态模型 llava。llama.cpp 是个人开源项目，基于同个作者的 ggml，在它基础上加了相关大模型推理的功能，token 化 / 缓存管理等。

llama.cpp 可以跑在基本所有主流操作系统上，Android、iOS、Linux、Windows、macOS，甚至 WebAssembly上也提供支持，支持各种 GPU / CPU / NPU 推理。

基于 llama.cpp，上层包装了很多应用，可以方便地在桌面端和移动端跑各种 LLM 模型，桌面端上使用最多的是 ollama，近期 LMStudio 也很不错，移动端上可以用 pocketPal。

上述这些都是包装了模型下载管理和聊天的壳，目前比较少见到基于 llama.cpp 包装更上层垂类场景的应用。有些些 Mac AI 应用会同时提供线上 GPT 接口以及本地 ollama 接口，LLM 处理可以在本地进行，例如做音频视频转文字和总结的 MemoAI，这也可能是后续 Mac/PC 本地 AI 应用的标配。

除了llama.cpp，还有类似的mlc-llm，也是全平台和多种 GPU 支持。还有专为苹果芯片优化的LM Studio MLX，不多介绍了。

LLM 以外

在实际应用中，端 LLM 还没能用起来，但一些厂商为了推 AI 手机 / AI 设备的概念，经常会包装进一些其他的 AI 能力，比如图片消除能力、语音唤醒识别能力。目前端 AI 真正能在实际场景中应用得好的，也还是这些多媒体图片/语音处理类的小模型，跟 LLM 无关。

常见的图片处理比如杂物擦除、图片超清、背景去除等，都有很多小模型，转换为 ONNX 或其他推理引擎支持的格式就可以在端上跑。

ONNX 是一种标准开放的模型格式，PyTorch / TensorFlow 等各大深度学习框架训练的模型都可以转为 ONNX 格式，然后用统一的 ONNX Runtime 推理引擎部署在多种硬件和操作系统上，目前大多数端上推理引擎也都支持 ONNX 格式做推理，腾讯的 ncnn/TNN，阿里的MNN，小米的 mace 等都支持 ONNX 格式。

理论上只要模型不大，对硬件运算要求没有特别高，转化为 ONNX 格式后在端上都能很好地使用，很多特定的多媒体能力很符合这个条件，例如杂物擦除MI-GAN，只有590万个参数，直接跑在浏览器上 / APP 上都没问题，效果也不差。还有其他很多基于 GAN 的模型，图片超清Real-ESRGAN，老照片修复 GFPGAN 等，运算要求都不高，跑在端上没什么问题。IOPaint 这个项目可以看到比较多类似的模型。

如果不考虑多平台部署，把模型转为平台自带推理引擎支持的格式，是能更大程度优化性能的，例如可以将模型转为 CoreML 格式跑在 iOS/Mac 上，但相对比较少，大家更倾向于跨平台的方案。iOS 上比较有名的端生图 APP DrawThings 就是将 Stable Diffusion 转为 CoreML 格式并量化后跑在端上。也有把 SD 转为 ONNX 格式去端上跑的，但还没看到比较好的应用。

一些遐想

端模型的应用，从硬件上分两种：

AI 硬件

有些场景可以不受设备大小限制、甚至续航功率限制，可以做得比较大，车机系统是一种，这是最好最大的应用场景，端上大模型 AI 应用会最先产生在这个领域，FSD也可以认为是端 AI 的一种。
还有一些可能得 AI 教育硬件，陪伴的玩偶等，本身也足够塞个大运算量芯片和大电池。一些刚需的硬件，比如导盲眼镜，也可以是连着口袋里一个不小的计算设备，这些算是后续可能的端上大模型的应用场景。
但除了车载系统以外，其他 AI 硬件要采用这种方式，发展会比较难。技术体验是一回事，还有商业模式的问题。
这些设备是自带硬件端上跑，还是云端跑，其实就是买断制和订阅制的区别。在端上跑需要用户一次性付出较高的硬件成本，但后续没有其他额外的成本。云端跑初期用户付出的硬件成本低，甚至厂家也愿意赔钱卖机器，但后期是可以用订阅服务制长期收费。从这角度看，用户和商家基本都会选择订阅制，对双方都更友好。所以端大模型要在 AI 硬件上流行起来，还比较难，除非是有些场景对隐私和实时性要求就是很高。

手机电脑

另一种就是利用已有设备，不需要用户额外花钱买硬件，那就还是回到设备大小、续航功耗、发热、机型覆盖等限制，有些场景为了省成本可以先用起来，PC / Mac 陆续可以有一些应用场景，例如上面提到的连接 ollama 的 MemoAI，浏览器上的 AI 搜索也非常适合端上 LLM 去做，但可能这几年会一直处于小场景尝试的阶段，要到主流的程度还早得很，也可能一直不会是主流，手机更是了。

谁在用 AI 图片生成

bang’s blog

作者 bang

2024年9月23日 11:58

AIGC 图片生成的技术，基本是22年开始爆发，Midjourney 2022年7月推出，Stable Diffusion 2022年8月推出，至今两年发展迅速，已经广泛在很多场景应用，但这个市场上是谁在用图片生成，用来做什么，一直以来在我认知里都有些模糊，这篇文章做下相关调研。

线上线下所有用到图片的地方，都有 AI 图片生成的应用空间，而 AI 图片生成的能力，也会创造出新的领域和行业，就目前能看到的已经在应用的场景，归归类可以分为：生产力工具、大众娱乐、探索创作。

ToB：生产力工具

把 AI 图片生成能力作为实际工作中的生产力工具，用在各领域的内容生产，替换原来的工作流，效率有量级上的提升，同时也有因为 AI 图生成带来的新的领域，例如自媒体。

这里的用户大部分是设计师，全球设计师 9000w，包含建筑设计、室内设计、工业设计、服装设计、产品设计、平面设计等，Adobe 付费订阅人数2650w（2022年），是非常大的市场。

电商

电商有大量的市场，为了展示、介绍、美化不同种类的商品，对图片有巨大的诉求，是AI图片（以及视频）最好的应用场景。

模特图：模特换衣、模特生成、在线试衣，专门服务服饰品类的工具，全球电商服饰品类市场规模六千亿美元，这让它对应的工具需求也足够大，能搜到的有几十家公司专门在做，例如Botika、VModel.AI、摹小仙、千面AI模特、ZMO.ai、linkfox，美图秀秀/醒图等也有相关工具。入门门槛低，但效果的调优是wu’zhi’jing的，不同角度/动作/不同衣服穿上后的自然度等都需要不断调优。

换模特换衣
商品图：上传商品图，AI 可以帮你生成商品在不同环境下的宣传图，免去摆拍。相对于直接抠图→套模板，AI生成质量高，可定制程度也高，可以创造符合商品的各种背景，商品能更好融入对应背景、环境的光线阴影、颜色、高保真，这里的效果调优也是无止尽。同样有非常多公司在做，photoecom、灵动AI 、PicCopilot。综合性的图片工具大多也会加入这个功能，比如 photoroom。

灵动AI photoroom
其他长尾：电商很庞大，除了上述两个类，整个上下游各个品类还有不少细小长尾的 AI 图片生成需求，例如 T恤定制、衣服花纹生成、款式生成、站外营销图等。
从发展趋势看，电商平台如果自身有余力，都会去做这样的工具，嵌入到自己平台内，整个工作流更顺，像淘宝千牛自己就做了。但竞争是无止境的，所有商家都用平台提供的工具，质量品质同质化后，就会有个性化或追求更好效果的诉求，外部工具一直会有机会。

素材

素材应该是需求第二大的领域，活动图、海报、封面插图(文章/播客/杂志)、PPT，日常工作很多场景会用到，以前是搜图片找素材拼接，但如果是商用场景，一不小心有侵权的风险，素材是需要付费的，AI 图生成目前没有这个问题，而中国的版权图片市场规模在2020年是34亿，在高速复合增长。素材生成的诉求很泛，不太依赖可控生成，应该大部分都用图生成质量最好的 Midjourney，海报生成因为涉及文字，ideogram.ai 有较大的优势。


ideogram海报	营销素材	壁纸

自媒体

AI 图片生成的能力会被一些自媒体创作者用于创作有趣的内容，带来流量，进而接商单。例如影视/动漫 IP 二创、自制IP形象（宠物打工、宠物时装秀等）、扩图玩梗、表情包等，会不断有各种有趣的玩法持续出现。


高质量图	扩图，玩梗	玩法	影视IP二创	自制IP

其他

游戏设计：首当其冲是游戏原画，AI 图片生成出来的质量，跟外包原画师已经没有太大差异，或者质量更好，去年就传出游戏公司大规模砍原画外包的新闻。同时游戏内容本身需要大量的角色、场景设计，对于质量要求不高的 2D 游戏，AI图生成已经可以很好满足需求。

角色生成游戏原画
建筑设计：借助 SD ControlNet 的能力，很容易做到建筑线稿设计图转绘为效果图，渲染不同风格，也不需要有多少微调的工作，各工作室自己可以部署。对于建筑灵感，直接用 Midjourney 看起来也是足够。

概念设计线稿转绘
漫画/绘本故事：核心是模型角色保持的能力。儿童绘本故事门槛很低，网上也有大量应用的教程，大众对质量的要求也没那么高，这是 AI 图生成目前擅长的。漫画门槛高一些，核心是故事、分镜的质量，生图所占的比例其实不高，所以如果用 AI 大规模生产，质量堪忧，但也有一些精品，比如这个。针对漫画有一些独立的产品和模型，例如dashtoon、Comic Factory、comicsmaker、llamagen等。

武侠漫画 Comic Factory
动画/短剧：同样借助角色保持能力，生成图片后转成视频形式去消费，这也是后续内容制作的趋势。目前还没看到大规模成熟的应用，短剧类 midreal 相对小众，月活几万的级别。小说转动画视频有不少产品在尝试剪映的故事成片、极虎漫剪、漫剪猫等，规模比较小，但作为生产力工具，付费率是挺高的，做出来的内容有一定消费价值。

ToC：大众娱乐

图片特效

大众用户日常社交对图片是刚需，AI 图片生成在这个领域的应用是最广泛和成熟的，跑出很多爆款产品，Top 的是 Remini（23年MAU 8000w+，收入6643万美元），其他也有非常多产品冒出，AIMirror/FaceAPP/Lensa/Prisma等。

这个领域不断会有爆品出现，理论上不会一家独大，每个产品都有机会，逻辑是：出效果爆款→社交媒体传播全网引爆→大量用户使用&付费→热点几周后消退，用户少量留存，大量流失→找下一个爆款→找到进入下一个循环，找不到产品逐渐消亡。典型的持续活下来的产品是Remini，消亡的是妙鸭。

具体应用上，姑且分为 AI 写真和特效。

AI写真：人像 P 图是刚需，AI写真算是这个刚需的分支，火过很多产品，国内的妙鸭，海外Remini，还有一大波专门做这块的垂类产品 PhotoAI、星绘等。妙鸭虽然火一波以后销声匿迹，但这个需求是长期可持续的，photoAI 是独立开发者的产品，月流水已经到17万美元。主要用于各社交软件头像、linkedin商务照等。
特效：比如风格化的黏土风格、盲盒公仔、迪斯尼风等，还有其他例如换发型、换性别、变老变年轻、扩图等特效。


Remini 众多特效	星绘 AI 写真	ailabtools 换性别、年龄

新场景

另一类 ToC 的应用，是把 AI 图片生成能力作为全新产品的一部分嵌入，跟产品形态有较强的绑定。

陪伴类产品：纯 LLM 文字陪伴发展下去肯定是结合图片生成/视频生成，让人更沉浸式，可以衍生抽卡、剧情图、虚拟女友形象等。产品非常多，MiniMax 的星野/Talkie、candy.ai、dreamgf.ai 等，AI 陪伴还在爆发增长期，AI 生图在这个领域有很大应用空间。
教育类产品：DoDoboo 将儿童涂鸦实时转为绘画作品，激发儿童创造力。是一个尝试性的应用场景，没有很成功，但 AI 教育是万亿级别市场，儿童教育领域本身注重创造力想象力的培养，AI 图片生成就是想象力的呈现，是有机会创造或融入更多教育产品。
NSFW：成人产品，比较特殊，市场自然是巨大的，待分析。


Talkie	DoDoboo

探索创作

除了上述 ToB 和 ToC 两类非常明确的应用场景外，AI图生成还衍生出另一波探索型用户。他们不是为工作，无商业目的，单纯喜欢玩 AI 创作，他们可能不会画画，AI 让他们可以不需要学习绘画技能，就能创作出好的作品，这对有创作欲的人有很强的吸引力。

Midjourney 付费用户中，只有 32% 的用户目的是工作或实际需求，68%的用户是为了娱乐。一方面因为 Midjourney 可控性不足，导致很难在真实生产环境使用，较少覆盖上述 ToB/ToC 的那部分用户，另一方面也能看出，纯粹探索 AI 玩图片生成的人群规模也不小，24 年 Q2 Midjourney 月活 600万+，24 年预计收入预计超过 3 亿美元。


Midjourney	Midjourney	thehybridportraits 高端定制

图片生成技术，跟摄影技术有点像：

没有摄影时，只能通过超高的绘画技术记录现实画面，门槛很高，摄影技术让人人拥有记录现实的能力，只需要按个按钮。
而没有图片生成技术时，也只能通过绘画技术记录和创作现实没有的画面，把心中想象的创意具象化，图片生成技术让人人拥有创作的能力，只需要输入文字。
除此以外，还有一些相似点：
1. 人人能用，但专业才能用得好：AIGC跟相机一样只是技术，日常拍照人人能拍，要拍出好的照片，不是人人能做到，即使摄影看起来只是按下快门，调下参数。图片生成随便输入 prompt 人人能创作图片，但要创作出好的作品，也不会是人人都能做到，即使看起来只需要输入文字。
2. 大众需要，商业也需要：摄影可以记录生活，这是大众需要的，也可以杂质配图、做商业广告等，这是商业需要的。图片生成也一样。
3. 新的艺术形式：摄影单独是一种艺术形式，相信 AI 图片生成也会带来独有的新的艺术形式，只是目前还未成型，摄影从诞生到成为一种艺术形式，也花了60年。跟画画与摄影不同的是，AI 图片生成创作，是有双向交互的，它不是定死的画笔或相机，创作过程中，AI 创作出来的内容会牵引下一步创作动作，不是一步到位，也不是忠实呈现自己脑里所想、呈现现实世界已有的东西，AI 不仅是工具，作品是人与 AI 的共创，有可能是新的艺术形式。

但跟摄影不同的是，图片生成技术，也许无法像拍照一样普及率那么高，摄像头记录美好生活是高频刚需，但创作不是，纯 AI 创作最终还是属于少部分创作者，就像能称为摄影师的只是少部分人。AI 技术进步是赋予了不会画画但有创意的一波人更强的能力，就像抖音最终赋予的也是少部分创作者展示他们才华的能力一样。

创作无法普及到大众，但创作出来的内容是能普及的，内容消费是大众刚需，至于这波创作者能否创作出跟摄像头相媲美的另一个维度的内容，支撑起一个 AI 内容消费社区，有待探索。

最后

生产工具、大众娱乐、探索创作，这三类图片生成的应用，差距还是比较大的。

生产工具，需要深入到场景做微调，不断优化效果、深入工作流。
大众娱乐，需要的是制造爆款的能力。
探索创作，需要有最好的基础模型能力，以及做好社区运营。

目前看起来没有一个产品能大面积覆盖这几个场景，未来会不会有？只要团队能满足这些条件，能造出一个超级应用满足所有图生成的诉求，大众认知上是没问题的，像上个时代的 Photoshop。

什么是多模态大模型

bang’s blog

作者 bang

2024年8月20日 11:31

是什么

在机器学习领域，”模态”被用来描述不同类型的数据形式，如文本、图像、视频、音频等。
最开始以 ChatGPT 为代表的大语言模型，都是只支持文本这个单一模态。
可以同时处理文本、图像、音频等多种形式的数据输入输出的大模型，就是多模态大模型。

特点：端到端

一个模型能同时理解和处理多种模态的数据输入。

非端到端的例子：
1. 在 ChatGPT 上，可以调用 DALL-E 生成图片，但实际流程是 prompt → GPT4模型 → 生成细节提示词 →DALL-E模型 → 生成高质量细节图像，只是一个能力串联，并不是一个多模态大模型。
2. 在豆包或其他一些LLM APP上，支持语音输入→文字和语音输出，实际流程是语音→ASR模型转文字→LLM→文字→tts模型转语音，并不是端到端语音→LLM→语音。
端到端的例子：
1. GPT4o 的实时语音对话，流程是语音→ GPT4o模型→语音。延迟低、语气/音色/停顿/语义都能综合理解到。
2. claude3.5 支持按要求识别图片，流程是图片+prompt → claude模型→文本。能很好结合 prompt 按要求输出对图片的识别。
端到端的好处：
1. 模型能直接从原始的数据中学习不同模态之间的关联和映射关系，发现隐藏在数据中的复杂跨模态模式，可以 scale up 达到涌现，没有中间折损，可以做到低延时。

原理：基于大语言模型

多模态大模型以大语言模型为基础模型，复用已预训练好的模型理解能力，在上面增加其他模态的能力，对齐多个模态的特征让原大语言模型能理解。GPT4o 就是在 GPT4 基础上增加音频/图片的特征能力，它在文本上的理解能力还是跟 GPT4 差不多。
模型通用的基本构造(参考这篇文章)：
1. 编码模块，将图片/视频/音频等模态编码为特征 token，一般还伴随一些压缩的处理。
2. 投影层(Projector)，让不同模态的特征 token 语义对齐，这是模型重点要训练的部分。
3. LLM，多个模态的特征都在基础 LLM 大模型上做处理理解，通常 LLM 本身也要在新的模态训练过程中做相应微调，适配新的模态。
4. 若支持多模态输出，也同样有模态对应的投影层和解码层。

当前模型能力

把多模态大模型能力拆分成输入理解、输出生成的话：

当前主要在发展输入理解部分，较多大模型支持了图片理解、视频理解能力。
输出生成上，主流的还是各模态各自在发展阶段，如图片生成模型、视频生成模型、音乐生成模型，都是独立单任务模型。GPT4o、gemini 支持了音频的端到端理解和生成，其他大模型基本还只支持文本生成。
有一些新的模型在尝试大统一，输入输出都支持文本、图片、音频、视频多种模态，如腾讯刚出的 VITA、AnyGPT、Unified-IO，都处于起步阶段，看起来综合效果还没很好。

图片理解

通往多模态的第一步，基本都是在LLM上加入图像识别能力，已成为目前大模型标配，这是最自然最广泛的需求，难度也不高。

现状：大部分模型文心一言，豆包，GPT4o，claude、Gemini 等都支持，开源的 Qwen-VL、LLaVA、Yi-VL、MiniCPM-V 等也非常多。

能力：大模型加持的图像识别，各项能力都能胜任，包括OCR、图片物体理解、逻辑理解、文档图表理解、隐喻理解等。

效果：能力比较全面，但也相对平庸，相对垂直领域专门优化的图片识别模型，效果有差距。例如各大模型在OCR能力上的评测，相对最好的OCR垂直模型有差距，更垂直的像植物识别这种，跟PictureThis 这类专门优化过的差距会更大。对图片理解上，结合大模型能力效果会比较好（评测）。图片识别评测维度非常多，有各种维度的评测标准，从个人实际观感上综合识别效果最好的是claude 3.5。

原理

以 Yi-VL 为例，其他模型差不太多，都是在 LLM 基础上增加图像编码处理然后端到端训练：

图中的Large Language Model是基础模型，Yi-34B-Chat或Yi-6B-Chat。
Vision Transformer（ViT）模块用于图像编码，用CLIP模型。
Projection 模块处理图像特征，训练后的这一层让图像特征跟文本特征空间对齐，包含 layer normalizations 和 Multilayer Perceptron（MLP）。
火焰标志表示训练，雪花标志标识冻结不训练。训练分了3步，用了不同的图片-文本数据对，最后一步 LLM 也参与训练了。
LLaVA/MiniCPM-V也是类似的结构和训练过程，训练最后一步都会微调到LLM基模参数。

应用

图片搜索、语义搜索、物体识别、人脸识别这些垂类小模型已经能做好。
给图片配诗、给图片配音、拍照搜题+解题、阅卷、验证图识别等，这些用结合LLM的大模型，门槛会降低，效果也会有优化。
截屏识别自动化，试卷阅卷，这种场景结合 LLM 才能做好

视频理解

现状：部分主流大模型支持通过把视频抽帧为一系列静态图进入模型分析，本质上是图片理解能力，能做到一定程度的内容理解，GPT4o 基本是这样，一些支持图片识别的大模型稍加调整也能支持这种方式。少部分模型能识别视频和对应的音频，如Gemini、阿里开源的 VideoLLaMA2。有比较多的开源模型在做各种方式的尝试，更好识别视频帧之间的时间逻辑关系、跟音频/文字模态做更好的整合理解。

效果：有个项目 Video-MME 专门分析各大模型视频识别理解能力，测了多个模型在各种理解任务上的表现，包括时间/空间关系的感知和逻辑推理、文字/物体感知、信息总结等，视频类型包括电影、体育、vlog等，能结合整个视频里的信息做理解。各模型在2分钟以内的短视频上理解能力已经不错，中长视频会差比较多，Gemini、GPT4o和效果最好的，开源的模型差距还比较大。

原理

视频理解的主流方法是使用图像编码器从视频中提取帧，对其进行编码，然后用压缩模块压缩视频编码信息，再将其输入到 LLM 中，与文本输入进行联合理解。

也有很多模型在尝试各种方案，如智谱 CogVLM2 加入时间定位、时间戳的数据，让模型能感知视频对应时间。有些模型尝试改造 LLM，不让视觉特征与文本混合，在 LLM 内部增加独立的 transformer 模块处理，如 mPLUG-Owl3。

以 VideoLLaMA2 为例看下大致原理，综合支持了视频和音频输入，视频和音频分别编码：

视频按帧编码为特征，经过STC Connector 处理，Spatial Convolution 处理视频帧特征，提取空间信息，Spatial – Temporal Downsampling 降低视频数据维度，再经过投影层与其他模态特征对齐，一起进入大模型。音频也是一样的流程。
训练分成多个步骤，视频、音频分别单独训练，最后再联合视频音频一起训练，每个步骤有对应的数据集，看起来只有最后一步联合训练，LLM基模的参数才会参与训练。

（题外话，名字叫 VideoLLaMA2，实际上跟Llama没关系，LLM基模用的是Mistral）

应用

基于类似的原理，可以自行训练在垂类表现更好的视频模型，例如：

视频配文案
视频内容总结、解读
视频内容搜索（以自然语言搜索长视频特定内容出现位置）
影视解读（影视时长过长，当前大模型 context 能力还不具备）

音频理解&输出

能力：GPT4o 和 Gemini 都支持了音频理解和输出，能很好理解音频里的语气、语调、节奏、风格等信息，细微的喘息、叹气声都能很好识别和生成，实时性也能做到很高。

原理

目前 GPT4o 和 gemini 相关公开的具体实现细节较少，最基本的原理跟上述应该差不多，语音编码为token→投影层对齐其他模态→输出预测语音token→解码为语音。可以看看 AnyGPT 的实现：

应用

最主要的应用是拟人真实程度高的实时语音对话，从GPT4o的演示看，这点对体验影响很大，即使智能能力进步不大，真实性和实时带来的 AGI 感受也是很强。

语音转录、会议记录总结等，虽然已经有很多 ASR 模型能做到转文字，但整个音频的内容、多人对话、语气情绪都能输入大模型，结合大模型理解能力，预计能做到更好的效果。

其他

端到端生成图片 Gemini 号称支持，但没找到相应资料，视频生成单模型都还在摸索，结合 LLM 还早。多模态大模型整体处于发展阶段，各模态的理解和生成还没到很高的水平，整体进展没预期快，但以当前的能力，针对垂直场景做一些训练，是能够较低门槛做出一些之前做不到或做不好的应用了，例如视频配旁白。

视频生成模型调研 – 人像视频/基础模型/可控编辑/DiT

bang’s blog

作者 bang

2024年7月21日 23:34

经常看见有一些视频生成的模型出来，类型还不太一样，简单学习和调研下这个领域和相关技术的情况。在我所看到的有限的范围里，可以把近期出现的视频生成能力分成两类：

一类是专门精细化控制人物表情动作的模型，驱动一张人像照片动起来。这类模型存在已久，老技术也能实现，近期不断有新模型出现，效果也越来越好，业界好像没针对这一类命个名，姑且叫它人像视频。
另一类是通用的视频生成基础模型，包括基于扩散模型的，以及 sora 出现后的 DiT 架构模型。另外跟 Stable Diffusion 图片生成的生态类似，也会有一些为视频生成基础模型配套的可控编辑扩展模型。

人像视频

先来看看人像视频，常见有两类：

表情控制：输入人物表情视频，让图片的人脸跟着做同样的表情。变种是输入音频，让图片人脸跟着音频的口型动，talking photo。
姿态控制：输入人物动作的视频，让图片的人跟着视频的动作动。火过的 case 是通义千问的全民舞王科目三。


表情控制(Vimi)	姿态控制(Animate Anyone)

这里的技术都不是这波大模型后才有的，上个时代已经有很多做得不错，上一波爆火的蚂蚁呀嘿已经是 2021 年的事了，相关论文也是 2019 年就有了：《First Order Motion Model for Image Animation》。后面不断有新的方案，包括基于和不基于扩散模型的方案。下面列几个近期出现，看起来还行的方案。

表情控制

基于扩散模型

基于扩散模型的方案，大体思路看起来是在原网络插入 pose/人脸点位控制，跟 ControlNet 原理差不多，扩散模型本身除了 SD Unet 那套外，基本都会加入视频生成常见的 spatial-attention 和 temporal-attention。

AniPortrait(华为)：24年3月发布。支持从语音生成对应每一帧的口型和人脸位置图，再基于 SD1.5 扩散模型 + motion module 从参考图生成视频结果。开源可用。
megActor(旷世科技)：24年5月发布。没有把视频解析成中间关键点去驱动图片，而是原视频画面直接驱动，以预期得到更生动的效果，2个UNet网络，推理成本看起来会高一些，效果稳定性一般。只支持视频面部特征，不支持音频对口型，开源可用。
EchoMimic(蚂蚁)：24年7月发布。同时使用音频和面部特征进行训练，可单独用音频生成，也可以结合输入视频的面部特征生成，结果更自然，开源可用，comfyUI module可用。

还有几个不开源的：微软的VASA-1，阿里的EMO，都是语音对口型，朝着数字人方向做的。

非扩散模型

非扩散模型的方案，看起来基本也是先把人脸节点生成完，再用其他的网络结构去应用到图上生成视频。

LivePortrait(快手)：24年7月刚出的模型，模型很小，主干网络是 ConvNeXt-V2-Tiny，28M参数量，各部分加起来就500M，号称速度很快，单帧推理时间在 RTX 4090 GPU 是 12.8ms，都能稳定实时输出 60 帧视频了，很适合端上部署，这也是非扩散模型的优势，还有个特点是能快速精确控制眼睛和嘴巴的开闭程度，动画稳定。comfyUI module 也有了。

VividTalk(阿里)：跟 AniPortrait 有点像，同样是训练音频→表情嘴型关键点，音频→头部运动关键点，再经与图片一起进入另一个网络生成最终视频，只是这网络不是基于扩散模型。未开源，真实效果未知。

姿态控制

AnimateAnyone(阿里)，23年底发布。效果比较稳定，官方没开源，但摩尔线程基于论文做了开源实现 Moore-AnimateAnyone ，后续腾讯 MusePose 基于这个开源实现继续优化和封装，comfyUI可用。

magic-animate(字节)，23年底发布。Pose 序列不是 OpenPose 人体骨骼，而是丰富的整个人的动作 densePose，视频转 densePose 还比较麻烦，densePose 序列用 ControlNet 的方式去做生成的控制，另外有一个网络去编码人物形象做IP保持。试用下来，参考图跟 pose 的形象姿态差异大的场景也能支持，比如让蒙娜丽莎跳舞，但这种场景下效果不太好，人脸基本不保持，只保持了人物衣着的IP形象。已开源。

还有其他很多，MimicMotion，MuseV，Follow Your Pose，DreaMoving 等，大同小异。

视频生成

视频生成模型业界除了最出名的 runway、pika、sora，也陆续有不少开源的方案出来，当前已有的开源方案基本都是基于 Latent Diffusion Model，核心是 UNet 降噪网络，基于这种网络还有不少做视频可控编辑扩展模型，DiT 架构还在路上。

基础模型

I2VGen-XL(阿里)，23年11月发布。比较常规，基于 3D-UNet 扩散模型生成，分成基础生成和高清细化两个阶段，细化阶段不是单纯提高分辨率，会改善时间连续性、引入文本输入控制内容。开源可用。
SVD(Stable Video Diffusion)，23年12月发布。模型结构复用 Video LDM，主要是在 U-Net 和 VAE 解码器中分别加入时序层（temporal attention layer），SVD 论文本身在讲模型怎么训练的，包括高质量视频的微调。
PixelDance(字节)，23年11月发布。特点是首尾帧机制，首帧图作为强引导，与噪点图拼接一起作为输入，严格遵守首帧图，同时尾帧图作为弱引导，训练中会随机抛弃尾帧，推理降噪过程中在步数大于τ值时也会抛弃尾帧，避免完全对齐，让生成的结果有多样性。在 DiT 架构的模型出现之前，效果基本是最好的，生成的视频运动幅度大，稳定性不错。未开源。
ConsistI2V(零一万物) ，24年2月发布。跟 PixelDance 有点像，也是首帧与噪点图拼接一起作为输入（类似 SD 的垫图），同时会把首帧也作为降噪过程条件作用在 spatial-attention 和 temporal-attention 上，较大地强调首帧图片的重要性，这样生成的视频不容易崩，一致性比较好。已开源，可在线试用。

可控编辑

视频生成的可控编辑是指通过各种方式控制视频生成方向，例如运动方向、内容替换、风格迁移等，原理上跟图片生成的 ControlNet / IPAdatper 等机制差不多，基于上述视频生成基础模型，训练扩展模型插入原网络，控制生成方向。

图生视频控制

大部分视频生成是图生视频，在图片上圈选运动范围和运动轨迹是很自然的诉求，一代目 Runway 上的 Motion Brush 就是做这个，基本应该应该是后续正经视频生成模型的标配，也有开源模型基于 SVD 等基模做了这个能力。

mofa-video(腾讯)，24年7月发布，基于 SVD。可以训练多种 adapter，控制图片生成，包括手势控制、人脸关键点控制、姿势关键点等，每种控制 adapter 独立训练，可以独立使用或组合使用，比较灵活通用。开源可用。

视频内容编辑/风格化

这一类指 Video to Video，修改原视频上的元素，替换衣服、人物等，部分也包含了视频风格迁移能力。

ReVideo(腾讯)，24年7月发布，基于SVD。通过修改第一帧和绘制轨迹线，对视频中特定区域内容和运动进行定制化编辑。使用分阶段训练的策略，简单理解为，A阶段重点训练运动轨迹，B阶段重点训练内容替换，再进行结合。开源可用。
I2VEdit(商汤)，基于SVD，利用成熟的图像工具编辑第一帧，再将第一帧的修改应用到整个视频，实现局部替换和风格化。
AnyV2V(华为)：比较通用的视频编辑框架，可以灵活用于多个视频生成模型，包括I2VGen-XL、ConsistI2V、SEINE，同样是先通过各种方式改造编辑视频首帧，再插入视频生成模型，将风格和替换内容扩展到整个视频，实现视频编辑能力。通用于多个模型的原理，简单理解是提取了空间注意力/时间注意力特征注入了原生成模型的 spatical-attention/temporal-attention 模块，理论上差不多架构的模型都能通用。可试用。
animatediff：animatediff 比较特殊，不是基于 SVD，而是基于图生成 Stable Diffusion，在上面训练加上运动模块 Motion Module，学习了视频片段的运动知识，支持视频生成。很早发布，在 SD 生态配合 IPAdapter / ControlNet 等各种扩展和 LoRA 模型一起使用，组合出很多有趣的应用，看到的大部分视频风格转动漫风基本是基于这个方案。

DiT

DiT(Diffusion Transformer) 是视频生成基础模型的一个算法架构，应该放在基础模型部分的，但它太新了，想单独抽出来细看一下。

上面大部分模型，包括可控性的扩展模型，核心底层都是基于经典的 UNet 架构，但 Sora 出来后，业界公认 DiT 架构才是未来，毕竟效果太碾压了，最近可灵 / Luma 的出现也印证了这点。架构范式转移到 DiT 后，原先在 UNet 上做的各种可控雕花，看起来基本上是没法迁移到 DiT 架构的，一切得重来。

DiT 架构开源的只见到去年11月 sora 出来之前的 Latte，研究性比较多，效果一般。其他靠谱的开源模型还没见到，毕竟 Sora 还没见影，可灵和 luma 也刚出。（DiT架构的图片生成就有一些，比如腾讯混元）

DiT的架构图，与 LLM 的架构同源，核心是 transformer 模块，跟基于 UNet 的模型都不一样，我们尝试来看看在这个架构下视频生成的推理过程：

初始化一个噪声视频。
视频会先转换成潜空间的表示，后续的运算都在潜空间里运算，这点跟 Stable Diffusion 一类的扩展模型一致，视频应该是使用 VQ-VAE 进行编码到潜空间。
视频的表示会被分割成一个个 patch 块，每个 patch 块是一个 token，patch == token。
这些代表整个视频的 patch 块集合，一起进入 DiT Block。这个 DiT Block 就是个类 transformer 模块，与 LLM 一样核心也是多头注意力，在这里会计算每个 token 之间的注意力，加上引导词和步数条件，做相应计算。
按 LLM 模型的套路，这里 N 个 DiT Block 跑完，整个流程跑完，输出会是预测的下一个 token。但我理解这里的输出并不是下一个 token（一个 token 只是一个 patch），而是这里的 patch 合集经过这些 DiT Block 的注意力运算和条件引导，变换成离最终视频更近的一个表示，也就是对这里的噪声视频做了一次降噪。
如果是20次降噪，重复20次这个过程，一个纯噪声视频生成最终清晰的视频。
如果要垫图，首帧图尾帧图，只需要让图片跟输入的纯噪声视频做一些结合就可以。

可以看到跟其他的 UNet 为核心的架构有本质差别，像 ControlNet 各种可控性的研究没法迁移，需要另外找控制路径。从业界在这领域卷的程度看，预期发展还是会非常快，等下一个 DiT 架构的靠谱视频生成模型开源，也应该很快会有人在上面把相关可控能力不断研究补齐了。

感想

这个领域给我感受是模型超多，看不完跟不上，只能先了解个大概，在有具体应用场景时，再根据需求做相应深入的调研。

为什么这么多模型？看起来它训练的资源门槛没那么高（比 LLM 低），有公开训练数据集（WebVid 和 LAION），论文上都会把方法给出，width=甚至模型和代码也开源，各研究者很容易从中吸收学习做改进，再造一个模型，现在也没出现一个效果通用秒杀一切的模型，所以三天两头出个新模型是常态。

DiT 架构后，视频生成和视频编辑这些模型大概率要淘汰，而人像视频可能在较长一段时间内仍有应用空间，如果要做 AI 视频短片，人物表情动作精细控制挺重要，DiT 架构目前还没看到有能做到精细控制的技术，基于 Unet 的通用视频生成模型这么长时间也没法做好这块的可控性，可能一段时间内还得靠原有技术做这里的可控后编辑。

Transformer 里的 Q K V 是什么

bang’s blog

作者 bang

2024年7月7日 20:55

Transformer 作为新 AI 时代的基石，有必要深入了解下。网上对 Transformer 的教学文章/视频非常多，很多讲得很好，像 3Blue1Brown 的讲解视频，以及这篇文章。整个详细过程原理写不来，本文主要记录一下其中我觉得比较容易混淆的 Attention 模块运算过程，主要是里面的 Q K V 的概念/运算过程/作用。

这是 Transformer 架构图，左边是 encoder，右边是 decoder，实际 LLM 大模型是只由右边 decoder 构成，这里面大部分是常用的 Feed Forward（前馈网络）/ Add（残差连接）/ Norm（层归一化），核心还是 Multi-Head Attention 模块，我们来具体看看 Multi-Head Attention 模块里做了什么。

输入

假设一个字是一个 token，输入是”我有一个玩”（用于推测下一个字”具“），5 个字，每个字用一个向量表示，每个向量假设是 9 维（GPT3 是 12288 维），也就是用 9 个数值表示这个字，那每个词顺序排下来，就组成了 5 行 9 列的输入矩阵，称他为 X，每一行代表一个词。

6每一个圈圈代表一个数值。”我“字由蓝色的9个数值表示，“有”字是绿色的9个数值。这 9 个数值组成一个 9 维向量，这里每个字对应的向量值是一开始定好的，至于怎么定的不细说，可以看看相关文章。

这个输入矩阵经过 Multi-Head Attention 模块运算，输出另一个同宽高的矩阵，接下来详细看看这个运算过程。

权重矩阵 & Multi-Head Attention

Multi-Head Attention 是由多个 Self Attention 模块拼接而成，如果它只有一个 head，就是一个 Self Attension 模块。

Self Attention

Self Attention 模块里，会包含 Wq Wk Wv 三个参数权重矩阵，模型训练过程就是不断调整 Wq Wk Wv 里的数值。

这几个权重矩阵的行和列数，需要满足：

行数：输入矩阵 X 会与它们进行相乘，所以行数需要与输入词向量的维度匹配，也就是 9。
列数：Transformer 中整个 Attention 模块的输入数据和输出数据维度应该是一致的，才能多层重复叠加，从矩阵相乘特性知道，这些权重矩阵的列数也应该对齐词向量的维度，还是 9。

所以如果这里是单个 Self Attention，Wq Wk Wv 就是行数和列数都是与词向量维度一致的矩阵，也就是 9×9。

Multi-Head Attention

但这里希望模型能捕获到单词间的多种不同注意力，所以会把它拆出来再拼接。假设把它拆成 3 个 head，那就是能捕获到 3 种单词之间不同的关系。这里拆出来的 3 个 head 就是 3 个 Self Attention 模块，每个模块有自己的 Wq Wk Wv 矩阵，行列数是 9 x 3。这里每个 Self Attention 独自进行注意力运算后，再组合拼接。

这里文字描述得比较绕，见后续运算过程和结果的图示比较清晰。

Attention 运算过程

先来看这里每个 Self Attention 模块的运算过程。

这里输入向量分别与 Wq Wk Wv 相乘，得到新的矩阵 Q K V，Q(query) K(key) V(value) 名字已经对应了它的含义，看完它的运算过程后，再来补充下对它含义的理解。

可以认为这里 Q K V 这几个新的矩阵，每一行仍然是表示一个单词 token 向量，只是换了种表示（矩阵的乘法特性，例如第一行里的每一个数据都是由原矩阵第一行与 W 矩阵运算得来，与其他行无关）。

下图是 Q 矩阵的运算过程，K V 的过程一样，只是 W 权重矩阵的值不同，略过。

接着要做的是，计算每一个单词对于其他单词的 Attention 系数，这是一个两两可重复排列组合。上面 5 个单词，每个单词都 K 矩阵里的自己以及其他所有单词逐一计算出一个值，生成一个 5 x 5 的矩阵。这个矩阵的计算方式就是 Q*KT(K的转置矩阵)，由矩阵乘法特性可以看出，这样算出来的矩阵，就是单词之间的关系值，比如第一行第五列数值，就是“我”和“玩”之间的注意力关系值。下图用颜色表示这个过程。

相乘后对这个矩阵进行 softmax （在这之前还会除以 √dk 向量维度，可以先忽略），每一行的和都为1，这里的矩阵第 i 行的数据表示的是第 i 个单词与其他单词的关系，这里归一化后，数值可以表示理解为，从全文范围上，每个单词对这第 i 个单词的重要程度比例。

最后这里的 Attention 系数矩阵，与矩阵 V 相乘，得到的是新的结合了每个单词之间 Attention 信息的矩阵。输出的矩阵中每一行还是表示一个单词，但这个单词向量经过这里注意力运算后，每个单词向量都集合了上下文每个单词的注意力信息。

单独拆除这里的第一行看看它的意义，单词”我“跟每一个字的注意力权重，再乘以每个字在 V 矩阵里的向量表示，结果再相加，组成最后的结果。比如这里第一个字”我“跟第三个字”一“的权重是0.1，那”一“的向量值对运算后最后表示”我“这个字的向量结果影响很小，如果是 0 就是没有影响。

上述整个过程，可以用这个数学公式表示：

Multi-Head Attention 模块里每个 Self Attention 模块都做同样的运算（但里面的 Wq Wk Wv 权重不同，数值结果不同），拼接起来，形成最终的结果，这个结果矩阵里，每一行每个字的表示，都已经集合了与其他所有字的注意力关系信息。

整个过程实际上还有个掩码的机制，按上述运算，这里输出的每个单词向量都包含了上下文所有的信息，通过掩码机制，会变成每个单词只包含单词所在前面位置的信息，比如第二行“有”只包含了“我”和“有”的信息，没有后面”一“”个“”玩“的信息。这里不继续展开了。

这里每一行包含了前面所有单词的注意力信息，也就可以通过这里的表示预测下一个单词，所以从这个矩阵最后一行“玩”的向量数值，就可以用于预测对应下一个单词是什么。

整个 Multi-Head Attention 的运算过程大致是这样了。实际模型如 GPT3，单词向量维度是12288，上下文长度2048（每个 token 都要跟2048个token计算注意力），每个 Multi-Head Attention 分成 96 个 head，同时有 96 层叠加，也就是 96 个 Multi-Head Attention，运算量是巨大的。

Q K V 的作用

Q 可以理解为原输入的词数据，拿着这个数据找谁跟我有关系。K 是被找的数据，用于计算输入的每个词之间的关系。Q 和 K 是为了算出 Attention 关系系数，知道每个 K 的数据跟 Q 是什么关系。

如果 Q 和 K 是同个输入变换来的，那就是自注意力，如果是不同输入变换来，那就是交叉注意力，比如 Stable Diffusion 里 Unet 的交叉注意力模块中，Q 是文字 prompt，K 和 V 是图片信息，Q 与 K 计算的是文字与图片信息的 Attention 关系系数。

K 和 V 是同个数据源，这个数据源，从 Q 和 K 的运算知道每个 Q 与数据源的关系系数，再与数据源做运算就是把这个关系数据作用到源数据上，源数据去做相应偏移，也就是可以在 Q 的作用下对源数据做相应推测。

感想

为什么这样一个算法架构，能衍生出智能，而且这个架构能扩展到多模态，语音、图像、视频基于它都有非常好的效果？我个人理解，最核心有两个点：

上下文信息充足
并行计算能力强

其他算法架构如果能充分融入上下文信息，规模大了也能有智能，只是 Transformer 可并行运算的特性，让目前的计算机算力可以触摸到涌现的那个点。

AI 瞎想 – LUI交互/新计算机

bang’s blog

作者 bang

2024年6月29日 13:05

LUI 交互

LUI (Language User Interface，自然语言 or 输入框为主的交互) 有几大缺点：

效率低（打字）or 隐私性差（语音）。
说话是填空题（要动脑），GUI 是选择题（可无脑选）。
难以精确表达。

这三点都是成本，如果一些场景想尝试 LUI 代替部分 GUI，需要时刻想好，如果用户得到的体验大于这几点成本，那就是合适的场景，否则不要勉强。

用 LUI 操作使用工具，模型能力（识别/执行能力）得在这个垂直领域靠近 AGI（代指跟人的识别和执行能力一致），或者能在这领域内限定在尽量小的范围内靠近 AGI，否则交互过程中模型不理解/无法执行带来的挫败，加上第一二点的成本，用户得到的体验大概率是负的。

微软copilot 尝试了GUI 为主，LUI为辅的方式。剪映的对话式剪辑尝试了以 LUI 为中心，GUI 为辅或者没有 GUI 的方式。目前看起来都没达到预期。原因自然是模型能力还达不到，识别和执行能力差。

视频剪辑/PPT制作领域都太大，在这个大垂直领域模型要做到 AGI 的程度还太早，也是高估了短期模型能力的进步速度，需要把领域范围限定得更小，在这范围内用户的输入都能很好理解和执行，才可能跑通。

假如模型真达到 AGI 的程度，跟人的能力一样，是否视频剪辑用 LUI 是最好的方式？想象中不一定，工具能力不会是无限的，总有个范围，这个范围 GUI 能清楚地告诉你，LUI 很难，到时可能会有其他演化的交互配合 LUI。

新计算机

最近学习 transformer，看那些向量/矩阵的乘法，有种在学数字电路原理的感觉，要作类比的话，模型就是新的计算机，transformer 像芯片，SFT 像汇编，prompt 像 c 语言，往上 langchain/coze 是高级语言的尝试。原计算机是确定性计算，模型是概率性的模拟人脑的计算机。

但模型并没有遵循摩尔定律，18 个月性能翻一翻，GPU 运算能力确实每年性能都在暴涨，但模型的性能不是计算速度，而是理解能力。GPT-3.5 出来已经 18 个月了，GPT-4 已经 15 个月，模型能力的进步很有限，在这过程最大的变化只是开源模型逐渐追上，以及基于模型上层搭建的应用和生态上，基础模型能力没有大的突破。

我们预期模型性能能持续增强，基础是 Scaling Law，Llama3 训练中的最大参数量模型是4000亿，传闻 GPT4 参数量是1万亿，而人类大脑神经元突触连接有1000万亿（来源Wikipedia，也有说100万亿的），神经网络本身就是模仿大脑的构造，如果做类比有 100-1000 倍的差距，有很大的空间。Scaling Law 目前看还没收敛，能继续往这条路走，只是技术上的承接还没看到规律，无法形成新的摩尔定律，所以大家很期待 GPT-5，它能一定程度上让人判断模型的摩尔定律大概是什么节奏和速度。

图生成和视频生成领域，反而在过去18个月里有非常明显的提升，因为相对 LLM 它还在早期，而图像和视频的特性导致它早期也能有很好的应用。若 LLM 不顺利，图片视频能持续保持这提升速度，更有可能成为这几年的重点。

手机能跑图生成和 LLM 大模型吗

bang’s blog

作者 bang

2024年6月11日 19:35

能，但还比较勉强。

在客户端上跑大模型，一定是未来的趋势。

上个时代 AI 的核心应用是推荐系统，推荐是依赖海量数据的，海量数据只有服务端上存在，在推荐这主场景下客户端 AI 上能做的事很少，发展得比较吃力。
生成式 AI 时代，最大的应用就是模型本身，只有训练时依赖海量数据，使用时并不依赖数据，那理论上只要客户端硬件资源足够，在客户端使用，跟在服务端使用，场景和效果是一致的。
生成式 AI 在端上跑模型，最大的优势是成本。成本是当前生成式 AI 应用除了效果以外第二大关键因素，在用户客户端上跑模型，对服务提供方来说就是 0 成本，0 成本使更多场景大规模免费应用成为可能。其他的优势还包括 隐私保护、实时性、离线可用。

硬件条件

那当前手机设备硬件条件如何？我们可以通过一些指标对手机和服务端的算力差距有个大概认识。

显存：一个模型能不能跑，取决于显存够不够，显存不够模型无法加载。

服务端一般用独立显卡，有独立显存。
手机通常使用系统级芯片 Soc（System on a Chip），无独立显卡，SoC 中包含了 CPU、GPU、基带等多个组件，使用统一内存架构允许 CPU 和 GPU 共享同一块内存，所以手机 GPU 显存跟手机内存是一个东西。

性能：而模型跑得快不快，取决于芯片性能怎样。

芯片性能取决于很多因素，例如芯片架构、显存带宽，而算力是其中一个，通常用TOPS（万亿次每秒 Tera Operations Per Second）指标来衡量算力。TOPS 默认是针对 INT8 整型数的处理次数，另一个指标 TFLOPS 是针对 Float32 浮点数的处理次数。
在通用 GPU 以外，现代芯片会搭载专门处理 AI 运算的硬件加速器，NVIDIA 是 Tensor Core，手机 SoC 芯片是 NPU （Neural Processing Unit 神经网络处理单元），以下是 Tensor Core 和 NPU 的运算性能指标。
不同芯片性能，特别是涉及不同芯片架构设计的，应该以实测数据作为对比，但当前缺乏这类数据，先用 TOPS 指标看个大概。

我们看看当前常用的英伟达各种显卡芯片，以及移动端设备芯片这几个指标的情况：

	芯片	TOPS（INT8）	显存	搭载设备
服务端芯片	H100	2000	80G	/
	A100	624	80G	/
	NVIDIA A30	330	24G	/
	NVIDIA A10	250	24G	/
移动设备芯片	骁龙8 Gen3	45	16G	小米14/一加12/荣耀6/Redmi K70 Pro
	Apple M4	38	24G(iPad)	iPad Pro / MacBook Pro
	Apple A17 Pro	35	8G	iPhone 15 Pro / Max
	天玑9300	20	12G/16G	vivo X100 / OPPO Find X7
	Apple A15	15	6G	iPhone 13 Pro Max
	Apple M1	11	16G/32G	MacBook Pro

手机内存显存与系统共用，正常能提供给 APP 使用的内存只有1/2~2/3，所以可以认为对 APP 来说，手机设备的可用内存需要减半，否则有内存不足 APP 被系统 kill 的风险，像 iPhone 15 Pro 预计是4G，小米14等高端机是8G。

生图模型要求

那当前主流的生图模型，对硬件的要求是怎样？

显存

Stable Diffusion XL base 参数量 3.5B（35 亿），精度 Float16（16位bits，2个字节），换算下来参数总大小 6.5G，实际文件大小6.94G，在模型推理过程中，参数得加载到显存中，也就是显存至少6.9G，同时在模型推理过程过程中，也有一些中间值需要保留在显存中，所以正常需要8G – 12G显存支持。

实测在 Macbook 跑起来，占用了10.3G。极端情况下，通过显存调度之类的技术在 4G 显存也能勉强跑起来，但会性能较差或不稳定。

这个显存要求，在 iPhone 15 Pro 基本是不满足的，Android 高端机整体内存普遍较大，勉强可以支持。

性能

我在 A10 卡和 M1 MacBook Pro 上分别实测了下，SDXL base 模型生成 1024×1024 的图，A10大概6.4秒，M1 大概 95 秒。如果只看 TOPS 指标，A10 220TOPS 是 M1 11TOPS 的20倍，实测跑下来 95秒/6.4秒 = 14.8倍，也就是 M1 与 A10 的实际差距没那么大。

真实性能受各种因素影响，每个芯片有各自的优化方案，单用 TOPS 指标难以衡量，但可以看个大概。如果只看 TOPS 倍率，内存完全足够的情况下，搭载骁龙 8 Gen3 的小米 14 生成同样的图预计需要 17.6s，官方宣传是15s左右。

芯片	TOPS	SDXL 生图耗时	设备
NVIDIA A10	220	6.4s(实测)	服务器
Apple M1	11	95s~140s(实测)	MacBook Pro
骁龙8 Gen3	45	17.6s(预估)	小米14

量化

原 SDXL 模型硬件要求高，但如果可以牺牲部分效果，是有办法对原模型做压缩，让它可以跑在低内存手机的。

模型为了成本、速度考虑，一般会进行不同程度的量化。量化就是降低模型参数的精度，神经网络模型中的参数通常使用32位浮点数 Float32 表示，但 Float32(4个字节) 存储大计算量也大，进一步可以压缩映射到更低的数值表示，包括 Float16、Int8、Int4 甚至 Int2 都有应用，只是会带来不同程度的效果损失。

模型量化后，参数需要的存储空间降低，所需要的显存跟着降低，而因为数据量小了，计算量也相应减小，模型推理速度也会加快。

Draw things 这个应用，将 SDXL base 模型量化到 Int8 的精度，模型大小 2G，可以跑在 4G 内存的 iPhone 上（APP 最多只能使用 2G 内存，为此作者做了系列优化）。实测 SDXL base Int8 模型在 iPhone 13 Pro Max（A15，6G）上，生成 1024*768 的图需要 180s，跟它硬件 TOPS 算力差得有点多，可以认为是推理架构上为了节省内存做的妥协。

LLM 大模型要求

那在 LLM 大模型上，情况怎样？

我们拿阿里通义千问qwen的模型大概看下它 7B 和 72B 在不同量化下的大小。qwen 最大模型是 72B，而 llama3 最大是 400B(还在训练中)，可以预估 400B 模型会是接近1T的体量。

如果拿400B模型对标GPT4，72B 模型对标 GPT3.5+，可以看到目前可用的 LLM 模型推理成本和硬件要求是非常高的，比图生成高几十倍。

模型	参数量	量化	大小	生成 2048 token 所需显存
Qwen	1.8B	Int4	1.88G	2.9G
		Int8	2.49G
		Float16	3.6G
	7B	Int4	5.86G	8.2G
		Int8	9.13G
		Float16	15.41G
	72B	Int4	41.65G	48G
		Int8	111.86G
		Float16	144.18G
Stable Diffusion XL base	3.5B	Float16	6.94G

qwen 最小的 1.8B 模型，生成 2048 个 token 最低需要 2.9G 显存，当前高端机是可以跑起来的。但 1.8B 效果差很多，预计只能预训练做特定任务。7B 可用性高一些，可以看到 7B 模型就没多少手机能支持了，骁龙8 Gen3 宣传号称 7B 模型推理每秒执行 20 个token，未搜到相关实测。

Google 用于端侧的 Gemini Nano 有 1.8B、3.25B 两种参数量。苹果之前放出来的 OpenELM 模型有 0.27B ~ 3B 的参数量，最新 iOS18 的 AI 模型估计用的就是 OpenELM，限制了只有最新 iPhone 15 Pro 能跑。

iOS Android 都在往系统级集成端侧 LLM 大模型这个方向做，系统集成有更多的硬件资源调度权限，在当前资源条件下容易先做起来，APP 能用到的资源有限，目前很难跑起来。

所以手机跑 LLM 大模型，用最小的模型，在最高端的手机上理论可行，实际应用还要再等等。

端模型问题

除了硬件理论情况，端模型也有一些问题待解决：

对服务提供方，有技术保密问题：在端上部署模型，模型、prompt、workflow 都是存储在本地，虽然可以做各种加密，但总能破解，如果服务方视这些为核心竞争力，那就难以以这种方案部署，更有可能的是端云协同的架构，部分运算放客户端，云端处理核心和保密部分。
对于手机用户：手机耗电、发热、耗时问题：大量运算跑满 GPU 必然导致手机发热严重耗电高，在持续使用的场景下体验会比云端差，手机芯片跑起来速度也会不如云端快，手机端系统需要做好资源控制和平衡。
生态问题：英伟达的CUDA、PyTorch 生态，相关工具链/社区，在端上都是需要重新建立的，当然只要有场景有诉求，这些可以补上，但需要时间。
场景和价格问题：能运行大模型的手机，在未来几年价格还是高的，目前还没有比较好的理由让用户接受这个溢价，对用户来说，像生图、修图、LLM当前服务端能提供最好的，在端侧跑模型体验没提升，就没必要溢价买个高端机，高端机平民化速度就会慢。在没有 killer APP 的情况下，需要靠手机厂商和系统强推了，例如 iOS 18 新Siri 只在最高端机可使用。

结论

图生成硬件要求不算高，高端机已经摸到实际应用的门槛，预计再过一两年，硬件进一步提升，不追求效果极致的图生成应用场景，大部分会部署在客户端上。

LLM 硬件要求高，iOS/Android 系统级应用有条件接入，APP 基本还用不了。等系统应用被大众认知和接受，硬件普遍升级，才轮到 APP 端发挥。

当前过渡阶段，端云协同的方案会比较多，预计也会存在很长一段时间。例如图生成，可以将部分运算（比如 VAE 编解码）放到端上，主生成流程放云端。iOS 18 Siri 也会判断如果用户输入的是简单指令，就不请求服务端，直接端模型生成。

bang’s blog
在复刻黏土风图生成中学习(2) — ControlNet / IPAdapter / instantIDbang
2024年6月2日 10:32

在复刻黏土风图生成中学习(2) — ControlNet / IPAdapter / instantID

bang’s blog

作者 bang

2024年6月2日 10:32

接上篇，继续优化我们的黏土风 workflow。

引导图控制

来看看上篇里的最后一个case：

黏土风格效果还可以，但人物动作总会跟原图不一致，一会双手放地板，一会侧身。图生图一般希望整体轮廓、人物姿态与原图一致，有没有办法控制？

我们可以给它加上 ControlNet 节点，用 canny 边缘检测，试试控制画面主体的轮廓结构：

这下就比较准确地还原了原图的姿势了。

ControlNet 介绍

ControlNet 是一种神经网络架构，能做到通过添加额外的引导图片输入（如边缘图、姿态图等）来控制 SD 模型的扩散生成方向，实现对图像生成过程的精确引导。

通过这套架构，可以训练出每种控制方式对应的模型，生图过程中应用这个模型，输入对应的引导图，就能生成对应的图。

以下是 ControlNet 作者训练好的几种模型，以及用这些引导图生成的图片效果：sketch草稿、map法线贴图、depth深度图、canny边缘、line线、edge边缘、场景、Pose人物姿势

看下 ComfyUI ControlNet 相关的这几个节点：

每个 ControlNet 模型的输入，都是预处理好的一张引导图，一般用简单的算法就能处理出来，这里用的是 ControlNet canny 边缘控制的一个模型，对应一个 canny 算法节点，一个古老的算法，python 的 OpenCV 库就有。
接着加载 canny 对应的 ControlNet 模型。
这张边缘图片输入到 ControlNet 模型，跟文本一起，作为模型降噪生成过程中的引导，指引降噪方向，生成符合文本描述、符合图片边缘形状的图。

这里的 canny 可以替换成 sketch、depth、pose 等算法，搭配上对应的 ControlNet 模型，就能实现不同的控制方式。

ControlNet 原理

扩散生图模型出现后，就有很多人探索怎样更好控制它的生成，显然如果只能用文字生图，可控性太差，最直观的还是能通过草图指引控制它画什么。

怎么解这个问题？对模型简单做一个端到端微调是否可行？例如想让模型按 canny 检测出来的边缘去生成图片，那造一堆原图 – canny图的配对作为训练集，微调让模型学习到边缘图和最终生图的关系，是否就可以？大思路是这样，但需要解决微调带来的过拟合、破坏原模型能力的问题，需要设计一个网络结构，能很好认得 canny 引导图特征、跟扩散模型很好结合、效果稳定。

有很多人做过不同的研究，提出过多种方法，ControlNet 的方法相对前人有很大优势，能稳定用在各种场景上，效果最佳，应用广泛。

网络架构

来看看 ControlNet 的这张架构图，我把相应的输入输出示意图加上：

理解这个网络结构前，可以看回这篇文章理解下 SD UNet 网络。上采样 = encoder，下采样 = decoder，为了方便和与上图对应，下面就只提 encoder 和 decoder。

这个图左边是 SD 原 UNet 网络，右边是 ControlNet 新加的网络。首先是把 SD 原网络的参数冻结，不参与训练，这跟前面介绍的 LoRA 套路是一样的，训练不影响原网络，只调整新网络，有诸多好处。

接着它把 SD UNet 网络里的 encoder 和 middle 部分复制出来，再用零卷积（zero convolution）连接到原 SD 网络对应的 decoder 层。几个要点：

与 decoder 的连接：
1. 整个 ControlNet 网络的目的并不是按 UNet 网络流程有一个输入和输出，ControlNet 网络是只有输入没有输出的，它的目的是在 encoder 识别处理引导图（外加与降噪图/文字Prompt/步数的关系），再把这些信息跳跃连接回原 SD 网络的 decoder，所以 ControlNet 网络本身是不需要 decoder 的，图上的零卷积只是把 encoder 层跳跃连接回 decoder 对应的层。
2. 为什么这样做？SD UNet 网络里 encoder 各层保留了图片的细节信息，decoder 只有宏观信息，所以把 encoder 各层都跳跃连接回 decoder 对应的层，这样 decoder 拥有宏观和微观细节所有信息，进行一步步生图。那 ControlNet 这里做的，就是为 decoder 增加信息，不止是原降噪图的细节信息，还加上引导图信息，指引降噪生成方向。
为什么用 1×1 卷积作为连接，而不是做一个简单的叠加？
1. 如果叠加，会破坏原生图能力。这个 1×1 的卷积，最开始训练前初始化值为0，encoder 里的参数经过这个零卷积相乘，最终输出是0，叠加作用在 SD 网络里的值也是0，也就是训练一开始这个网络对 SD 生图完全没有影响，保留完整的生图能力。随着训练进行，这里的 1×1 不再是零卷积，会逐渐变成一个个权重值，那参数经过这个卷积叠加到 SD 网络，影响就不再是0，可以指引降噪方向。我理解为整个训练过程中生图能力都没被破坏，引导图 ControlNet 对网络带来的影响是一点一点叠加上去的。
2. 另一点，自己猜的，与 1×1 卷积相乘的主要作用是降维，引导图信息有限，低通道低维度的数据已经能比较好地表示，不需要跟降噪生图那么大的数据量，对原网络的影响也小些？
其他几个小点：
1. 它这里原样地复制了 SD UNet 网络一半的参数，并没有像 LoRA 那样对数据进行压缩，也可以理解为因为这样所以对网络的控制可以更细致。所以它的模型大小是比LoRA大很多，但比原 SD 模型小的。
2. 一开始输入的 Condition 是像边缘图这样的图片，图上没画出来的是这个图片还会经过一个四层卷积层，把这张图片转化为隐空间的表示。
3. SD 的输入，包括噪声图、文字 prompt 和 timestep 步数，都会进入到 ControlNet 网络参与训练，因为 ControlNet 是从 UNet 原网络复制出来的，有完整的处理这些输入的能力。

训练过程

沿着上面这张图再复述一下训练过程：

准备好训练数据：原图 – canny引导图 – 文本描述(可选)
前向传播：
1. ControlNet：在 SD 每一步降噪过程中，噪声图与引导图 c 叠加，与文本prompt、步数一起进入 ControlNet 网络，这里的输入跟 SD 原网络是一样的，每层的输出也一样，每一层推理出的噪声图数据表示，都通过 1×1 卷积连接回到 SD 网络。
2. Stable Diffusion：噪声图、文本 prompt、步数，一起输入网络推理出下一步噪声图，跟原 SD 训练和推理流程一致，只是这里的 decoder 网络已经叠加了 ControlNet 的网络。
3. SD 这里的文本输入也可以为空，训练网络只拟合边缘图信息，实际上 ControlNet 作者训练的那几个模型，训练过程中有一半数据集是无文本输入。
损失函数计算：我们知道每一步期望这个网络输出的图是什么（参考SD扩散训练过程），评估预测和输出的差异。
反向传播：把差异（损失函数梯度）回传网络，更新网络参数值。SD 网络是锁住的，不回传，参数不变。只在 ControlNet 网络做回传和参数值更新，这里的更新包括每个 encoder 块的参数值，以及1×1卷积的权重值。

训练完后，ControlNet 部分就变成了一个“认得” canny 边缘图片条件的网络，给这个网络输入其他的 Canny 图，经过 ControlNet 作用叠加在 SD 模型上，引导 SD 降噪方向。

论文上还提到一个现象：突然收敛，模型没有逐渐学习识别输入的边缘图片条件，而是在训练到6000多步的时候，突然认得边缘图开始遵循这个输入条件生图。为什么是会突然收敛，也没说为什么，特定架构下的现象，有些玄学。

这是非常通用的架构，只要是跟原图关联的引导图，像上面示例的 sketch、depth、pose 等都可以用同样的方法训练出对应的 ControllNet 模型。

若要自己训练一个 ControlNet 模型，作者有篇详细的教程和探讨：《Train a ControlNet to Control SD》

消融实验

消融实验（Ablation Study）是机器学习领域常用概念，指通过修改或移除模块，来测量这些模块/结构设计对结果的影响，也就是 ABTest。

作者这篇文章分享了做的两个消融实验：《Why ControlNets use deep encoder》。尝试了 ControlNet-Lite 和 ControlNet-MLP 这两个更简单的网络对比效果。这俩不是从原 UNet 网络复制出来，而是自定一个网络，再把这网络作用回原 UNet 网络，ControlNet-Lite是简单的卷积网络，ControlNet-MLP是用像素级多层感知机（Multilayer Perceptron）构造这个网络。

文中可以看出，在 prompt 充足的情况下，这俩简单的架构都能得到很好效果，甚至更简单的架构也能起作用，要指引图片按轮廓生成，并没有很难，难点在与生图模型的结合。在 prompt 不清晰、或没有 prompt 的情况下，这俩架构表现就差多了，生成的图无意义。

之前也有不少其他人的尝试各种方法，比如这篇论文《Sketch-Guided Text-to-Image Diffusion Models》，不足的地方也是与 SD 图生成的语义没法很好结合，只认识边不能让物体与边很好结合。作者认为 ControlNet 现在的架构能做到跟原网络很好结合，两个关键点：

用零卷积连接，确保了训练刚开始时对原网络无影响。上面也有说到，沿用 SD 原网络对物体的理解能力，再逐步调节，每一步训练都完整应用 SD 原本的高质量生图能力。否则按随机初始化叠加，一开始几个训练步骤下来，整个网络识别物体的能力很快被破坏。
ControlNet 的网络也需要接收 Prompt 作为输入，这样 ControlNet 编码器才能认识 Prompt 对象，不会与用户输入脱节，比如训练过程中 ControlNet 网络认识了房子的轮廓，如果没有 Prompt 参与训练，就算用户输入蛋糕，网络也会引导向生成房子，而不是蛋糕模样的房子。

ControlNet 先学到这里，我们继续来优化黏土风 workflow。

人脸保持

我们拿目前加了 ControlNet 的 workflow 试试人物的效果：

效果还行，但人脸跟原图有些对不上，如果我们想让人脸更接近原图，做一个人物美化的黏土风，有没有什么办法？

可以试试给 workflow 加上 IPAdapter 节点，IPAdapter 有强大的风格迁移、人脸保持的能力，先看看效果：

用的是针对人脸训练的 ipadapter-face 模型，人脸美化多了，相比之前相似度高一些，算是人脸美化风格的黏土风，但也不怎么像。

提高 IPAdapter 的权重，能得到越来越像的脸，但跟黏土风融合得不是很好，权重越大黏土风格的感觉越弱：

IPAdapter 还有一个专门为人脸保持做的版本 IPAdapter-FaceID，与黏土风格的融合效果好一些，但人脸特征保持程度也一般：

在进一步优化前，先来认识一下IPAdapter。

IPAdapter 介绍

IPAdapter 是垫图神器，提供风格迁移能力，输入一张参考图，模型会按这张参考图的风格去生成图片。IPAdapter 目前有两类模型：

IPAdapter
1. 提供整图风格迁移能力，与直接图生图有本质区别，原理上图生图是在原图加噪点基础上做演化生成，IPAdapter 是让模型认识图片风格要素，生成跟原图宏观风格一致的图片。
2. 结合 ControlNet 等插件，在一些场景下能得到很惊艳的效果：
3. IPAdapter 针对 SD1.5 和 SDXL 训了好几个模型，也针对人脸迁移做了优化， **ip-adapter-plus-face** 就是其中之一，使用裁剪的人脸图像作为训练集，对人脸的迁移效果好一些。上面第一步用的就是这个模型。
IPAdapter-FaceID
1. 在 IPAdapter 的架构下，使用人脸特征代替用 CLIP 编码的图片特征，模型对人脸识别能力更强。这个版本实验中，不允许商用。
2. 跟着上面 IPAdapter-FaceID 的 workflow 说明一下各模块：
  1. 用 InsightFace 提取人脸特征
  2. 人脸特征不像图像特征那么容易学习，因此这个模型配套训练了一个 LoRA 提高学习效果。
  3. 仅使用人脸特征，模型生成结果不稳定，受 Prompt 的影响很大，因此 IPAdapter-FaceID-Plus 版本尝试将人脸特征和 CLIP 编码的图像特征结合起来，所以这里还是需要一个 CLIP 模块。

IPAdapter 原理

IPAdapter 由两部分组成：提取图像特征的编码器，以及把图像特征接入网络而新增的解耦交叉注意力模块。

图片编码器：对参考图编码，提取图像特征
1. IPAdapter 对参考图的编码，使用了 CLIP 模型，但不是 SD 内置的 CLIP，CLIP 是一个模型家族，作者应该是挑了对图像特征识别编码效果更好的 CLIP 模型。
2. 后续新出的 IPAdapter-FaceID，是使用了人脸特征 FaceID 代替图像特征，具体来说是用 InsightFace 库提取人脸特征向量进入网络，更好保留参考图里的人脸身份特征。
3. 编码后的图像，这里加一个可训练小型投影网络，通过 Linear layer 和 Layer Normalization 投影到长度4的特征序列中，进入网络。
解耦交叉注意力（decoupled cross-attention）：
1. 回顾 SD UNet 网络的构成，整个网络有16个 Transformer 模块，每个 Transformer 模块里有一个自注意力层和一个交叉注意力层。
2. 将编码后的图像特征加入到 SD UNet 网络，常规做法是图片特征与文字特征相加，再一起进入 Transformer 模块里训练。但 IPAdapter 用了另一种方式，它向这些 Transformer 模块另外增加一个交叉注意力层，用以处理图像特征，然后把文字和图像两个交叉注意力层相加，称为解耦交叉注意力。
3. 为什么这样做？不跟文本 prompt 混合，这样图片的特征可以在网络中完整保存下来，跟文字一样具有独立引导能力。
4. 如果不用解耦交叉注意力机制会怎样？作者做了消融实验，用一般的方法 — 图片特征与文本特征直接连接，一起嵌入到 UNet 的交叉注意力层中，结果如下图的 Simple adapter 所示，能根据图像风格生图，但质量低很多。

ComfyUI 上 IPAdapter 的两个节点，一个是 CLIP 图片编码器，一个是包含架构图里红色区域可训练参数的 IPAdapter 模型。

训练时跟 ControlNet / LoRA 等一样，也是冻结原 SD 网络，只训练新加的 IPAdapter Transformer 网络，大概2200万个参数，IPAdapter SD 1.5 的模型大小基本 44M，对应着 22M 个参数。但 IPAdapter SDXL 的模型大了20倍，原因不明（原 XL 参数量只比 1.5 大 7 倍）。

InstantID

IPAdapter 在很多场景生图场景下做风格迁移和人脸保持都是神器，但在我们黏土风 workflow 下表现一般，我们试试另一个专门针对人脸迁移的技术：InstantID。

人脸特征的保持以及黏土风格融合的效果比 IPAdapter 好很多。试过其他图，人脸轮廓特征也很明显能更好保留下来：

InstantID 原理

InstantID的原理很简单，可以近似理解为 InstantID = IPAdapter-FaceID + 人脸ControlNet。

看这两张图，ComfyUI 里使用 InstantID 的几个模块，跟架构图对应，由三部分组成：

用 InsightFace 库提取人脸特征，用一个 projection layer 投影映射成跟文本的特征空间一致的向量表示。
添加解耦交叉注意力层，与 IPAdapter 一致。
加一个面部识别的 ControlNet，但有些小改动：
1. 只使用五个面部关键点（两个用于眼睛，一个用于鼻子，两个用于嘴巴）作为条件输入，而不是细粒度的 OpenPose 面部关键点。防止强调多余的面部特性，比如嘴巴闭合这种是可以由prompt控制，而不需要保持的。
2. 原 ControlNet 文本 Prompt 是加入网络训练的，这里没有加入，只用人脸信息作为ControlNet 中交叉注意力层的条件，主要是希望这个网络只控制人脸，不受文本对人脸描述的影响。

前两步基本就是 IPAdapter-FaceID，第三步就是一个特制的 ControlNet。

从前面效果看起来，第三步这个人脸特征 ControlNet 对人脸特征保持作用很大，用已有的技术方法做组合微调，已经能很好解决一些问题。

最后

我们使用 ControlNet、IPAdapter、InstantID 对黏土风格 workflow 做优化，希望能达到跟原图一致性较高、人脸迁移较好的效果，其中 InstantID 组合了前面两个技术，有很强的人脸迁移能力，但这也带来副作用。在原网络上叠加各种修改，对原生图模型都会造成不同程度的破坏，比如加了 InstantID 后，原文字 Prompt 和 Canny ControlNet 的控制就没那么精准了，上面几个例子可以看出，原来的 ControlNet Canny 边缘图已经很难起作用了，这很好理解，在原网络上叠加的处理，各部分是相对独立的，很难有非常好的融合，InstantID 把方向强力往人脸保持上引，其他输入条件就会被弱化。

这种 Adapter 类，需要在效果和原模型侵入程度间保持平衡，不同场景选择不同的方案，在某些场景要更好的效果，还是得自行微调模型，目前还没看到很完美的方案。

到这里已经可以有一个还算可以、对人脸风格化友好的黏土风格图生成 workflow 了。目前黏土风 workflow 要再进一步优化到生产环境，就是继续调整 Prompt、调整各组件参数，或者训练专有的 LoRA 模型了。

目前对应 workflow 见下图，可在 ComfyUI 上导入：

参考资料

ControlNet 论文：https://arxiv.org/abs/2302.05543

ControlNet如何为扩散模型添加额外模态的引导信息：https://zhuanlan.zhihu.com/p/605761756

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter：https://zhuanlan.zhihu.com/p/608609941

浅谈扩散模型的有分类器引导和无分类器引导：https://zhuanlan.zhihu.com/p/582880086

使用 diffusers 训练你自己的 ControlNet：https://huggingface.co/blog/zh/train-your-controlnet

深入浅出完整解析ControlNet核心基础知识：https://zhuanlan.zhihu.com/p/660924126

快速理解AIGC图像控制利器ControlNet和Lora的架构原理：https://blog.csdn.net/colorant/article/details/136732221

InstantID技术小结：http://www.myhz0606.com/article/instantID

IP-Adapter 原理和实践：https://zhuanlan.zhihu.com/p/683504661

IPAdapter使用：https://www.runcomfy.com/zh-CN/tutorials/comfyui-ipadapter-plus-deep-dive-tutorial

新一代“垫图”神器，IP-Adapter的完整应用解读：https://developer.jdcloud.com/article/3483

如何在 ComfyUI 中使用 IPAdapter Plus 进行风格迁移：https://www.comflowy.com/zh-CN/blog/IPAdapter-Plus

IP‐Adapter‐Face：https://github.com/tencent-ailab/IP-Adapter/wiki/IP‐Adapter‐Face

理解 Stable Diffusion UNet 网络

bang’s blog

作者 bang

2024年5月26日 17:09

在前面的学习中，我们把 SD UNet 网络当成黑盒，不太影响对图片生成大致原理的理解，但在继续学 SD 的过程中，发现 ControlNet、T2I-Adapter、IPAdapter 等这些技术，都是在原 SD 网络模型上以各种方式对网络做修改叠加，要理解这些技术，还是得先了解下 SD UNet 网络结构的一些细节，不然看得很费劲。

SD 模型构成

从之前的学习我们知道，Stable Diffusion 模型里包含了三个组件：CLIP、VAE、UNet，这三个组件的参数和大小分布(来源)：

组件	参数个数	文件大小	占比
CLIP	123,060,480	492 MB	12%
VAE	83,653,863	335 MB	8%
UNet	859,520,964	3.44 GB	80%
Total	1,066,235,307	4.27 GB	100%

整个生图的核心网络就是 UNet。UNet 最初是用于医学图像分割任务而提出来的，但它的特性展现了在图像其他领域的应用潜力，后续经过扩散模型的改进，很好应用在了图像生成上，所以 Stable Diffusion 的 UNet 实际上在原 UNet 网络架构上做了一些改造。

基础 UNet 网络

我们先来看看原 UNet 网络架构：

左边输入图片，经过整个网络处理，右边输出同尺寸图片。（原 UNet 网络用于医学图像识别分割，所以图上右边标的输出是一张同尺寸分割图。SD 这里的输出是降噪图）
左边下采样（也可以称为编码器），右边上采样（也可以称为解码器），一张图片经过一层层下采样计算，尺寸逐渐减小（图中的网络是减小到32×32），再经过右边层层上采样，恢复到原尺寸。那这里下采样和上采样的作用是什么？
下采样，是使用某种计算方式让更小的数据表示整张图片，这更小的数据代表了对这张图片高纬度的描述，而不是像素级细致的描述。
1. 越小的数据对图片的表示和描述越宏观，有利于捕捉图片的语义特征。
2. 例如一张猫在屋子前玩耍的地图，原图能看清所有细节，但因为细节太多，模型想要知道图里有猫和屋子，得把每个像素组合运算才行，但下采样到最小，最宏观的猫和屋子就容易识别。
上采样，是让图片的宏观小尺寸表示恢复成原图片尺寸。
1. 比如对于图片分割（把图片上的物体分割出来），我们在下采样后的小数据量的高维表示里识别了图片的主体、边缘，最后还是要转回在原尺寸图片上表示，不然识别了也没用。
2. 那不断下采样过程中肯定把图片细节都丢失了，再上采样，怎么可能还原图片细节？那就要说到跳跃连接（skip connection）了。
跳跃连接，也就是并不是顺着网络的方向连接，而是跳过原网络方向，跳着连接传输信息。说得有点拗口，看图很容易理解，就是图上中间的几条灰色箭头。
1. 原网络连接方向是图片输入→下采样各节点→上采样各节点→输出图片这个链路，就是图中U字型的路径。
2. 在这个路径之外，左边的下采样的每一层，都额外连接到右边上采样对应的层上面，将两个网络进行拼接。
3. 上采样每一层，都在拼接了左边下采样对应层的数据后，再一起作为下一层上采样的输入。
4. 为什么这样做，很容易理解，左边的每一层网络都保留了图片不同程度的细节，右边的每一层因为是上采样过来的，只有宏观信息，没有图片细节，那把左边图片细节信息拼接过去，右边这个网络宏观特征和微观细节都具备了，每一层都有不同程度的对图片的宏观语义理解和微观细节，就能做各种事情了，包括图片分割、语义生成图片。

UNet 网络大致思路是这样，这里面具体的卷积运算和公式，不看应该不影响对整体思路和作用的理解。

Stable Diffusion UNet 结构

最初的 DDPM（去噪扩散概率模型），和后来改良的 LDM（潜在扩散模型），对 UNet 网络逐步做了一些改造，以适合扩散模型图生成的过程，SD 是基于 LDM 实现的。

最后 SD 里的 UNet，整体结构流程跟上述一致，改造大部分是在上采样和下采样的每一层的实现里，最大的改造是引入了 ResnetBlock（残差模块）和 Transformer 模块。ResnetBlock 提升网络表达能力（原 UNet 是简单卷积模块），而 Transformer 模块的交叉注意力机制，将文本提示（prompt）的嵌入与图像特征进行融合，实现基于文本条件的图像生成。

SD UNet 每个模块的组成如图（图片来源）：

左边下采样每层由2个残差模块和2个Transformer模块连接组成，右边上采样是各3个，中间层是2个残差模块和1个Transformer模块。（高维的d4和u1没有接入Transformer模块，原因不明，可能是试过加入后效果不佳，在高维这里加入 Prompt 交叉注意机制，文字权重太大？）

细分模块结构

里面每一块具体的结构这篇文章画得很详细，摘录学习一下。我们拿其中一个下采样模块看看：

两个残差模块，两个Transformer模块。这图表示了 SD 生图的三个输入：input（噪声图）、prompt_embdding（文字 Prompt）、time_embdding（步数）在这几个模块的流转和处理。这里每一个小模块处理完后，输出的可以近似认为都是一个预测的噪声图的数据表示。

残差模块的输入输出噪声图+步数 → 预测噪声图，Transformer 模块的输入输出是噪声图+ Prompt → 预测噪声图。

Transformer 模块

再细看一下 Transformer 模块，Transformer 模块由下图所示好几个部分组成，最主要的是自注意力模块（SelfAttention）和交叉注意力模块（CrossAttention）：

展开看看这两个模块：

自注意力模块，Transformer 结构里的 QKV 输入都是图片特征（上一层的处理结果，就是降噪图的特征），这样做可以让模型获得包含整个输入图像的感受野，捕捉图片特征中不同位置之间的关系，全局感受力是 Transformer 架构的特点。

交叉注意力模块，它的作用是融合不同模态的输入，在这里就是融合噪声图和文本特征，Q的输入是图片特征，KV的输入是文字 prompt_embedding，让图片特征可以关注到文字输入，根据注意力权重调整图片的生成方向。文字 prompt 在整个Transformer模块中只作用在交叉注意力这部分里。

Transformer 的机制原理、QKV的含义，是另一个比较大的话题，可以先看看网上其他相关讲解，比如这篇，后续再细拆深入。

回顾

关键几个模块的组成了解了，再回到整个UNet的构成：

现在通过这些结构图，可以大致看到 UNet 网络里的整体处理流程，以及关键模块的作用，经过这些模块的逐个叠加，组合成一个个采样模块，再组合成 UNet 网络架构，完成整个生图运算。

这里面还有很多需要深入学习的点，当前先了解到这个维度，已经可以帮助大致理解后续 ControlNet 等网络的机制原理。

参考资料

UNet 论文：https://arxiv.org/abs/1505.04597

原版实现及 Diffusers 实现源码解读：https://zhouyifan.net/2024/01/23/20230713-SD3/ （周弈帆的博客，看简介挺有意思的一人）

U-Net简明教程：http://www.bimant.com/blog/unet-crash-tutorial/

Stable Diffusion1.5网络结构-超详细原创：https://blog.csdn.net/xd_wjc/article/details/134441396

Stable-Diffusion模型结构详解：https://zhuanlan.zhihu.com/p/638867353

Unet网络详解：https://blog.csdn.net/qq_58529413/article/details/125704059

Stable Diffusion XL网络结构：https://blog.csdn.net/xd_wjc/article/details/134530784

从零开始学扩散模型：https://huggingface.co/datasets/HuggingFace-CN-community/Diffusion-book-cn


换模特	换衣


灵动AI	photoroom


角色生成	游戏原画


概念设计	线稿转绘