阅读视图

那洲村老屋咖啡

2025年6月28日 13:32

那洲村老屋咖啡位于珠海市那洲村绿道旁，是热带雨林风格的建筑。店里有历史介绍，是店主由一座荒废的老屋推倒改建而成，故名老屋咖啡。这是他们其中一家分店。另外一家分店位于会同村内，在保持老屋原貌进行适度的装修。两家店我都去过好几次，整体氛围和咖啡味道都挺喜欢。这次来得比较早，没什么人。以前经常遇到妹子或情侣在店里的图书角学习、写稿。地方挺宽敞，还有户外的桌椅，可以聚餐。咖啡店后院边上是一条小河，店的两侧是大树和竹林。

店里的一个特色就是有几只可爱的小猫可以撸，小朋友和妹子比较喜欢。另外一家也是养了小猫。

减法生活，治愈内耗

雅余 · 茶余饭后，闲情雅致

雅余

2025年6月24日 19:30

“丰盛的物质，会导致精神的匮乏；物质简单了，你才能追求心灵的富足。” —— 环球集团创始人查克·费尼

继上回话题延展一下。话说现在生活节奏真的快，资讯推送不停，社会关系变化快，”幸福感“小物件买不完，人很容易累，心里总觉得“耗得慌”。今年大厂开始各种反内卷的倡议，拒绝“内卷式奋斗”，是觉醒？题外话。其实，让自己轻松起来的关键，就是学会“做减法”。

01 情绪简单点

别想太多，别比太多

为啥要简化？ 人的心就像个杯子，装太多焦虑、胡思乱想、和别人比来比去，迟早会“溢出来”，累垮自己。坏情绪憋久了，就像垃圾堆在屋里，对身体对心情都不好。

怎么做？ 试着“丢掉”一些没用的想法：

少点焦虑： 别老担心还没发生的事。比如，项目还没开始，就反复想“万一搞砸了怎么办？”，越想越慌。不如先做一步看一步。
别瞎比较： 看到朋友圈别人晒旅行、晒成就，心里不是滋味？记住，别人的生活是别人的“精选集”，别拿这个跟自己比，越比越觉得自己不行。
戒掉多余想法： 事情发生了，过去了就放下，别反复琢磨“刚才那句话是不是说错了？”。

好处是啥？ 情绪包袱轻了，心里就松快了。就算遇到烦心事，也能更冷静地处理，不会轻易被压垮。

02 关系简单点

远离消耗你的人

为啥要简化？ 很多烦恼其实来自“人”。比如：

硬着头皮参加不熟的聚会，尬聊一晚上，回家只觉得累。
总有些“朋友”，见面就抱怨、诉苦，或者爱攀比，跟他们聊完，自己心情也变差。
为了维护一些没啥意义的“人脉”，花时间精力去应酬，结果啥也没得到。

怎么做？ 学会“挑朋友”和“享受独处”：

远离无效社交： 觉得不舒服、没收获的聚会、聊天，能推就推。别怕得罪人，你的时间和精力很宝贵。钱锺书曾说过：”不必找些不三不四的人，说些不痛不痒的话。“
享受独处： 一个人待着不是孤单。可以安静地看本书、听听音乐、做点自己喜欢的事，或者就发发呆。这时候，你才能真正休息，给自己“充电”。

好处是啥？ 省下了被无效社交消耗的精力，内心反而更有力量，那些因为复杂关系带来的“内耗”自然就少了。

03 东西简单点

别让物质拖累你

为啥要简化？ 东西多了，麻烦也多：

看到打折就买，结果衣柜塞满，很多衣服一次没穿。
囤积各种“可能有用”的东西，家里越来越乱，找个东西都费劲。
为了买新手机、新包包，拼命加班赚钱，买回来新鲜两天就放一边了。东西成了“主人”，你反而在“伺候”它们。哲学家马塞尔曾言：“拥有就是被拥有。”

怎么做？ 降低物欲，学会“断舍离”：

少买点： 买东西前问问自己：我真的需要吗？没有它行不行？能用多久？别被广告和“别人都有”牵着走。有个延迟享受的方法，要买的东西放购物车几周一个月，再去审视需不需要下单。
清理掉： 定期整理，把那些很久没用、不喜欢、不需要的东西处理掉（送人、卖掉、扔掉）。某鱼、某转、某回收用起来。家里清爽了，心里也会跟着清爽。

好处是啥？ 东西少了，负担就轻了。不用总想着买买买，也不用花精力去整理、维护那么多物品。省下的钱和时间，可以用来做真正让自己开心、内心富足的事，比如学点新东西、陪陪家人、或者就是好好休息。

简单点，更轻松

"当剔除了身边所有不必要的人和事，让一切都变得简单后，你会发现，那些内耗全都不药而愈了。"（引自山下英子《断舍离》）就像整理房间一样，把心里那些没用的焦虑、消耗你的关系、堆成山的杂物，都清理清理。当你身边只剩下真正重要和让你舒服的人、事、物时，那些让你疲惫不堪的“内耗”自然就消失了。生活简单了，心就轻松了，人也更有劲儿了。

行走的哲学：去有风的旷野，自由和答案都在风里

雅余 · 茶余饭后，闲情雅致

雅余

2025年6月19日 21:22

缓慢，从容，水蚀石穿，不慌不忙。人的生命短暂，地球自己却有的是时间。
—— 阿来

山风翻动书页，在纸页间留下历史的隐喻。正如纪录片《文学的故乡》所描述的，「雪线一年年后退，冰川退缩留下的疤痕，不是风景的伤疤，而是地球对人类的诊脉记录。」作家阿来用他的地质锤与诗人笔，在2024年献出了一部「反潮流」的「在纸页间行走」的山野散文集——《去有风的旷野》。

花了一周的时间，细细读了《去有风的旷野》，非常喜欢，这简直是一本山野和植物爱好者的枕边书。

作为茅盾文学奖获得者，阿来不仅仅是一位作家，更是一位行走文学的践行者。

书中讲述了10段故事，其中《再访米仓山三记》记录同一地点春夏杜鹃与秋日红叶的时序更迭；《大凉山访杜鹃花》中描述追踪30余种高山杜鹃，痛心因旅游开发导致的物种盗挖，文中探讨共生真菌对土壤的修复作用（ps. 苏珊娜·西玛德的《森林之歌》有更多相关的真菌研究）；《记蔷薇科的两个春天》中对比低海拔梨花（三月盛放）与高海拔海棠（五月开花），探讨乾隆征讨金川的战役如何造就梨园种植史，提出“植物植根于地理与文化土壤” 的思考。几个故事都看得我爱不释手，正好契合我近期徒步观察植物的兴趣点。

阿来用诗性的语言，将地理的壮阔、植物的灵性、人文的厚重编织成一张细密的网，让读者既能触摸到山野的肌理，又能感受到历史的余温。

行走的哲学：去有风的旷野，自由和答案都在风里-雅余 — 纪录片《文学的故乡》中的阿来，图片来自三联生活周刊

“人们问我，频繁前来的原因是什么？我说，这里是我的自然课堂，或者说，是我的自然课堂之一。不同的时间，来这里的高山之山，从树，从草，从花，从果，看生命律动。”

阿来是一位植物学的痴迷者，也非常博学者，路上遇到的植物都如数家珍，但这也是他长期坚持观察和研究的结果，是对大地和自然执着的爱。他的文字是一部行走的哲学，字里行间都是对生命的拷问。

“人生就像一场漫长的旅程，不要只埋头赶路，偶尔也要停下脚步，看看路边的风景。”

《十二背后》的故事中，阿来这样来描述溶洞生长的秘密，“一切都还在生长，水仍然在地下见缝插针，融通壮大，永不停歇。”

一切都还在不断的演变，人类也不断的在改造自然，但自然不一定会按照人类的意愿而改变，人必须寻得与自然共存的密码。“人的生命短暂，地球自己却有的是时间。” 人类需要珍惜和善待自然。

书中摘录：

- 荒野可以使我们恢复本性。
- 大可不必因为未见红叶，而失望，而抱怨，不必非见一种规定性的秋天。
- 缓慢，从容，水蚀石穿，不慌不忙。人的生命短暂，地球自己却有的是时间。
- 红叶落尽时，岩层才会显露它真正的语言——不是教诲，是沉默的审判。
- 在地球用数亿年前塑造出来的这个特别的空间，我想体会什么叫地老天荒。
- 鸟鸣。清风。蓝空深处白得发亮的云彩。每一棵树，每一片草叶，都在发生光合作用，都在呼出氧气。都是抚慰，而不是压迫。
- 我躺在松软地面上，身下铺满黄叶，身上也渐渐落上了许多黄叶。杜甫诗“无边落木萧萧下”，是眼前景。虽然没有“不尽长江滚滚来”，这连绵无际的秋声依然漫过我的全部感官，思接八荒，感受到林外的万水千山。
- 一切都还在生长，水仍然在地下见缝插针，融通壮大，永不停歇。
- 一片无声，两片无声，百片千片就有了声，森林浩大连绵，数万片数十万片秋叶同时旋舞，同时降落四野便飒飒然，萧萧然，发出了动人秋声。
- 梭磨河峡壁陡峭，阳光强烈，风摇晃着树，其实就是摇晃那些光，使之动荡，使之流淌。
- 风忽偃忽起，阳光忽强忽弱，野樱桃树黄叶飘风，落在溪上，落在光润的涧石之上。
- 人生就像一场漫长的旅程，不要只埋头赶路，偶尔也要停下脚步，看看路边的风景。
- 真正的自由，不是想做什么，就做什么，而是教会你不想做什么，就可以不做什么。
- 人生如旷野，自由和答案都在风里。
- 在旷野之息，让我们看见生命，找到自己。

工作生活的压力，让很多人开始向往旷野。到山里走走，在沉浸式的爬升过程中，让大自然慢慢治愈自己。“人生如旷野，自由和答案都在风里。” 你也不妨放下手机，到山野中走走，看看脚边不起眼的植物或昆虫。

关于山野和徒步的书，还推荐你阅读：

- 《偏跟山过不去》作者：比尔・布莱森
- 《北方的空地》作者：杨柳松
- 《失落的卫星》作者：刘子超
- 《自然札记》作者：梭罗
- 《十年徒步中国》作者：雷殿生

草木图鉴｜木荷

雅余 · 茶余饭后，闲情雅致

雅余

2025年6月16日 22:44

六月的风掠过山林时，木荷的花便醒了，又是观赏木荷花的季节。木荷的白色小花簇生于枝顶，嫩黄的花蕊从花心漫出，风过时抖落几缕清芬。木荷是山茶科常绿乔木，因花似荷花得名，又称 “荷木”。木荷除了花美具有观赏性，更有 “森林卫士” 之称。它叶片含水率超 40%，不易燃烧，是南方林区重要的防火树种。在苗乡，它象征 “和睦”，常作为定情信物载体。

“木兮荷兮，无忧而立。六月初绽，花比玉兰。默而望之，羡其纯白。下而思之，静待归鸟。我本尘土，你非木荷。痒亦受之，时岁解之。不得木荷，愿做玉兰。” ——《木荷》作者不详

🌿 基本分类与别名

学名：Schima superba Gardner & Champ.

科属：山茶科（Theaceae）木荷属（Schima）

别名：荷木、木艾树、何树、柯树、木和、回树、木荷柴、横柴。古称“木禾”（源自《山海经》）。

古籍记载：《山海经》称其为“木禾”，《植物名实图考》记载为“何树”。

常见品种：西南木荷、银木荷、大苞木荷等，全球木荷属约30种，中国分布21种。

🍃 形态特征

树体：

- 常绿大乔木，高达25–30米，胸径可达1米，寿命超百年。
- 嫩枝通常无毛，树皮灰褐色，干皮粗厚。

叶片：

- 革质或薄革质，椭圆形，长7–12厘米，宽4–6.5厘米。
- 先端尖锐，基部楔形，侧脉7–9对，边缘具钝齿；新叶鲜红，秋叶转红。

花与果：

- 花：白色，直径约3厘米，多朵排成总状花序；花瓣5片，最外1片风帽状，边缘有绒毛。花期6–8月，因形似荷花得名“树上的荷花”。
- 果：蒴果扁球形，直径1.5–2厘米，9–11月成熟。

🌍 分布与生境

地理分布：中国南方为主，包括浙江、福建、台湾、江西、湖南、广东、海南、广西、贵州、江苏、四川、云南等地，海拔150-1500米的山区。

生境偏好：

- 气候：适应亚热带气候，年均温15-22℃，年降水量1200-2000毫米。
- 土壤：喜酸性红壤、黄壤或沙壤土，以深厚、湿润、疏松的土壤生长最佳。
- 光照：喜光，幼树稍耐荫，常与马尾松、杉木等混交成林。
- 海拔：常见于海拔150–1500米的向阳山地杂木林中。

💎 核心价值

经济价值：

优质用材：木质坚硬致密，纹理均匀，少开裂，易加工。用途包括：

- 纺织工业（纱锭、纱管）、枪托、桥梁、船舶、家具、胶合板等。
- 中国林科院评价其机械加工性能在8种珍贵树种中居首。

精油开发：木荷花含有芳香物质，可通过蒸馏等方法提取精油，用于香料工业或日化产品（如香水、香皂、空气清新剂）的调香原料，具有潜在的市场开发价值。

生态防护：

- 防火树种：叶片含水率超40%，油脂少，着火点高；可抑制林下植被，形成隔离带，阻隔山火蔓延，称“南方森林卫士”。
- 水土保持：深根系增强土壤固持力，落叶分解后增加土壤养分，改善水源涵养功能。
- 抗污染：吸收二氧化硫、氟化氢等有害气体能力强，适合作行道树或公园绿化。

药用价值（外用）：

- 部位：根皮、叶。
- 功效：攻毒消肿，治疔疮、无名肿毒。
- 注意：茎皮、根皮有毒，接触可能致红肿发痒；严禁内服（含毒性三萜皂苷）（注：药用需遵循专业指导，不可盲目使用）。

📜 文化意义

象征内涵：

- 因花似荷花，谐音“和睦”，被视为和谐、高洁的象征。
- 花语为“长久、和睦”，寄托对真情与安宁生活的向往。

历史记载：

《山海经·海内西经》称昆仑山“木禾”为神木，描述其“长五寻，大五围”；清代《植物名实图考》赞其“材中栋梁，益於民大矣”。

🧚 相关传说故事

武平木荷王护村传说（福建）：

在福建武平县十方镇和平村有棵超 500 年的 “木荷王”，被奉为“佰公”。传说隔壁村小伙在树下祈求佰公保佑砍柴顺利，斧子坏了后小伙称佰公不灵并扔下斧子。傍晚一铁匠捡回斧子修好，当晚却肚子疼，便将斧子送回树下。第二天小伙发现斧子已被修好，觉得古树神奇。此外，还有传说外村人到村里买小猪若不到古树下上香，小猪买回后养不大；5 岁以下身体弱或爱哭爱闹的男丁，家人会带其到树下系红绳、起和树相关的小名，希望孩子沾古树福气，平安长寿。

苗乡睦邻传说（湖南）：

在城步边陲苗乡，有两个相邻村落为一片荷木林纷争甚至棍棒相向，结果山上的荷木林瞬间枯萎。村民们幡然醒悟，摒弃前嫌重新修好后，荷木林又一夜之间 “死” 而复生。从此，苗乡把荷木奉为象征 “和睦”“健康” 的吉祥树种，当地男孩会用荷木做的精美木梳作为定情之物送给心仪女孩，传达 “夫妻结发” 之意。。

青荷仙子救村神话：

相传很久很久以前，有位名叫青荷的仙子，她热爱大自然，用自己的法力将木荷种子撒向大地，并用仙露滋润，使木荷种子长成茂密的木荷林。她常在林中翩翩起舞。有一天村子遭遇大火，木荷林在烈火中屹立不倒，火势在其前止步并熄灭，木荷林显得更加郁郁葱葱。村民们认为是青荷仙子的神力庇佑，“烧不死的木荷林” 成为村子里的传说。

🌼 相关野趣

果实玩具：蒴果坚硬，可制作陀螺等传统玩具。

赏花胜地：江苏光福官山岭（省级自然保护区）每年6月花期如雪，清香浮动，为江南初夏胜景。

康养价值：花香可提炼香精油，具舒缓身心之效。

⚠️ 注意事项

毒性提示：木荷茎皮、根皮及寄生木耳均有毒，接触可能引发红肿瘙痒，不可内服。更多细节可查阅地方林业文献或植物图谱数据库。

最后更新：2025-06-16

草木图鉴｜山棯子

雅余 · 茶余饭后，闲情雅致

雅余

2025年6月13日 23:47

最近爬山的时候看到很多山棯子已经长满了紫色的花，不少都结出果实，再过半个月，山棯子就开始成熟。山棯子的学名桃金娘好听很多，显得柔美，像它的花一样。但这几年爬山都没有尝到山捻子，因为这个时候雨天变多，特别珠海的周末爱下雨。等放晴去到山里，它们早已进了鸟儿们的肚子，山棯子是小鸟喜欢的美食之一。

待更新果子成熟照片。

从本篇开始，会整理记录户外活动时看到并喜欢的植物和动物，观察其随着季节和年份的变化，然后更新到同一篇日志中，形成博物卡片。
—— 以上写于 2025-06-13

🌿 基本分类与别名

学名：桃金娘（Rhodomyrtus tomentosa）

科属：桃金娘科桃金娘属常绿灌木

别名：

- 地域俗称：捻子、岗稔、山稔、当梨根、豆稔（福建）、乌肚子、仲尼（两广）、豆棯干（《广西中药志》）。
- 古称：倒捻子、都捻子（见宋代《岭表录异》）。
- 名称由来：传说战乱时百姓靠其果腹保命，称“逃军粮”，后讹传为“桃金娘”。

🍃 形态特征

树体：高1-2米，嫩枝密被灰白色柔毛

叶：对生，革质，椭圆形或倒卵形，长3-8厘米；叶面光亮，叶背覆灰色茸毛，离基三出脉明显。

花与果：

- 花：单生，紫红色，直径2-4厘米；花瓣5片倒卵形，雄蕊红色；花期4-5月。
- 果实：浆果卵状壶形，似小酒杯，长1.5-2厘米；未熟时青黄，成熟呈紫黑色；果期7-10月。
- 种子：每室2列，嚼食时“瑟瑟有声”（苏轼《海漆录》）。

🌍 分布与生境

地理分布：

- 中国：华南各省（广东、广西、台湾、福建、云南、贵州、海南）
- 国外：中南半岛、菲律宾、日本、印度等热带至亚热带地区

生境偏好：

- 酸性红黄壤丘陵、荒山灌丛、草地，耐干旱瘠薄，为酸性土指示植物。
- 适温10℃以上，霜冻易致死，故集中于南方。

💎 核心价值

食用价值：

- 果实酸甜多汁，含花青素、黄酮类、氨基酸及矿物质（如锌、维生素C），可鲜食、制果酱、果汁或果脯。
- 泡酒传统悠久，果酒具独特风味，民间称“男人的加油站”。

药用价值（根、叶、果皆可入药）：

- 根：祛风活络，治风湿性关节炎、慢性痢疾、肝炎
- 叶：收敛止血，外用治烫伤、外伤出血
- 果：补血安胎，改善贫血、神经衰弱、遗精

生态价值：

- 根系发达，固土护坡，防治水土流失。
- 耐盐碱，为荒山复绿优选树种。

经济价值：

- 野生果实市价达20-30元/斤，开发潜力大。
- 花可制天然染料（古时妇女用于染布）。

📜 文化意义

象征内涵：

- 西方：罗马神话中为爱神阿芙罗狄蒂圣树，象征爱情，中东新娘捧花常用。
- 中国：承载战时求生记忆（“逃军粮”），成为坚韧精神的符号。

文学印记：

- 苏轼谪居海南时记录其花“红鲜可爱”，果“甘美如马乳”。
- 卢鸿基、刘恂等诗人学者均赋诗著文提及。

相关诗词：

《五言・山棯子》：“灿霞涌南岭，遮笼暑夏暝。童伴随雀呼，桃娘与花听。荒年何所盼，藤篓犹执定。耕叟村酿间，柴烟认来径。” 作者标注为 “风雨萧萧、骁捷”，即肖杰，当代人，其笔名有风雨萧萧、骁捷，籍贯广西平南，现居深圳。这首诗描绘了山棯子生长的环境以及与人们生活的一些关联，夏日里山棯子如灿烂的云霞，孩子们伴随着鸟雀的叫声去寻找山棯子，荒年时人们对其有所期盼，而耕叟在村酿中也能通过柴烟辨认出山棯子的路径。

《棯花赋》：“山坡野生十里棯，春雨过后渐抢眼；露营本无沾花意，偶遇细看被惊艳！” 作者不详。作者在露营时偶然看到山棯花，被其惊艳，从而创作此赋，表达了对山棯花的喜爱之情。

《棯花叹》：“本是一野花，与谁争高贵？待到果甜时，自有牧童追！” 作者不详。以拟人的手法，写出山棯子作为野花的质朴，等到果实成熟时，自然会有牧童来追逐采摘，体现了山棯子的平凡与自在。

客家民谣《捡棯子》：“五月五，棯子花飞舞；六月六，棯子冒苞豆；七月七，棯子乌滴滴；八月八，棯子满旮旯；九月九，棯子甜过酒；十月十，棯子捡枚集。” 作者不详。这首民谣详细地描述了山棯子从开花到结果的过程，每个月都有不同的特点，生动形象地展现了山棯子的生长周期和果实成熟的变化，也反映了人们对山棯子的熟悉和喜爱。

《浣溪沙・秋景》：“山满枫红秋色苍，鸟啼晨露果飘香。熟成稔子带霞光。沧柳水清残菡萏，翠松桐赤稻金黄。菊芳香桂伴西阳。” 作者是周贻繁，清朝人，字茹馨，湘潭人。此词描绘了秋天的景色，其中提到成熟的山棯子在霞光的映照下格外美丽，与枫叶、鸟鸣、露水、稻香等共同构成了一幅多彩的秋日画卷。

🧚 传说故事

“逃军粮”起源：
战乱年代百姓避入山林，以山捻子果腹存活，故得名，后音讹为“桃金娘”。

镇龙庙传说：
民间流传捻子庙（如阳江大西沟）下压白龙/恶龙，刘伯温或宋徽宗建庙镇之，庙中龙头吐水利民。

🌼 相关野趣

童年记忆：

- 南方孩童暑期结伴摘果，满山搜寻成熟紫果，食后唇齿染紫，相互嬉笑。
- 因过量食用易致便秘，被大人戏称“又爱又恨的野果”。

生态旅游：

- 广东阳江东岸岭等地的捻子花海（5月）与果期（7-10月）吸引游客露营、摄影。
- 渐成婚纱照取景地，云海日出与紫果绿枝构成独特风光。

⚠️ 现状与保护

因桉树种植扩张及生态破坏，野生山捻子锐减，现已有部分地区尝试人工种植。其兼具生态修复与经济开发的双重价值，值得进一步保护与利用。

最后更新：2025-06-13

登珠海凤凰山凤凰顶

雅余 · 茶余饭后，闲情雅致

雅余

2025年6月8日 20:30

昨天到中山走岐澳古驿道不够过瘾，一路都是疯狂的蚊子，扛不住，走到三分之一就下撤了。今天找了一条新的轨迹，趁天气好爬到凤凰山的凤凰顶看看风景。路上发生两次轨迹偏离，第一次发生在上山路上，绕了一下找回正确轨迹，第二次下山直接走偏300米，同时下降200多海拔，想着也不会迷路，就干脆自己钻林子找路迹。全程7.43公里，最高爬升440海拔左右，从普陀寺对面的东坑爬至凤凰顶再回出发点，一个小环线。虽然今天黄色高温预警，但山里还是非常凉快。

走进机耕道几百米，城市的喧闹声就基本听不到了。一路上只有泥土和花的味道，让人心情舒畅。

山棯子，小时候吃过不少这个果子。成熟的果子是紫黑色浆果的，可直接吃，也可酿酒，是鸟类喜欢的食物。

木荷是山茶科，属大乔木，最高可达25米。这边山上挺多见，树冠开满了花，很好看。木荷为中国珍贵的用材树种，树干通直，材质坚韧。

白花灯笼是唇形科大青属灌木植物，白花灯笼因其花萼膨大似灯笼，花冠淡红色或白色稍带紫色而得名。

By 理光 GR3

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

石樱灯笼博客

石樱灯笼

2025年5月22日 23:42

看来字节没活了。

（注1：文章具有时效性）
（注2：文章包含大量图片。为照顾布局，部分图片有经过剪切，与线上排版有差异）

前提

建议先读我之前写的这篇文章：《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲，我4月末写的那篇文章，差不多是豆包这超能创意的更新，但是他们的文档5月14日才出来。

而且现在状态还是灰度测试？那我之前三个星期用的是啥玩意？

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档，那就能明确他这玩意到底都更新了个啥，不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事？TMD这是想要抓截图的人吗？我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

（我甚至担心，别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码）

另外，啥叫 超能创意 1.0 版本不稳定，建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」，怎么在图像生成之外使用？难道还有其他的灰测？

隔夜饭还是馊的

首先我得勘误一个事情，这个「超能创意 1.0」实际上在4月25日出过更新内容，只不过我上一篇文章却是从4月22日开始写，一直写了5天（你就说有多慢吧），期间也没有仔细检查过他们的更新通知，而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你：理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的，连传送门都有。

而且，它到底理解了个啥？

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

（车头对着少女，这明显是公交车进站啊）

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是智力只有小学生程度的用户吧？公主被抓走什么的，我直接用更精确的难过上心流泪这些形容词不就好了？

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

（你发散思维时，至少把人物主体的手画对好吧？）

只能说这玩意只有在输入的内容过少的时候，自由发挥时有用。但是自由发挥的范围却是不可控的，谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂，遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得，把你整体构图都改了。

图片处理

你玩我是吧？

这TM不还是 参考图/智能编辑 ？

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的伪人？

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过，这个功能的最大边长是1312，而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与参考图/智能编辑唯一的区别在于，入口不是按钮，而是在对话里直接对话执行……有那个必要吗？

这玩意唯一的优点就是，可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创：灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ，又来？！？！

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题？

我之前也说过，用这玩意讲故事的话，有严重的连续性的问题，改了？

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ，四格就崩得金瞳变蓝瞳，长直变马尾，还把腰给搞没了。

更别说我本身不想使用这个功能的时候，也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆？！

……

不对劲！

莫非文档是错的？这功能本来就不是文档例子里那么用？

保持主体不变：

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化：

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ，这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题，真的着实不靠谱。

超效率：批量生成 + 自适应：比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过，就是你手动输入生成超过20条的时候，他会按照两个阶段输出。比如输出32张，那就先输出20张，再输出12张。比例也是一样的。

输出4张是为了调整关键字，输出20张是为了批量结果然后在其中挑选，输出超过20张那基本脑子有病。

万千：风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风，实际上背景构图姿势全都变了。

人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个：

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图，没有放在首页里，但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取，所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接，看到带着各种报错信息的例子 ，比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了，把日志打到用户侧也实在是太……傲慢。

开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本，不能选模型分类，现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级，新版则是模型乱跑。

不识数的问题更严重了

之前文章说过，有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量，手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了，还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车，你上了车说要去美食城，司机却说美食城有啥好玩的我带你去更好的地方，说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候，却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候，比如「过膝靴」和「过肘手套」，「过膝袜」和「手臂抵住膝盖」，精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚，有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过，4月份更新的时候，多了个敏感词/违禁词提示。这功能不说好坏，至少能让用户知道某些词不能用。现在，没了。

现在的情况，要不就是直接弹个黄框然后没反映，要不就是输出4个你看不到的图片，要不就是在有上文的情况下直接忽视敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成敏感词/违禁词被截图也会很尴尬吧。

更诡异的敏感词/违禁词

（写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块，我目前只能说的确有更诡异的敏感词/违禁词，而且视频生成还有额外的一套敏感词/违禁词，而且还有图像识别用来检查输入图像是否合规，尤其是豆包自己AI生成的图片也有可能无法通过审查，而使用与豆包相同模型的即梦AI的审查更严格）

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是敏感词/违禁词我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧？还是说因为内容主体是女性，只能「喷」而不能「射」？

中国人的AI的想像也能在这一层能够如此跃进吗？

NTM 要是能在内容上精确，而不是在敏感词/违禁词上也瞎「创意」就好了。

是时候破案了

之前文章中有写到过，豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的，这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

（想想看假如真的是国内网站被 DNS污染 ，还挺搞笑的）

在 hosts 里添加了个静态地址，稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开，而且文档也写得稀烂，所以我之前没怎么看过。其实现在我也不想看。

简单来讲，豆包线上用的文生图模型是：doubao-seedream-3.0-t2i，而「参考图/智能编辑」功能其实在学名上是叫做 「图生图」 ，而这个功能只有 2.0 和更旧的版本支持。不仅如此，官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了，模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」功能其实是把图片走了另一套逻辑，进的另一个旧模型，输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度，已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何？

（因为这文章是写完主题后查漏补缺补的，所以顺序有点乱）

这里要用到与豆包使用同样模型的收费工具：即梦AI。

（关于即梦的介绍见文章后部分）

动画模型

我用相同的提示词，不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出，2.0的图片虽然看起来很花俏，但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的（除非当作无目标的玩具瞎玩）

（但是2.0的妹子，胸大，穿得短，露得多……？？？？？？）

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看，毕竟这玩意风格都不一样，简直就是换了个人画画，作画方向不一样，风格也不一样，说不了谁好谁坏。

但是论精度，肯定是3.0的更靠谱，因为这些图片都是在2.0先出图后，在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话（出4张图能有3张图匹配一定的文字描述），那2.0的精度差不多是 1/16 （出16张图能有3张图匹配一定的文字描述）。我只能说「一定程度上」的，因为大部分时候你怎么折腾，3.0都匹配不上，更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿，结果一个坐地上，一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错，手套画错，没画鞋，衣服画错，手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露，你把我参考图/智能编辑的腰搞没了干什么？

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图，假如有人说这是张真人高P图，大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了，3.0原图的细节也被抹掉不少。

人像这块就不用对比了，2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说：豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型，付费服务比免费服务还烂，是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型，不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利，因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具：即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

（能看到使用与豆包相同模型的即梦AI，高版本模型同样没有「参考图/智能编辑」功能）

事实上如今市场上有相当多的AI生成工具，而且大部分都是收费的，仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具，而付费服务价格非常高，作为短期玩具花大钱不值得，作为长期工具，这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的？

之前文中没写过（但是评论里有提到过），现在的AI出图工具一般是有 「积极提示词」 和 「消极提示词」 两种提示词入口的，但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有：

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

（所以我说你把错误日志打印到用户侧实在太过于傲慢了）

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词，不会被用户输入影响。

不仅如此，prompt 还并不是你的文本输入，而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西，而这玩意在报错崩溃之前，你是看不到的，更没办法调整。

更搞笑的是，同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

（把人类当工具，把工具当爹）

只不过 DeepSeek 这玩意吧，你只给一张图片然后让他发散的话，大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有收敛这一个能力，你还让人家发散。

那就顺便把视频生成也讲一点吧

参见这个视频：【AI 参考图/智能编辑 + 图片生成视频效果展示。】

我把部分AI生成的原图片和使用参考图/智能编辑的图片，使用支持首尾帧的AI视频功能穿起来，然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远，所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0，其输出质量也远比图形模型3.0差很远。

结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来，重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」，而且由于文生图和图生图模型之间差异巨大，越整越烂。

不过说到底，豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件，其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能，输出质量虽然一言难尽（模型应该也是1.5-2.0之间的水平，跟3.0差远了），好歹聊胜于无。

相对来讲，豆包反而良心多了。

其他 付费软件 的输出质量更差，我真的理解不了会有什么人高价买会员。

当然，每年都720充魔兽世界年卡然后完全不玩不上线的人，我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年：https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年：

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺？

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

大大大大大美新疆

见字如面

Wannz

2025年5月15日 14:31

在获得了一段久违的自由后，我们就开始了一段说走就走的旅程。

书接上文，在上一篇“这道题答的，还行？”中和大家分享了一下最近的工作变动，而在工作变动之后，一个最直接的问题就是“有这么一大串的空闲时间应该拿来干什么”，变动之后情感上的失落是必然的，所以刚开始那段时间我在行为还是会有一些惯性，比如每天早上 7 点生物钟就把我叫醒了，白天那一长段的时间变得空闲以至于情绪上出现一些不适应的感觉（这个时候你说要立马去学习看书反而会觉得有点假），不过好在蒋老师和朋友们都宽慰了我不少。

前司的同事们也会时不时宽慰我几句“你是有道德的，也是一个好人，但尴尬的是遇到了一个辜负了你的公司浇灭了你的一腔热血，现在既然已经拿到钱了，就别再惦记这边的破事了，千万不要想不开。”

但事已至此，活人也不能被那啥憋死，于是我迫不及待的想找到一个短平快的方法转移我的注意力，并且尝试换个方向抬头继续往前看。当我在冥滩送快递把心态转变的差不多之后，又听到两个朋友也失业了的消息（理由也是出乎意料的一致，公司的投资方认为经营管理不及预期，为了快速上市想出了缩减员工规模的法子），于是我们在短暂而又激烈的讨论之后，就做出了这个决定，四人一队出发去新疆！

之所以选择新疆的理由也很简单，在我们已知的旅游目的地中，好像只有新疆是你需要有一个大串时间安排才能够前往的旅游目的地，而且新疆历来都有“小欧洲”的称号，这里不仅没有语言与食物上的不适应，又能够让你领略到不同风格的美景。于是我们暂时安排了 10 天的计划，打算从成都前往新疆好好的耍一趟！

既然大家在短期内没有其他的安排与计划，那这里的 10 天其实也就设置的比较松散（结果玩了 12 天），不用再像以往一样担心年假和假期是不是好协调，不用担心如果节假日期间的机票涨幅有多凶，只需要让自己慢下来，静下来，做一个纯粹的游客就好了。

我们这几天的安排大概是这样的：

驾驶过程中的路线大概是这样的：

从导航的线路看得出来，这一路行程里几乎大半的时间都是在自驾，但由于新疆的地理风貌非常独特，各种风景都能尽收眼底，再加上大部分新疆高速和国道的驾乘体验都非常好（车少路宽），即使是拿到驾照不久的新手，也都有在路上试试的机会。此外值得一提的是新疆的海拔对大多数游客非常友好，最高的海拔只有在沿 G218 国道驾驶时需要翻越一座海拔 3000 米的高山，此外所有的海拔大都在 2000 米左右，不存在诸如前往西藏自驾游时需要适应海拔急剧变化的过程。

既然选择了自驾游，旅途中的燃油和相关服务费也是我们需要考虑的问题。我们从租车软件上选择了一辆 2024 款的比亚迪宋 Pro，后备箱刚好可以装入 4 个 20 升的行李箱和几个旅行书包，百公里平均 5 个油也显得这辆车的燃油性价比极高，考虑到 SUV 的底盘高度的通过性，我们这一路的驾乘体验还是比较合适的（当然租赁越野车可能更适合的是北疆的沙漠路线）。在这一整趟旅途中，除了轮胎被钉子扎破补胎的 20 块以外，我们的整备费用主要花在了洗车上，连续 10 天的驾驶和坐乘，完全不洗车即影响驾驶又影响乘坐。新疆之旅中的高速过路费+汽油费用加在一起，可能就 1000 出头，相比路上时不时出现的坦克 300，我估计至少省了一半的费用。

那下面就是这一路上的风景汇总了，所有照片都是手机直出，拍的不好还请理解~

在火车旅途中，我们一行 4 人前往餐车就餐，这种传统 K 字头火车中的餐车一般都是承包出去的，味道属于能果腹，但不好吃的，价格偏贵的样子，但好像从我记事以来餐车就一直是这样。

到达新疆之后，我们就前往了和田二街，一方面这里有许多地道饭馆，另一方面这里距离大巴扎也只有大约 10 分钟的路程。有一说一这里的饭馆和食品类型那叫一个琳琅满目，啥都有。但西北的菜品特点就是量大实在，还好我们有 4 个人，不然真的是没吃多少就吃撑了。

薄皮包子，拌面，炒面，烤肉，都是美滋滋。

赛里木湖一圈大概有约 100 公里，但东南西北四个方向的风景都不一样，能看到雪山，云杉，冰棱，乱石，风景非常出片。

我们还抽空去了一趟霍尔果斯口岸，去了一趟这里的经济合作特区但好像意义不大，没玩的没吃的，而且这里的免税购物城听说有很多假货。

在库尔德宁吃的椒麻鸡，味道超级好，还有在当地民宿发现的兰州百合。作为一个兰州人觉得挺神奇，这是我第一次看到兰州百合的幼苗（如果兰州百合不生长在兰州，那还叫兰州百合吗）。

夕阳无限好，只是近黄昏。

我记得那一天的风很大，雾也很大。

本来是想找 windowsXP 同款壁纸的，但是一路感觉比壁纸更美的风景一大把，于是也就忘了这一茬。

虽然是在新疆，但能看到的风景还包括了草原，风吹草低见牛羊的即视感。

在民宿附近吃的丸子汤和排骨，这个排骨是真的带劲，味道极好。

在那拉提的景色也让人心旷神怡，雪山，白云，草原，羊群。

堵车时在对向车道遇到的运输牛群的货车。

返程过程中，高德预估 G218 上的耗时大概有 4 个小时，但实际上由于这里正在修建新的那巴公路，整体的路面养护状况真的是一言难尽，一方面新的公路在头顶架空建设，导致有非常多的工程车和工程段落占用了原本的国道，此外由于我们旅行的过程中独库公路还没有开放，导致所有的车辆都在 G218 道路上行驶。

糟糕的路况加上见缝插针加塞插队的小车，糟糕的天气情况和可视距离，缺少维护与管制的交通情况，都导致这里的耗时远超过我们的预期。我们是在 4 日早上 8 点准时从那拉提/库尔德宁出发的，原定是计划在当天晚上 10 点左右到达吐鲁番的酒店，但因为这些问题，我们在下午 6 点才到达巩乃斯（巩乃斯，是蒙古语中“绿色谷地”的意思，位于伊犁河谷东端，就是下图中左侧的平原部分，我们在这里找了一家川菜馆及时休整，为后续的夜路做好准备）。

从那拉提东门到巩乃斯的这一段路途，大约 30 公里的路途我们开了居然快 10 个小时，人都快麻了。

如果继续冲向吐鲁番可能要在凌晨三四点才能到达。考虑到后续的休整以及依然有大段的驾驶路段，为了保证有充足的休息时间，大家可以及时调整状态，我们就立马修改目的地，前往和静县休息。

从巩乃斯前往和静县的路途中，会经过海拔3050米的艾肯达坂（也就是山口，垭口），这里的路况条件极差，一方面道路两侧的山上还有未消融的白雪覆盖，路面中则是坑坑洼洼的各种炮弹坑，我们驾驶的 SUV 虽然相对轿车有更好的通过性，但毕竟人生地不熟，看着旁边当地牌照本地人开的轿车飞来飞去，还有疯狂提速的卡车挂车，我们也只能按照安全的原则认真行驶，好歹路上蒋老师帮我盯着路况，一同的队友也给了充分的支持和信心，再加上全神贯注的驾驶，终于还是翻过了这一段艾肯达坂。

等我们到达和静县的酒店并完成入住时，已经是次日的凌晨 2 点了。不过好在由于新疆的面积确实太大了，我们认为感知新疆和内陆区域还是有一个“天气意义”上的时差，在这里等到晚上八九点时太阳才开始下山，仿佛在新疆每个人每一天都会多获得 2 个小时的额外时间。所以即使是凌晨的 2 点，体感上也就是按照以往的凌晨 0 点准备休息。

和静县算是一个规模很大的县城了，也被称为新疆的心脏，如果继续从这里出发，还可以到达巴音布鲁克（就是飞驰人生里面的巴音布鲁克），去看看那里的草原，天鹅湖，开都河等等一票美丽的风景。但是连续一整天的激烈驾驶把我们一行四人也累的够呛。眼瞅着前几天的路途中大家都有些劳累了，好像再开下去也没法保持足够的旅游兴致，于是我们就打算老老实实返回乌鲁木齐。至于新疆那些我们还想去游览的城市，只有找下次的机会了。

返回新疆之后我们又去了天山天池景区，但相比前面在那拉提，库尔德宁，赛里木湖的景色，天山天池景区的风景不仅没有明显的优势，而且商业化气息过于浓重，并不能算作是外地游客有必要特地前往的景区。不过好在距离乌鲁木齐往返的时间距离都不是很远，所以这趟行程就也还好。

回到乌鲁木齐之后我们就决定在城区内随处逛逛，印象比较深刻的主要是有以下 2 个景点：

其一是新疆博物馆之旅，在这里不仅能看到伏羲女娲交尾图，五星出东方利中国锦，彩绘天王踏鬼木俑，还可以看到新疆历史上的宗教信仰变迁过程（比如伊斯兰教其实并非新疆的本土宗教，起初甚至属于一种少数宗教，也是在历史发展的过程中才融入称为了新疆本地有一定影响力的宗教之一），以及多年前且至今保存良好的馕（没错，就是馕）。但是我们游览期间楼兰古尸区域在维护没有开展，以至于我们没有机会参观游览，有一点可惜。

其二是刀郎那一句“停在八楼的二路汽车”，这首歌里面的这一句歌词一直有很多的解读，但直到我眼瞅着居然真的有这个“景点”，才明白歌词背后的意义。虽然我不是刀郎的歌迷，但是能够在这样的一个场景里梦幻联动，还是挺有意思。

“八楼”其实是乌鲁木齐昆仑宾馆的所在地，作为当时乌鲁木齐的地标性建筑，一直被大家称为八楼（因为他的主楼一共有八层，而且是当时乌鲁木齐的最高建筑，最好的建筑），“2路汽车”则是当时贯穿乌鲁木齐市南北最主要的一条公交线路，到达所有地标目的地都可以搭乘 2 路汽车（有一点像是我印象中里兰州的 50 路）。

大概十来天的新疆之旅就是这样了，总得来说这一趟旅行是真的很享受，不仅一路上的风景非常舒服，令人眼花缭乱，另一方面来说有这样一个难得的时间享受在其中，充分领略祖国的大好河山，也是一件非常纯粹的事情。

但这一趟旅行我印象最深的还是蒋老师和我说的一段话，她大概是这样说的（原文很朴实，如果你觉得油腻可能是我做了一些~~画蛇添足~~的文学性改写）：

“当你来到新疆，站在大草原上之后，你会发现自己忽然非常渺小。这种渺小会让你觉得那些原本规训了你让你习以为常或沉溺其中的问题都不再那么重要了。你可以听到风的声音，闻到雾的味道，面前是一望无际连接到雪山的草原山丘，背后是暧昧的发红但又可能说变就变的老天爷的脸色。那至少在这一刻，你可以不用那么焦虑，不用想那么多，只是待在当下找到身体里血液和呼吸流通活着的感觉，做自己就好”。

我觉得蒋老师还是很厉害的，有时候像诗人一样，有点牛。

做好 AI Agent 最重要的是什么

bang’s blog

bang

2025年4月27日 18:15

是评测，或者说是基准测试(Benchmark)。

为什么？

因为我们已经有足够的技术方案，只要定义清楚我们要解决的问题（基准测试），就能解决它。

OpenAI 姚顺雨近期提出“AI下半场”的概念，我们已经拥有了

存储大量知识的预训练模型（先验知识），并知道怎么持续训练它
通过这个模型做思考推理并执行动作的 Agent 能力（环境）
强化学习算法

为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用，整个方案已经标准化，能很好地泛化，所有场景都适用，能快速攻破一个又一个的基准测试。

重点会变成，我们应该定义什么样的基准测试？我们已经有涵盖数学推理编程等领域非常多的基准测试，经常大模型发布刷分刷得飞起，但对现实世界的影响却并没有那么大。

显然我们应该定义更能贴近现实世界问题的基准测试，只要定义了，用上述方案就能持续优化解决它：基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。

而定义的基准测试越贴近现实世界，对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题，也是做好 AI Agent 最重要的问题。（AI Agent 就是目前 AI 的代表，大模型有先验知识和推理能力，Agent 给大模型装上环境感知和行动能力，要解决现实世界的问题，一定需要 Agent）

是什么？

什么是贴近现实世界的基准测试？

过去大量的基准测试，基本是封闭世界的固定任务，例如数学题、算法题、围棋、游戏，能明确定义问题、规则、答案，定义这样的基准测试是比较容易的，规则和过程都是现成的，推理也可以属于这一类，大模型发展到这个阶段，解决这些问题也是相对容易的。

但这些任务与现实世界大家日常要解决的问题距离太远，并不是现实世界的环境，因为之前缺乏感知和处理现实世界海量复杂规则任务的能力，现在大模型和 Agent 已经初步具备了这个能力。

目前有比较多横切面上单一维度的基准测试，包括规划能力（PlanBench、AutoPlanBench等）、工具调用能力（ToolBench、BFCL等）、反思能力（LLF-Bench、LLM-Evolve等），也有大统一的通用任务完成能力的基准测试，主要是操作浏览器和操作电脑方面，例如 OpenAI 的 browsecomp （评测复杂信息检索和理解能力），学术界的 OSWorld （评测理解 GUI 操作完成任务的能力）。

但这些横切面或者通用的基准测试，可能并不是用户关心的。AI Agent 要实用，用户角度上更关注的是垂直任务上的能力，例如它能不能帮我写好代码，做好客服，创作出好的故事，给出好的调研报告等。当前行业处于早期，先把基础通用的问题做好基准测试去解决，达到一定阈值后，垂直领域任务上的基准测试才是更重要的。

如果简单分类，可以把这些任务分为两类：目标明确和不明确的任务。

目标明确的任务

现实中有些任务，有很明确的结果是否正确的定义，能像数学那样有标准答案，但过程中又是需要跟现实环境不断交互。典型的是 AI Coding，程序能不能跑通，bug有没有修复，都是能明确验证的。其他的还有像客服、数据分析等。

这一类是最容易被 AI 突破，但要定义出好的基准测试也不容易。

发展得最好的 AI Coding，在这个领域最权威的基准测试是 SWE-Bench，它已经在尽量贴近现实世界去定义问题，以解决 github 上的真实 issue 为出发点，但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右，但实际用起来，Claude 3.5 在可用性上高出一个档次，没有其他基准测试能反应 Claude 3.5 断档的效果，而 Claude 3.7 分数高达70%，但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后，windsurf、cursor、trae、argument 等几十个 AI Coding 工具，他们实际效果差异怎样，如何评测衡量，都是不清楚的。

SWE-Bench 只覆盖了 Coding 的一部分，大型项目理解能力、视觉动画开发能力、代码CR、需求理解等，要补的基准测试还有很多，现在也有 SWE – bench Multimodal、AgentBench、SWELancer 这些基准测试在不断推出试图覆盖。

其他领域还没看到有相关的基准测试。

目标不明确的任务

大部分现实世界的任务，都是结果难以明确定义的，不是非黑即白。例如调研报告、旅行规划、简历筛选面试，各种涉及文字/图片/视频创作的场景，比如营销、故事创作、邮件回复沟通等，结果的好坏很多只有人能判断。

Deepseek 年初的一波火爆，除了各项分数刷爆外，其中有一个原因是它输出的中文质量很好，但这个点并没有基准测试能衡量到，因为确实是很难定义什么样的文字是明确的好，跟文化/偏好品味/逻辑性/多样性等都有关系。

图片视频生成也一样，过了一定门槛后，生成的图片怎样才算更好，也是有很多维度和人的主观判断，目前没有基准测试能做到。

如何做好这类任务的评测？

靠人工：例如对于图片生成，常见的做法是分维度人工打分，给不同模型生成的结果人工打分综合对比，文章/视频也可以是同样的评测方式。另外也有在线盲测PK，做大批量结果PK对比，按总得分区分各模型的排行。对于自己产品内部迭代，也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与，主观成分大，难以形成公认的标准基准测试。
靠模型：模型理解能力逐渐增强，它能拥有人一样的评估能力，就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估，当前像4o这样的多模态模型理解能力越来越强，是能评估出部分好坏。文字也一样，可以有评估模型去评估，模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK，定义好相关数据集、评估维度，就可以是一个基准测试，只是目前模型还没达到能与人工评估媲美的程度。
靠任务分解：不衡量整体结果，只衡量中间可明确定义的部分，把任务部分转成上面提到的目标明确的任务。例如邮件沟通，只评估邮件内是否含有需要的关键信息，旅行规划，只评估是否符合定性的偏好（如最低价）、订机票API调用等操作是否正确。

如果要让 Agent 在各个领域上能很好发挥作用产出价值，可能每个领域都有自己的垂类 Agent，也都需要定义自己的一个或多个基准测试去覆盖这个领域，AI Coding 领域跑得最快，已经有多个，像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务，每一类任务可能都需要一个基准测试，去衡量谁在这个任务上做得最好，去促进这个任务成功率的提升。

如果要做一个垂类 Agent，最值得做的是把基准测试定义好，比较像软件开发的TDD(测试驱动开发)，在 AI 时代这种做法可能更重要，它明确问题定义，指引优化方向，提供优化数据，不会受到模型升级的影响，是这个领域 Agent 的重要资产。

附：

大模型基准测试大全：https://github.com/onejune2018/Awesome-LLM-Eval

《Survey on Evaluation of LLM-based Agents》：https://arxiv.org/abs/2503.16416

HAL（批量跑 Agent 基准测试的框架）：https://github.com/princeton-pli/hal-harness/

这道题答的，还行？

见字如面

Wannz

2025年4月17日 12:26

毕业了，下一步还需要继续拥抱变化。

春节之后火急火燎的去北京客户现场出差了 2 个月，刚回到成都又开始马不停蹄的支持公司的销售同事去拜访客户交流介绍产品的第二天中午，我接到同事的打探问我公司有啥安排，过了一会就接到了 hr 的消息说下午要打个电话，紧接着下午就告诉我这次要毕业了。

可能是大环境不够好，可能是经济不景气，可能是组织管理上出了一些问题，可能是投资人想收拢资金资产清算，可能是太阳黑子导致的大气电离环境异常，但实际的事情结论就是要从这家待了快 5 年的公司毕业了。我接到 hr 电话的心态反而不是预期中的失望和愤怒，而是保持着职业性的体面后接纳了答案。

好像事情在发生之前也总有隐喻的线索，自从前两年大股东时不时介入公司的日常管理之后并且伴随每一次的爹味与 PUA 之后，我总能感觉到公司里那股腐朽又潮湿的味道开始扩散，紧接着是在北京出差时，听到来自总部的同事说宁可在北京多待几天，也不愿意回到深圳办公室里上班，感觉有一点像是温水里煮青蛙的故事，我们这些青蛙一方面觉得当下的做法无益于长远发展于提升产品与团队的价值，另一方面又觉得不能空手走人，总得混到拿 N+1 的时候才行。

我先是在脑海中习惯性盘算这一次要毕业的同事人数占据了研发部门的三分之一，随后开始分析这一次公司下发新决定的原因，紧接着我又停止了这一次的分析与复盘，毕竟从当下开始，这些已经重复了无数次事情都开始与我无关了。相对而言，坚持一个我们熟悉的、无效的解决方法却会让自己更舒适，这是一种很常见的，自相矛盾的人类行为。

随着木已成舟，一座新的围城又出现了，毕业的朋友和那些还没毕业的前同事互相开起了玩笑，人人都说能早毕业就早毕业，但好像大家脸上的神情更像是被驯化的牛马在解开羁绊之后反而生出的不释然，虽然获得了自由，但也失去了暂时的经济收益。这几年几乎每一篇关注过的公众号都会发一篇“很严重了，我劝大家勒紧裤腰带过日子吧……”的广告，虽然早已耳闻“毕业即失业”的形势严峻，但当潮水卷到自己身上时才会感觉到潮水的冰凉吧。

但好像也没有一个明确的算法和公式来衡量每个人在这里的 ROI 是否公平且合理，随着向上管理的风气和权责不一致的风气越来越严重，大家普遍也对老板们失去了信心，能够说服自己“受人之托忠人之事”也变成了我安慰自己为数不多的理由。当然这件事也并不能归因在某几个人或者某几个角色上吧，可能大家都有自己的难处和说服自己不去改变的理由？

可能是习惯性的敏感性格，我早在前两年就在说服自己尝试改变，尝试责任心别那么重，尝试在工作中不去那么主动，尝试在日常中少去发挥点自己的热心，但按照目前的结论来看，好像没成功，只是说服自己内心的感觉能够好受一点，为了避免找工作中出现太长的 GAP 我提前把自己的线上简历都修订更新了。

刚接受离职消息的时候心态还没有很大的变化，但好像其他人会比我更敏锐的察觉到我的表现，借用同事的那句话“看的出你还是有点不舍和不甘，毕竟自己辛苦做出来的产品说没就没了。我们没你这么复杂的感情，心思早都不在这里了。”刚接受毕业消息那几天，我还因为之前出差北京时候答应承诺，陪同销售同事拜访客户（属实是资深牛马），路上别的同事听到我还在支持销售都大吃一惊。

等到真的回归到空闲的环境里，我才开始感觉到心态上的异样，习惯的生物钟和查看消息的行为忽然就不用再维持了，计划许久但搁置更久的自驾游和游泳忽然可以随时就绪了，但就像被驯化已久的螺丝钉一样，没有了那个日复一日年复一年的螺丝帽，心里还真的会有点别扭，仔细想来别扭的背后其实是来自内心的恐惧，职场中需要以结果论英雄，但生活中则是以过程论好坏；投递简历但面试机会寥寥又会进一步逼迫自己承认陷入了泥沼一般的困境。

但相比前几段工作而言，这段工作经历又确实让我在某些方面收获良多，PMF/GTM 也好，AI 应用和报价策略也罢，那些最原始的“好奇心+实践主义+颠覆定义+合作赋能”的习惯好像也还是有所提升。更别提还陆陆续续收到了 20+ 不同岗位同事发来的安慰和贺电，要么是说和我在工作中的相处十分愉快（用了“和别人不一样”的字眼），要么是对我的专业技能进行了认可（用了“找不到像你这么好的产品”的字眼），这给我也搞的有点不知所措了。

作为想给自己一个交待，我向老板要了一份推荐信想看看会获得怎样的评价，信上是这么说的“工作中他展现了专业的产品规划，方案设计，敏捷的流程管理，积极的协作能力，及良好的执行力等多项综合能力。同时他兼具创新思维与务实精神。擅长在资源有限的环境下定位客户痛点，帮助客户解决问题，他的沟通风格简单且富有责任心，无论是面对客户的复杂需求，还是支持跨团队的工作，都能以专业态度达成共识。我深信，他在复杂产品体系搭建、跨职能团队管理的经验，将为贵团队带来显著价值。希望这封推荐信能帮助他开启新的职业篇章，同时也为你们未来合作留下良好口碑。”在国内的求职市场里推荐信的意义不大，更别提对比尤雨溪在 Twitter 中打广告的那种影响力，但至少这个推荐信算是补充了我在同事和公司角度里的多维评价，肯定了我的专业度，责任心，创新性和靠谱的特点，不至于让我过多内耗。

作为一个习惯于靠他人的认可来提升自我承认的内向人格，这确实是所剩不多的好事，那我就自认为这段工作经历的卷子上，我的答题结果还行了（或者厚脸皮一点，答题结果不错）。

大学毕业的时候，我们那些结下深厚友谊的同学们一边吃烤串一边说“聚是一团火散是满天星”，这次毕业的时候，我反而不再期许每个人都能成为夜空中最亮的那颗星星，用亮度评价星星可能并不是最好最公平的指标。那我就祝每个人都能成为最快乐或者最自洽的星星吧（哪怕是一颗快乐的或者自洽的彗星也行）。

👇 广而告之板块

欢迎 base 成都地区的小伙伴帮我内推产品岗位机会，线上简历见 https://hiwannz.cn/

如果遇到网络情况不好无法阅读，或者希望拿到 PDF 格式简历，欢迎与我联系。

观“古蜀瑰宝—三星堆与金沙”文物特展

雅余 · 茶余饭后，闲情雅致

雅余

2025年4月12日 20:35

“古蜀瑰宝—三星堆与金沙”文物特展从今年年初五开展，今天赶在撤展前一周去走了一下。展览展出来自三星堆博物馆、四川博物院、成都金沙遗址博物馆、成都博物馆、四川省文物考古研究院及成都文物考古研究院六家文物收藏单位的藏品163件（组），其中一级文物36件。之前看过几期相关纪录片，看实物还是第一次。感叹古人之精湛技艺，真怀疑外星人来过。

展览前言

中华文明，亘古及今，延绵不绝，五干年文明史先后发祥，如满天星斗，逐次凝聚，融汇出开放包容、创新创造的华夏瑰宝。位于中国西南、长江上游的四川盆地，是多元一体中华文明的起源地之一。从史载阙如到一醒惊天下，大量惊世发现让四川古代文明的璀璨画卷徐徐展开，更让世界对中华文明有了新的认知。
上世纪90年代以来，成都平原史前古城址群的发掘，再现了远古成都的文明曙光；三星堆和金沙遗址的腾空出世，大量气势磅礴且文化特征鲜明的珍贵文物震憾出土，揭示了古蜀王国曾经的辉煌；马家大墓、商业街船棺墓地等晚期蜀文化遗存则让传说中的开明王朝呈现在世人面前，更实证了古蜀融入中华文明的历史进程……一幕幕考古巨篇，串联起古蜀之地昔日的繁盛图景，更映照出中华文明的辉映互鉴、水乳交融，让古蜀文明成为中华历史长河中的一颗璀璨明珠。
泱泱华夏，历史绵延干载不息；锦绣天府，文明铸就千古华章。愿以此展览让大家共享四川古代文明之菁华，体悟中华文明数干载的积淀与传承！

观“古蜀瑰宝—三星堆与金沙”文物特展-雅余 — 戴金面罩青铜人头像，约公元前1300-前1100年，986年2号坑出土，三星堆博物馆藏

三星堆遗址出土的青铜乌足神像通高约253厘米，是由1986年二号坑出士的铜鸟足人像、2021年三号坑出士的爬龙铜器盖、2022年八号坑出士的铜顶尊撑墨曲身人像、铜持龙立人像、铜杖形器等部分组合而成。整器为倒立的人身鸟足造型，双手按罍，头部顶尊。尊盖上有一立人，头戴高冠、双手握龙。这一罕见的青铜艺术杰作体现了中原商文化与古蜀地域文化的完美结合。

展览结语

中华文明是人类历史上唯—未曾中断的原生文明，具有强大的凝聚力、延续力和融合力，表现出多元一体、连绵不绝、兼容并蓄的文化特质。虽然古蜀国退出了历史舞台，但古蜀文明与中华各地区文明如百川汇流，相与为一，融合发展并延续至今。
万物有所生，而独知守其根。今天，我们在这里见证的不仅是古蜀人民杰出的创造力和非凡的想象力，也是中华文明融会创新的智慧结晶，更是人类文明对自然、宇宙、生命、艺术等共同主题的深刻探索与不懈追求。
铿锵有力的古蜀旋律悠悠回响，中华民族的精神根脉生生不息。

By 徕卡 D-LUX8

Browser Use 原理解析-为一个小项目能融1700万美元

bang’s blog

bang

2025年4月7日 20:29

Browser Use 成为近期的明星项目，两个人的纯技术开源项目，核心代码 8000 行，融资 1700 万美元，让人好奇它具体做了什么，为什么这么值钱。

做了什么？

简单说 Browser Use 让大语言模型对网页的识别和操作的效率、准确度变高了，有利于 Agent 完成任务。

目前要让 AI Agent 完成任务，可以直接让 AI 浏览网页，像人一样去理解页面，执行操作，之前一般的做法主要靠截屏：

其他产品（Anthropic 的 Computer use、OpenAI 的 Operator 等）操作 GUI，主要靠 VLM 识别截屏，再输出要操作的坐标位置，Agent 执行操作。
在这过程中，web 的源码也可以加入上下文，让模型获得更多信息，但 web 源码内容太多，信息噪音太大，token 消耗也高。

而 Browser User 对 web 页面做了结构化处理，翻译成大模型友好的格式，再输入 LLM 识别。举例 Google 首页：

1.Browser use 会在页面上嵌入脚本，遍历 DOM 结构，找出页面上的元素，显式打上标记：

2. 转换为以下纯文本：

[Start of page]
[1]<a Gmail >Gmail/>
[2]<a 搜索图片 >图片/>
[3]<div />
[4]<a false;button;Google 应用/>
[5]<a 登录/>
[6]<img />
[7]<div />
[8]<textarea 搜索;false;q;combobox;Google 搜索/>
[9]<div />
[10]<div 按图搜索;button/>
[11]<input button;Google 搜索;btnK;submit/>
[12]<input btnI; 手气不错 ;submit/>
[13]<a English/>
[14]<a Bahasa Melayu/>
[15]<a தமிழ்/>
[16]<a 关于 Google/>
[17]<a 广告/>
[18]<a 商务/>
[19]<a Google 搜索的运作方式/>
[20]<a 隐私权/>
[21]<a 条款/>
[22]<div false;button/>
[23]<div 设置/>
[End of page]

内容格式极简，关键信息都有，提取了所有可交互元素，模型完全可以通过这些信息“看”和“操作”网页。

例如要执行搜索，模型很容易判断搜索框是索引为[8]的元素，Agent只需要把元素[8]对应的 XPath 拿出来，获取到页面上对应的元素，执行操作就可以。

所以 Browser Use 使用非多模态的模型例如 Deepseek 也可以跑起来，不依赖截图识别。但如果是多模态模型，截图也默认会一起输入模型，提升识别准确率。

Browser Use 核心就是做了这个点，剩下的就是怎样把流程串起来。

实现细节

核心代码包括四个部分：agent 负责决策和串流程，controller 负责转换决策为具体操作，dom 负责网页分析，browser 负责与实际浏览器交互。

agent：实现了个小型 AI Agent，负责串起流程，管理上下文信息，决策生成下一步指令，让 Browser Use 可以一步步完整执行一个任务（例如购买机票），这也让 Browser Use 变成易于集成为 Agent
1. service.py 实现了典型的 Agent 的 ReAct 模式，推理 → 执行步骤 → 模型观察结果下一步。可单独配置 plan 模型。
2. message_manager 管理消息历史，并做了一些类似敏感数据过滤、图片内容处理等。
3. memory 实现记忆功能，基于mem0，但目前应该只实现了一半，只把每步存起来，没有调取使用。
controller：负责控制和执行浏览器操作的高级指令，是连接AI代理和浏览器操作的桥梁。
1. registry/ 实现了 Action 的注册和管理能力
2. service.py 定义和注册了所有可用的浏览器 Action，click/go_to_url/input_text等。
dom：对 web 页面的处理和分析，生成上述 AI 友好的文本结构。
1. buildDomTree.js 是嵌入页面的 JS 脚本，遍历 dom 过滤出可交互元素，绘制高亮框等。
2. service.py 操作 JS 注入、节点信息获取、跨域处理等能力，views.py 提供 DOM 节点在 python 的数据模型。
browser：对接 Playwright，在它上面封装了一些能力。
1. context.py 管理浏览器上下文，以及一些细节功能处理，像标签页/导航管理、截图、定位和获取元素、URL白名单检测、文件下载处理等。
2. browser.py 封装了浏览器实例的创建和配置。

它也用到了很多开源项目和服务：

Playwright：微软开发的 web 自动化测试框架，核心是提供了用代码命令操作浏览器的能力，这能力刚好是 AI Agent 需要的，Browser Use 只需要基于它做上层开发。如果只需要浏览器的能力，官方也有封装的 MCP 服务(github.com/microsoft/playwright-mcp)
LangChain：Agent 基于 LangChain 构造，主要用到模型调用和 message 管理。
Laminar：trace / 评估 AI 产品的服务，Laminar 对 LangChain / OpenAISDK 等框架做好了适配，加一行代码就可以对 Browser Use 整个 Session 调用链路调用过程进行追踪和评估。Laminar 跟 Browser User 一样也是 YC 初创公司，开源→服务的打法。跟另一个项目 openllmetry 类似，都是基于 OpenTelemetry 做 AI 的监控分析工具，这个赛道也很卷。
posthog：数据采集，让 Browser Use 的作者能更好知道项目被使用的情况，会收集一些使用数据上报到 posthog，Agent的执行过程都会上报，对数据敏感的可以关了。
mem0：专为 LLM 提供的记忆层服务，分级存储用户信息、RAG 召回、易用的 API。也是开源+服务的模式。
浏览器服务：Browser Use 支持连接远程的 Browser 服务去执行任务（这也是 Playwright 支持的），官方文档里推荐的就有 browserbase.com、anchorbrowser.com、steel.dev、browserless.io 这几个服务。

其他就是一些配套实现了，gif 动图、多种模型调用的 example、test case 等。

为什么这么值钱

一个并不复杂的开源项目，得到市场这么大的认可，事后分析，可能是因为：

是 Agent 的核心基础设施
1. Agent 跟现实世界交互，最优方案是通过 API，而不是 GUI 界面，所以基于 MCP 统一协议封装 API 是当下一大热门。
2. 但绝大多数服务没有 API，只有给人类提供的 GUI，现阶段要让 Agent 用处更广泛，还是得让它能理解、使用 GUI，而 Browser 是 GUI 的主要容器，在现阶段就是最核心的基础设施之一。
有很高的上限
1. Browser 足够复杂，需要持续迭代，优化识别率、上下文管理、新的评测机制、探索模型上限等，深耕能形成壁垒。
2. Browser 一定有很强的云服务诉求，要各种上层 Agent 自己部署容器和 Browser 成本太高，商业化路径清晰。
在这个领域做到了 SOTA
1. 据 Browser Use 自己的评测，在 WebVoyager Benchmark 上获得业界最好的效果：
2. 从近期声量、github 的活跃上看，稳居头部。

有需求，有商业化，有流量，在这个时间点让它很值钱。

想法

长期看，模型直接理解截屏是更自然更能 scale up 的做法，所有信息截屏都有，大模型应该像人一样能准确识别和操作，模型公司应该会一直在这条路上尝试。
Browser Use 是在模型能力不足时期的中间优化方案，如果这个时期足够长，它就价值很大，如果模型很快突破，它就会失去价值。
可以用同样的思路复刻 Mobile Use，iOS / Android 都有现成的 accessibility 能力，能拿到当前界面结构化的数据，只是会有沙盒的各种限制，这事很适合系统厂商去做。桌面端应该也可以。
Agent 上下游相关配套基建都处于起步阶段，小团队很有机会把其中某个点做出彩。

周末澳门 City Walk

雅余 · 茶余饭后，闲情雅致

雅余

2025年3月30日 17:01

天气不太好，飘着毛毛雨，阴沉沉的。今天无法去爬山，索性到澳门走走，没有什么目的，纯粹的在大街小巷里面瞎逛。还是选择我最喜欢的湾仔口岸坐船过海。这里过关的人非常少，船票25元/人，准时开船，3分钟左右到达对岸。下船后就可以直接逛，走15分钟可以到葡京。可以“湾仔口岸”公众号买票，“掐点”到口岸。如果从拱北过关，弯弯绕绕，30分钟可能还在关闸，然后还得等车转公交。

下船后，穿过小巷子，可以看到墙上不少涂鸦。

不时还会路过一些小街道，“里”。“里”是指双向都开口，一些较长的巷道。

还有一些夹在古老建筑中间时尚的商场。

在澳门瞎逛，你还会遇到不少教堂，都很精致。可以专题走一次，会收获不少。

午饭时间，已经在澳门瞎逛了 15000 步，急需填补肚子。好不容易走到一家评分4.9的茶餐厅，结果没开门。正当我对着门口纳闷的时候，一位路过的澳门本地阿伯跟我说这家逢周日休息。周日游客最多的时候居然休息！！好心的阿伯给我指路，说本地人喜欢去一个“街市”（菜市场）吃饭。吃饭的地方在“街市”上面，有电梯，右转再左转，如果左转再右转怕我找不到，听得我云里雾里。

终于，我们在关帝古庙的边上找到了这个地方。

吃饭的地方就位于这栋“营地街市市政综合大楼”上面，实在看不出来。

上到3楼后，发现别有洞天，真的是本地人的食堂。香味扑鼻，价格实在，如果你想找地道的吃食，建议你来试试。

上午10点过澳门，下午2点半回，结束周末澳门 City Walk，一共走了21000步。

“街市”以上照片 By 理光 GR3
“街市”后的照片 By iPhone 12 Pro Max

GTC 2025 见闻

bang’s blog

bang

2025年3月28日 21:50

参加了 NVidia GTC (GPU Technology Conference)，由于英伟达的地位，这会也已经成了 AI 开发者最大的交流会，很多公司和业内人士都会过来分享、交流，大概写下会议中相关见闻感受。

Keynote

老黄没提词器洋洋洒洒讲了两个多小时，出了小状况还会开个小玩笑，大佬范很足，也满满的理工男既视感，非常多的数字和未经包装的细节，不过感觉会讲得有些啰嗦。

总的来说，核心论证的是世界对 GPU 诉求会越来越大，而 NVidia 在 GPU 这个领域会持续遥遥领先。

GPU诉求

计算机的核心从 CPU 转向 GPU，上个时代依靠程序员写代码指挥 CPU 执行指令解决问题，构成了现在庞大的 IT 产业，程序员是中心。现在的时代逐渐转变，GPU 生产的 token 逐渐能解决越来越多的问题，能思考，能生成代码指挥 CPU 去执行解决问题，计算的核心一定会转向 GPU，世界对 GPU 的需求只会越来越高。

给 AI 分了四个阶段，Perception AI → Generative AI → Agentic AI → Physical AI，不是很认同，Agentic 和 Physical 都是 Generative AI 的延续，不过无所谓，可以看到 Agentic 这个概念实在是火爆。

Scaling Law 没有停止，Agentic AI 需要深度思考，深度思考有新的 Test-time Scaling Law，越多的 token 输出效果越好需，要多轮理解和工具调用对 token 的消耗更是指数级上涨。

Physical AI 要更好地理解现实世界，声音/视觉/触感，都会比纯文本思考对 token 消耗的诉求更高，像 2G 时代看文字新闻，3G 4G 图片，5G 视频一样。

这两个发展中的领域对 GPU 的需求只会越来越高，Deepseek 做的优化也不足以影响这个需求的增长，这个市场不容质疑。

NVidia 优势

GPU 需求量是高，但未来大家一定会买 NVidia 卡吗？当然。NVidia 这一代 blackwell 算力是 hopper 的 68 倍，下一代计划明年推出的 Rubin 算力是 hopper 的900 倍，一年一迭代，远比摩尔定律快的速度，还做了大量的大规模部署的优化，省电、稳定，号称买越多，省越多，赚越多，竞对看起来会很难追上。这些论述还是挺能让人 buyin 的。

Agentic AI

Agent 的相关 session 有接近 200 个，Agent 集合了几个元素：

概念火，一些涉及 Workflow/RAG 什么的 AI 应用都统一称为 Agent 了，GenAI 在各行业的落地都可以冠以 Agent 的名义，跟以前 H5 那样，不纠结于具体定义，只要有一个统一称呼。
人群广，Agent 目前主要是在上层的工程架构上，大量的工程师都能理解、参与讨论、建设，不像基础模型训练，多数人难以参与。
应用广，非研发也能大概听得懂，涵盖了 AI 在各行业的应用这个课题，各行业都会有兴趣了解 Agent 是什么，自己业务上能怎么用。

所以 Agent 相关的 session 大部分都很热门。听完一些的感受：

多数做企业服务、云的公司都在卷 Agent 的基建和解决方案，像基础设施公司 Fireworks AI、Nebius，数据库公司 Couchbase、datastax，企业服务公司 serviceNow、Dropbox，新兴公司 huggingface、langchain、langflow 等，都来分享推广在 Agent 这事上能提供的能力和服务。
Agent 相关的建设都在刚起步，基本都是在分享概念、工程问题的优化和应用方案，没看到有涉及模型训练去优化 Agent 效果上限的相关分享。Agent 的一些关键课题上一篇文章有提到，基本差不太多。
也没有讨论 Agent 在工程和模型上的界限，后续端到端的模型进步，能吃掉多少 Agent 能做的事？这两天 4o 的图生成出来后，预计后面才会有更多的讨论。

NVidia AI 基础服务

NVidia 作为领头羊，是希望自己能覆盖 AI 全链路基础设施的，大力在 AI 的每一层都提供了相关框架、服务、能力，这次会议上也有非常多的分享和推广。

其中跟 AI 应用 / Agent 相关的几个基建：

BluePrint：应用蓝图。给了很多 AI 应用场景的 example 工作流（也称为 Agent），例如 PDF 转博客、数字人应用等，提供工作流架构、数据集、源码，可定制，供开发者快速参考和部署。
NIM（NVIDIA Inference Microservices**）**：模型推理。把模型推理封装在 Docker 容器里，可以直接快速部署，对外提供标准化API。也封装了模型在不同 GPU 型号下的优化，提升性能效率。
NeMo（Neural Modules）：模型训练。提供了相关工具用于构建、定制、训练 AI 模型，训练后的模型可以通过 NIM 部署。
AgentIQ：开源 Agent 开发套件，支持组合链接不同框架创建的 Agent，提供性能 profiler、评估、UI 界面等工具。

这些基建的声量比较低，国内没怎么见到，不确定海外使用情况怎样。

多个 session 都在推广 NVidia 的 Video Search and Summarization Agent，串联从视频的获取→分割→VLM识别、CV物体识别和跟踪→数据处理存储和RAG召回→用户对话整个流程，做到可以对视频提供实时分析和报警，也可以自然语言交互查询视频内容，边缘部署，适合用于监控，算是用 NVidia 技术栈做 AI 应用的一个标杆范例。

AIGC

关注了下视频 AIGC 相关的几个 Session

在好莱坞干了几十年的视觉效果的 Ed Ulbrich 开了个公司 Metaphysic，以前的电影特效制作成本巨大，对人的处理还很难跨过恐怖谷，而基于 AI 技术做特效，用完全不同的技术栈，效果好成本低，是一种颠覆。metaphysic 给娱乐行业提供人脸替换、数字人的服务，看起来是用的 GAN，在人物换脸技术上，GAN 还是更能做到稳定和实时，特别是实时这个点，基于 diffusion 很难做到。基于市场需求，利用已有的不同技术(甚至是上一代技术)深入解决问题，是有空间的。
PixVerse Co-Founder 在一次对话中聊到，视频实时生成的能力差不多要 ready 了，目前 5 秒的视频可以做到5-10秒推理完成，可能会解锁新的人跟视频的交互方式。不确定质量怎样，质量达到一个阈值，以前设想的很多类似自定义剧情走向的新玩法新交互有很大空间。
Adobe 和 OpenSora 都来分享了视频生成模型的训练和推理的方案和优化，鉴于已经不是SOTA模型，可参考性不高。TCL 分享了AI电影制作，很惊讶这公司竟然在做这个，更多的是在做链路串联，而不是端到端的视频模型。

其他

OpenAI 只来了两个人给 blackwell 架构站站台，Anthropic 一个人也没来，从这上看，这行业最领先的技术还是很 close，毕竟是核心竞争力，而且很容易被复刻，不像上个时代，大规模并发架构等技术，更重的是实践中解决具体问题，大方案分享了问题不大。（所以 DeepSeek 开源最领先的技术带来的冲击才会那么大。）
DeepSeek 就是 Reasoning Model 的代名词，开源模型的顶流，出镜率极高，老黄的 keynote、各种演讲里都有它的身影，而 llama 通常是作为上一代开源模型与它做对比，只要是提供开源模型部署服务的公司（HuggingFace/Fireworks等），分享里都会对 DeepSeek 极度推崇。
遇到不少学生来参加，有的来找方向，看看业界前沿在做什么，做学术交流，找合作机会，这个会是挺合适的。清华、中科大、SJSU。最大的问题是实验室没有足够的卡，这领域是必须校企合作，实验室才进行得下去了。
使用 Nvidia Jetson 做边缘计算也是预期后续空间比较大的方向，设备端部署模型，可以提升实时性和隐私性，多数分享是用在具身智能上，还有一个分享的场景是在货架上实时分析用户行为，更精准推送广告。
机器人、自动驾驶的 session 也很多，数字孪生是提得比较多的（用 AI 生成仿真环境，用于机器人训练），但现场没看到什么能震惊人的机器人，包括老黄演讲时演示的类 wall-e 机器人，惊艳不够，这一行感觉还早。

总体感受，眼花缭乱，人潮纷杂，在开拓视野以外，大会更多是一个社交场所，推广产品/技术/服务，促进合作，这类大会需要的是多创造一些面对面交流的机会。

花絮

现场有限量的原价 5080、5090，知道时已经不可能排队买到。
跟七年前参加 WWDC 在同一个地方，估计一直还是同一个承办公司，午餐还是那么难吃。
参观 NVidia 工区，老黄作为华裔也是信风水的，新办公楼会模拟依山傍水的设计，风水好。NVidia 搞渲染出身，渲染里三角形是最基本单元，所以办公楼都是三角形元素。办公环境很宽敞，但没啥人，总部居家办公没有限制，很多都不来公司。

LangChain 作者聊 AI Agent 的几个相关课题

bang’s blog

bang

2025年3月24日 15:58

参加 NVIDIA GTC 会，其中一场听了 LangChain 的作者 Harrison Chase的分享《AI Agents in Production Insights and Future Direct》，聊了 Agent 当前遇到的一些问题和他的想法，包括 Planing，UX，Memory，Reliability，Deployment，Multi-Agent，也结合我的理解说说这几个课题。

Planing

任务规划是 Agent 的核心，这个课题是进展比较多的，业界解决得相对比较好，核心是 o1/r1 推理模型的出现和不断增强，让规划能力上了一个台阶，这也是 agent 能起来的基础。

但模型本身目前解决不了所有问题，还需要工程上的一些策略和串联做优化。例如 Tree of Thought 让任务不是以线性一步步执行的形式，而是生成解决问题的多个节点，多角度思考问题，形成树结构的任务，评估节点的价值，在里面寻找最优解。 Reflexion 会有 Evaluator 对各种反馈（工具调用结果/模型输出/用户指令）进行反思，梳理改进方向，也会把反思结果作为知识库经验，指导后续的任务。

这些策略链路是需要有一个工程流程把他们串起来的，这个工程链路的构建也是 Agent 在 Planing 能不能做好的关键因素，langgraph 和众多 Agent 框架服务都持续在做这个事。

UX

Agent 的交互应该是怎样的？

Devin 多窗口，有聊天框发送指令、又能实时看到 Agent 在怎样用浏览器、命令行、编辑器，是不错的交互。

大部分 Agent 会是后台异步运行的模式，可以让它直接跑在后台，在需要人类给出反馈处理的，用类似邮件 inbox 的方式交互，Agent 发邮件给你等待指示，你回复邮件给输入。

相较于交互界面形态，交互的策略可能更关键。Agent 在执行任务过程中，

用户是否应该能随时中断并提出新的指示？
Agent 应该在什么时候暂停任务等待用户反馈再进行下一步？
用户指示应该用表单一次性收集，还是一步步收集？

如果做每一步都要用户反馈做指示，那是非常枯燥不好用的，如果完全不需要用户反馈，那做出来的东西可能不符合用户预期的概率高很多。模型应该能做好这里的交互策略，但目前还没看到有特别好的实践。

Memory

长时记忆是个有意思的话题，杨立昆在对话中也有提到，记忆这个课题是值得研究的方向，现在是缺乏突破和讨论的。

现在的 Agent，普遍都只有知识库 RAG 而没有记忆，记忆不是知识库，或者说知识库只是记忆的一种。

记忆应该跟人类一样，模型能记住和学习交互过程中用户给到的信息和偏好，在每次推理过程中发挥作用。

它跟 UX 相关，如果模型能理解记住用户偏好，用户的反馈交互就可以减少。

它也跟 System Prompt 的优化相关，System Prompt 是激活了模型按某个方向去做推理预测，记忆也应该是在模型推理的过程中发挥作用。

简单做的话记忆可以作为 System Prompt 的一部分去影响模型，更彻底的可能应该是能持续内化到模型内，或者以新的模型架构去做这事。

现在的应用场景还没到记忆是必选项的程度，但要做 AGI 或者要 Agent 好用这块必不可少。

Reliability

主要是指 Agent 能不能稳定地解决同一个(或同一类)问题。

Agent 跟之前的软件工程不同，受限于模型输出的不稳定，整个系统的可靠性是远不如传统工程的，用户输入同样的或差不多的需求，agent 不一定每次都能解决问题。

模型输出的，一是会受用户对任务描述的影响，可能描述不准确，可能会有歧义。二是受模型本身不够聪明的影响，近期模型能力越来越好，解决了部分问题，但仍是不稳定。

保持 Agent 输出的稳定性，是一个非常需要持续迭代优化的工程，搭一个 demo 容易，持续优化难。

Agent 节点多，需要能看清每个任务节点的详细情况，有问题时知道问题出在哪里，需要有效果评估的测试能力，也需要框架有能力比较方便地在过程中对模型的输出进行评估实时纠错，提升稳定性，这些配套 langchain 相关生态都提供了，NVidia 这次开源的 AgentIQ 框架也基本涵盖了，还有很多框架服务也在做。

Deployment

Agent 要在线上跑，相关部署基建现在也还没有很完善，它跟传统工程链路还是有一些区别，主要是链路长、耗时长、成本高。提供 Agent 部署的服务应该针对这几个特性做好相关基础设施。

稳定性：整个 agent 链路很长，每一个环节调用如果成功率是 99%，平均要调用十次接口的 agent 成功率就只有90%，而大模型的接口往往也不稳定，如何保证成功率？重试策略、排队机制等，这些都是 agent 工程基建应该做的事。
性能：当前 agent 处于效果大于耗时的阶段，只要效果好，五分钟输出还是十分钟输出都可以接受，但真正规模化应用起来时，性能问题肯定也是重点，整个链路耗时太长，可优化空间会比较大，NVidia 对 agent 的分享也提到了，很多任务不一定要串行做，可以并行化节省整体耗时。
监控： Agent 线上跑的效果怎样，准确率多高，有没有安全风险，应该有直接可用的相应配套。
成本：如果 Agent 全程用最好的模型，跑一次十几分钟的任务可能要几美元的成本，前期问题不大，效果优先，粗放式探索，后续真能规模化上线应用，成本这里的优化空间会比较大，用不同的专家小模型处理不同的任务、做好模型 – GPU 卡适配优化推理（NVidia NIM 提供了相关能力），都是可优化的方向。

Multi-Agent

预期后续会有非常多的 Agent 出现，Agent 跟 Agent 之间如果能相互联系，能形成新的智能体，但 Agent 之间应该怎样通信？

这里的通信不止是把 Agent 当成一个黑盒，给指令 – 输出结果，而是能深入 Agent 内部的通信，上下文共享、中间步骤共享、过程中的协作、用户操作插入等。

目前没有一个标准，各项目都是自己的一套，业界可能需要这样一个标准，能实现把使用不同框架、不同服务上部署的 agent 连接起来。

MCP 是近期在快速发展的标准协议，很有前景，但它只是把工具工具调用标准化了，对 Agent 和 Agent 相关的协作是没有定义的，可能需要另外的协议。

上一篇文章刚好探讨了这个内容，用 Agent as Tool 的方式，把 Agent 当成工具的一种，基于 MCP 去做，好处是架构简单，Agent 可复用性高。

但它只把 Agent 当成黑盒 Tool 去使用，给指令 → 输出结果，Agent 之间更深入的联系是没有的。我们也在尝试，给这个 MCP 子 Agent 输入主 Agent 的上下文，同时这个子 Agent 也可以流式把每步处理过程上下文输出给主 Agent，这样就可以实现 Agent 之间的上下文共享。同时也可以继续做更深入的交互定义，比如子 Agent 与用户反馈交互的流程协议。

目前这些协议都需要自定义，但以 MCP 、以 Agent as Tool 去定义标准的 Agent 间交互协议，也是可行的，MCP 可以把这套交互协议也定了，可能是 Anthoropic 很好的机会。

上述这些基本是工程上的事情，这次 GTC 很少有人讨论到 Agent 在数据收集/模型调优上的实践，基本是直接使用基础通用模型，但要提升 Agent 的上限，应该是需要专有模型并能支持端到端训练的形态，待探索。

从 AI 编年史到继续发呆

见字如面

Wannz

2025年3月23日 16:35

这是一篇来自近期工作发呆时的思考（说做是总结和记录可能更为恰当）。

从2024年的中下旬开始，公司就一直和我们铺垫说有一个客户在项目交付中出现了一些问题，由于项目合同的金额较大，客户在内部沟通的过程中要求我们将一部分项目的回款使用线下交付的方式进行验收，说白了就是有一部分同事需要到客户现场去驻场。于是我们就在年后冲向北京，这篇文章也是我在工作业余时的胡思乱想。

熟悉我的朋友应该都知道，我在工作中时不时要参与到一些诸如客户支持，定价沟通，产品价值talking 的环节中，可能是这两年大家都把 AI 作为了“年度话题”的重要性，所以总会有一些客户想要进一步了解“产品如何在实际的业务流中快速集成 AI 的能力”，市面上也有各种各样吹嘘“自己的产品又一次集成了 AI”的 PR 文章，但本质上其实大都是在云市场集成 AI 之后快速实现了一个 chatbot，好像效果并没有那么好。

当然也有一些客户会来问一些在不同视角的问题，我听过的问题印象比较深的就是“产品集成了 AI 能力我是认可的，但是这个产品中我看不到 Deepseek 的露出，你们怎么处理”，“在产品中集成 LLM 其实各家都大差不差，但是差异性的效果我暂时还没有看到”，此外在一些类似的产品中我发现 C2C（Copy to china）的思路目前可能还是奏效的，去 ProductHunt 或者类似的网站看看国外的“同行们”又搞出来了哪些 AI 相关的应用，然后看看哪一个最适合集成到自己的项目中，砍掉一些复杂功能再做一些本地化，好像给自己的产品也就搭上了 AI 这趟快车。

有一些产品会说到自己在业务中使用 MCP（Model Context Protocol）和 RAG（Retrieval-Augmented Generation）来提供更加全面的大模型能力支持，从逻辑上来说在产品代码中能够真的提升效率和准确度，基于一些比如 Dify 或者 FastGPT 的产品做二次开发好像也能做到进一步的实践与尝试（没错，我们的产品也提供了这样的能力），但从最终愿意买单并且用于真实企业内部业务流程的状态来看，我觉得大家更多是想摸着石头过河再观望看看有哪些商业化的思路。

昨天和同事聊天的时候说到不同行业中的门槛其实还比较高，可能互联网行业的从业者大都掌握了无痛访问 Google 或者 Github 等网站的方式，但其实还有非常多的老百姓不太分得清其中的区别（事实上互联网从业者也不见得都掌握了这个能力），对于老百姓来说耳熟能详的张一鸣和王兴兴是那种“在某一个行业中实现了成功的例子”，但是对他们到底在做什么其实并不清楚，其实说到 AI，说到人工智能，这应该是一个伴随计算机有 N 多年历史的故事了。

但是 AI 到底是咋来的？好像前些年我们对 AI 的理解和认知还停留在 TensorFlow 和 Pytorch 这样的算法中，怎么一眨眼 AI 就已经飞入寻常百姓家了？

既然聊到了这里，我就来试试讲讲 AI 发展的一系列关键人物（万一说错，还请拍砖）。

图灵，计算机能否像人一样思考？

1940 年，二战如火如荼，德国的“恩尼格玛（Enigma）”密码机几乎让所有盟军的情报系统陷入瘫痪。英军情报部门召集了一群数学家，他们的任务是——破解 Enigma，让德国的情报不再是个谜。

这群数学家中，有一个瘦高、害羞但聪明绝顶的年轻人，他叫艾伦·图灵。

他不是普通的数学家，他构想了一种“通用计算机”——一种可以执行任何计算任务的机器，并用它来破解 Enigma。他发明了“炸弹机（Bombe）”，最终成功解码了德军密码，让二战提前结束了两年。

然而，他并不满足于此。他问了一个更大的问题：

“如果机器能够进行计算，是否意味着它也能思考？”

他提出了著名的“图灵测试”——如果一个人无法区分是在与人还是与机器对话，那么机器就具备了“智能”。这个想法为现代人工智能奠定了基础。

大多数人最快捷大概了解图灵的方式就是那一部由本尼迪克特·康伯巴奇主演的“模仿游戏”，在二战期间图灵在英国政府的雇佣下破解了德军的“恩尼格码”密码机，由此也奠定了现代计算机科学的基础。在他 16 岁的时候就开始阅读爱因斯坦的相关著作，在他 19 岁的时候就考入了剑桥大学开始攻读数学本科，并且在22 岁时候以优异的成绩毕业。

虽然图灵是一名数学家，在学习数理逻辑学（就是我们学的那个“与”，“非”，“或”等等的学科）的时候又开始对逻辑学，哲学进行了更加深入的研究。但虽然图灵奠定了人工智能的哲学基础，也提出了计算理论与 AI 的测试标准，但由于同性恋的原因受到迫害，在 41 岁的时候英年早逝。

冯诺依曼，计算机如何高效存储和计算？

如果说图灵是计算机科学的哲学家，那么冯·诺依曼（John von Neumann）就是计算机的工程师。

在 1945 年，他提出了一种全新的计算机架构：把数据和程序存储在同一个内存里，让计算机可以自动执行指令。这就是后来所有计算机都遵循的“冯·诺依曼架构”，它让计算机变得真正实用。

除了计算机，他还发明了博弈论，并且是最早研究人工智能如何决策的人之一。

我相信每一个计算机相关专业的同学应该都听过冯诺依曼，比如在计算机原理的课程上肯定会学到他提出的冯诺依曼架构。此外他也提出了能让程序指令和数据能够存储在同一个存储器中的存储程序概念，从而让计算机可以自动执行程序。

值得一提的是冯·诺伊曼从小就以过人的智力与记忆力而闻名。他在一生中发表了大约150篇论文，其中有60篇纯数学论文，20篇物理学以及60篇应用数学论文。他最后的作品是一个在医院未完成的手稿，后来以书名《计算机与人脑》（The Computer and the Brain）发布，表现了他生命最后时光的兴趣方向（但其实冯诺依曼不仅在计算机方向有建树，他也是博弈论之父）。

罗森布拉特，能否让计算机自己学习？

1958 年，弗兰克·罗森布拉特提出了一个让整个 AI 领域兴奋的想法——“感知机（Perceptron）”，它是一种最简单的神经网络，可以通过调整权重来学习模式，比如识别简单的形状。“创造具有人类特质的机器，一直是科幻小说里一个令人着迷的领域。但我们即将在现实中见证这种机器的诞生，这种机器不依赖人类的训练和控制，就能感知、识别和辨认出周边环境。”

然而，1969 年，闵斯基（Marvin Minsky）和派普特（Seymour Papert）在《感知机（Perceptrons）》一书中证明，感知机无法解决像“异或”这样的基本问题，这让整个 AI 研究陷入了“AI 冬天”，神经网络被主流科学界抛弃。这本书抨击了罗森布拉特的工作，并本质上终结了感知机的命运。

罗森布拉特没能渡过AI的寒冬。1971年，他在43岁生日那天，在切萨皮克湾（Chesapeake Bay）乘单桅帆船出海时溺水身亡。

理论上来说，感知机其实是第一个尝试让机器“学习”的模型，但它的失败让神经网络沉寂了 20 年，直到 x辛顿重新挖掘它。

闵斯基与佩帕特，感知机的局限性是什么？

1956 年，达特茅斯会议上，一群科学家聚在一起，试图定义“人工智能” 这个领域。其中，闵斯基作为 MIT 人工智能实验室的创建者，是符号主义 AI 的坚定支持者。

他的梦想很宏大：“AI 应该像人一样思考，我们只要给它足够的逻辑规则，它就能成为真正的智能。” 他的研究主要基于符号逻辑，比如他开发了一种叫做 Lisp 机器的计算机，专门用来运行 AI 代码。

与此同时，佩珀特则更加关注机器学习和儿童教育，他认为计算机应该像孩子一样学习，而不是依赖固有规则。他发明了一种编程语言——Logo，可以让孩子通过简单的指令控制“小乌龟”在屏幕上画图形。他们二位的 AI 研究，让 AI 在 1960 年代成为了学术界的明星，政府和企业纷纷投资，AI 似乎要迎来一个黄金时代！

但好景不长，感知机（Perceptron）的失败让闵斯基和佩珀特觉得，神经网络完全没戏。他们在 1969 年合著了一本书——《Perceptrons》，直接指出了感知机的致命缺陷“感知机无法解决“异或（XOR）”问题——也就是说，它没办法学会“如果 A 和 B 相同，输出 0，否则输出 1” 这样的简单逻辑。”

他们的批评毁灭性地打击了神经网络研究，导致 1970 年代 AI 研究资金骤减，进入了第一次“AI 冬天”。

虽然闵斯基和佩珀特让神经网络陷入低谷，但他们的研究也推动了 AI 其他方向的发展。

闵斯基继续研究“心智架构”，提出了“框架理论”（Frame Theory）——AI 应该拥有类似人类的知识结构，而不是单纯的数据处理器。佩珀特专注于教育领域，创造了建构主义学习理论，他的 Logo 语言影响了后来的 Scratch 和 Python 在教育领域的应用。

直到 1980 年代，辛顿通过反向传播算法解决了感知机的问题，才让神经网络重新崛起。但讽刺的是，闵斯基并不认同深度学习，他仍然认为符号 AI 才是未来。

费根鲍姆，AI 能否模仿人类专家？

在 1960-1970 年代，人工智能的主流研究方向是通用智能（General AI），也就是让机器能像人一样思考。但费根鲍姆另辟蹊径，他提出了一个完全不同的想法：

“我们不需要让 AI 变得像人一样聪明，我们只需要让 AI 变得像‘某个领域的专家’一样聪明。”

他认为，与其让 AI 学会所有事情，不如让它深耕某一个领域，积累大量的专业知识，成为一个真正的“专家”。这就是“专家系统（Expert System）”的概念——基于规则、逻辑推理和专业知识，让 AI 在特定领域内表现出专家级的能力。

费根鲍姆的第一个专家系统项目是1965 年的DENDRAL，它是一个帮助化学家分析分子结构的 AI。紧接着在1970 年又推出了MYCIN——一个医疗诊断专家系统。虽然由于当时的法律和伦理问题使得医生不敢完全相信机器的诊断，这个产品也没真的用在医院中，但它的成功证明了 AI 可以在专业领域中成为真正的专家。

珀尔，AI 如何进行不确定性推理？

在 20 世纪 80 年代，人工智能主要依赖概率统计和模式识别，但它无法理解因果关系。朱迪亚·珀尔认为，真正的智能必须知道“为什么”——比如，吸烟和肺癌有关，但到底是因果关系，还是仅仅相关？

他提出了贝叶斯网络，用数学方式描述变量之间的因果联系，让 AI 具备更强的推理能力。后来，他又发展出因果推理和反事实思维，让 AI 不仅能预测，还能回答“如果情况不同，结果会怎样？”。这些理论如今影响着数据科学、医疗 AI、经济学，甚至推动下一代更智能的 AI 发展。

珀尔的因果推理思想，彻底改变了 AI 的研究方向。过去，AI 主要依赖深度学习，但神经网络的一个问题是它们只会发现模式，而不会理解因果。

比如传统 AI 可能发现：夏天卖冰淇淋的同时，游泳馆的溺水率也会上升。但因果 AI 知道：冰淇淋不会导致溺水，真正的原因是夏天气温升高。他的著作《为什么（The Book of Why）》深入探讨了因果推理的重要性，这为现代 AI 的解释能力奠定了基础。

杰弗里辛顿，如何训练深度神经网络？

1970 年代，神经网络研究遭遇寒冬。当时的主流 AI 研究者（如闵斯基和佩珀特）认为神经网络太简单，无法解决复杂问题。许多科学家纷纷放弃，但辛顿偏偏选择了这条“错误的道路”。

辛顿出生于英国，外祖父是著名数学家 George Boole（布尔代数的创始人），他从小就喜欢挑战权威。在攻读博士期间，他研究反向传播算法（Backpropagation），一种可以让神经网络自动调整权重的方法。尽管这个算法早已在 1970 年被提出，但几乎没人相信它真的能让 AI 学习。Hinton 和他的团队坚持优化反向传播，并在 1986 年成功证明它可以让多层神经网络高效学习复杂任务。

90 年代，辛顿继续探索更深层的神经网络，并提出受限玻尔兹曼机（RBM）和深度信念网络（DBN），成为“深度学习”（Deep Learning）概念的奠基人之一。到了 2012 年，他的学生 Alex Krizhevsky 使用卷积神经网络（CNN）赢得 ImageNet 竞赛，标志着深度学习时代的正式到来。

后来，辛顿还提出了 Transformer 的早期雏形——胶囊网络（Capsule Network），并成为 Google Brain 的重要研究员，推动 AI 革命。他的坚持让神经网络从 20 世纪的冷门理论，变成了今天席卷全球的 AI 基石。

1980 年代，辛顿和他的团队证明了一个重要理论——“反向传播（Backpropagation）”，可以让神经网络通过调整权重进行学习。但当时的计算机性能不够强大，神经网络仍然没能流行起来。

时间来到 2012 年，Hinton 的学生 Alex Krizhevsky 训练了一种深度卷积神经网络（AlexNet），在 ImageNet 竞赛上击败了所有传统算法。这标志着深度学习的崛起，AI 从此进入了一个全新的时代！

杨立昆，计算机如何识别图像？

在 20 世纪 80 年代，计算机视觉仍然是个难题。杨立昆认为，人工智能不应依赖手工设计的规则，而应该“像人一样”通过学习数据自动提取特征。他结合反向传播算法和神经网络，发明了卷积神经网络（CNN），让计算机能自动识别图像中的模式。

90 年代，他的 CNN 被用于手写数字识别，并成为美国银行支票识别系统的一部分。但深度学习当时还不够流行，他的研究一度被冷落。直到 2010 年后，计算能力的提升让 CNN 迎来爆发，成为计算机视觉的核心技术，被广泛应用于人脸识别、自动驾驶和医疗影像分析。

如今，杨立昆继续推动 AI 向自监督学习发展，试图让 AI 更接近人类的大脑学习方式，而不仅仅依赖海量数据进行训练。

杨立昆的原来中文译名为：扬·勒丘恩，2017年他在中国的演讲提供了正式的中文姓名。他法文的姓是（Le Cun），到美国之后，很多人都误认为Le是中间名，所以他在20世纪八九十年代把自己的姓的拼法改成了LeCun。

本希奥，AI需要遵循伦理吗？

本希奥与辛顿和杨立昆并称为“深度学习三巨头”。他是神经网络研究的先驱之一，推动了深度学习的数学基础，并对无监督学习、序列建模、注意力机制（Transformer 的前身）等领域作出了重大贡献。

Bengio 1964 年出生于法国的一个知识分子家庭，后来随家人移民到加拿大。他在蒙特利尔大学攻读计算机科学博士学位，师从 AI 研究者 René D. Mori，并开始专注于神经网络的学习方法。当时，神经网络在学术界并不被看好，但本希奥坚信它们能够超越传统的统计机器学习方法。

在 2000 年代，本希奥率先研究如何让神经网络自动学习数据的抽象特征，并提出了逐层训练（layer-wise pretraining）的方法，使得更深层的网络能够高效训练。这为后来的卷积神经网络（CNN）和递归神经网络（RNN）奠定了数学基础。他的研究极大地推动了深度学习的复兴，影响了 ImageNet 竞赛的突破（2012），并为后来的 Transformer 架构铺平了道路。

2014 年，本希奥的团队提出了注意力机制（Attention Mechanism），这是一种让神经网络自动关注最重要信息的技术。这项技术很快被 Google 研究员 Vaswani 等人发展为 Transformer 架构，并成为GPT-4、BERT、Claude 以及几乎所有现代 LLM 的基础。

可以说，本希奥间接塑造了现代大模型，他的研究影响了 AI 在自然语言处理、计算机视觉等领域的所有突破性进展。

与辛顿和杨立昆不同，本希奥在 AI 伦理和社会责任方面表现得更加谨慎。当 ChatGPT 这样的 LLM 开始爆发时，他曾公开警告AI 可能会对社会产生巨大影响，呼吁制定更严格的 AI 监管和伦理框架。

2018 年，他与辛顿、杨立昆共同获得了图灵奖（计算机领域的最高荣誉），正式确立了他在 AI 领域的历史地位。

尽管他是深度学习最重要的奠基人之一，但他并没有像 OpenAI 或 DeepMind 那样主导商业化 AI 公司的发展。他的研究主要在学术界，而他的许多学生（如 Transformer 论文作者 Vaswani）却推动了 AI 工业化的浪潮。

瓦普尼克，如何找到最优分类方式？

在 20 世纪 60 年代的苏联，数学家瓦普尼克和他的导师 Alexey Chervonenkis 共同研究如何让机器像人一样学习。他们意识到，AI 不能只死记硬背训练数据，而应该学会“泛化”——即用有限的经验推断新的知识。这促使他们提出统计学习理论（Statistical Learning Theory, SLT），并发明了支持向量机（SVM）。

SVM 的核心思想是找到数据之间的最优分界线，使得新数据也能被正确分类。这个方法在 90 年代被西方计算机科学界发现，并迅速成为机器学习的主流算法之一，在文字识别、生物信息学、金融分析等领域大放异彩。

尽管 SVM 一度是机器学习的黄金标准，但瓦普尼克对深度学习持保留态度，认为它依赖海量数据而缺乏理论上的优雅。他的理论为现代 AI 奠定了数学基础，使机器学习不再是经验主义，而成为一门严谨的科学。

瓦普尼克是一位纯数学派的科学家，支持向量机（SVM）在 1990s 成为了机器学习领域的标准方法。在深度学习出现之前，SVM 在很多任务上都被认为是最强的学习算法之一。

霍普菲尔德，神经网络如何进行联想记忆？

在 20 世纪 80 年代的人工智能研究领域，神经网络几乎被主流学术界遗忘。许多研究者转向了符号主义 AI（Symbolic AI）或专家系统（Expert Systems），但霍普菲尔德这个本职是物理学家的科学家却意外地为神经网络带来了一次重要的复兴。

霍普菲尔德早年是一位研究凝聚态物理的学者，他的兴趣集中在复杂系统如何自组织。在 1982 年，他提出了一种全新的能量模型，即霍普菲尔德神经网络，这是一种受物理学自洽场理论启发的神经网络模型。他证明了这个网络可以用来进行联想记忆（Associative Memory），即只需要输入部分信息，网络就能恢复出完整的模式。这种方法不同于传统的符号 AI，而是模拟了大脑神经元的工作方式。

霍普菲尔德神经网络的提出激发了 AI 研究者对神经网络的兴趣，为 1980 年代后期的神经网络复兴铺平了道路。辛顿和杨立昆等后来的 AI 研究者也深受他的影响。

尽管霍普菲尔德主要贡献在物理学领域，他的跨界工作却成为神经网络历史上的关键节点，让 AI 研究重新回到了仿生学的道路上。

霍普菲尔德神经网络在数学上证明了这个网络一定能够收敛，从而对基于神经网络的人工智能产生了奠基性的影响，开启了连接主义深度学习的大门。

施密德胡伯，如何让神经网络记住长期信息？

施密德胡伯是深度学习领域最重要的奠基者之一，他的研究直接影响了现代 AI，尤其是在自然语言处理和序列数据建模中的应用。他最著名的贡献之一就是LSTM（长短时记忆网络），这项技术后来成为谷歌、苹果、OpenAI 以及众多企业训练神经网络的核心方法。

施密德胡伯生于 1963 年，从小就展现出极高的数学天赋。他在瑞士学习计算机科学和人工智能，很早就对人工智能的终极目标产生了浓厚兴趣——创造一个能够自主学习、不断进化的人工智能。

在 20 世纪 90 年代，神经网络在处理长序列数据（如文本、语音和时间序列数据）时遇到了“梯度消失”问题：传统的循环神经网络（RNN）无法记住过长时间跨度的信息。

1997 年，施密德胡伯和他的学生 Sepp Hochreiter 共同发明了长短时记忆网络（Long Short-Term Memory，LSTM），这种架构通过引入“门控机制”来有效存储和传递信息，解决了梯度消失的问题。这项发明在当时并没有被广泛认可，但在 2010 年代，随着计算能力的提升和大规模数据训练的普及，LSTM 迅速成为语音识别、机器翻译、文本生成等领域的主流技术。

施密德胡伯的野心远远不止于 LSTM，他一直强调创造真正的通用人工智能（AGI）。他认为 AI 研究应该专注于元学习（meta-learning），即让 AI 学会如何自主学习，并不断优化自身。

他提出了“人工科学家”（Artificial Scientist）这一概念，认为 AI 未来应该能够自主提出假设、设计实验，并发现新的知识，就像真正的科学家一样。

尽管施密德胡伯的贡献不可否认，他的知名度远远低于辛顿、杨立昆和本希奥，部分原因是 LSTM 的商业应用直到 2010 年代才开始爆发。此外，他曾多次公开表达对 DeepMind 和 OpenAI 的不满，认为这些机构“没有给予他的研究足够的认可”。

尽管如此，施密德胡伯仍然是现代 AI 领域不可忽视的奠基者。今天的 GPT-4、Suno 音乐 AI、DeepMind 的 AlphaFold 等许多应用都间接或直接受益于他的研究，他的 LSTM 仍然在许多 AI 系统中发挥作用。

在 AI 发展的历史中，施密德胡伯是一个极具远见的人，他不仅改变了深度学习的技术基础，也为未来的 AGI 研究提供了重要的方向。

古德费洛，AI 能否创造新内容？

古德费洛 1985 年出生于美国怀俄明州，他从小展现出非凡的数学和编程才能。大学时期，他就读于斯坦福大学，主修计算机科学。随后，他进入加拿大蒙特利尔大学，师从深度学习三巨头之一的本希奥，正式踏入神经网络研究领域。

在本希奥的实验室里，他接触到了深度学习和生成模型，并开始探索如何让 AI 生成逼真的图像。这一探索最终促成了GAN（生成对抗网络）的诞生。

2014 年，古德费洛在博士研究期间的一次讨论中，和同事争论如何让神经网络自主生成更真实的图像。当时的 AI 生成模型（如变分自编码器 VAE）仍然很难生成高清且自然的图片。

突然，他灵光一闪，想出了一个革命性的概念：让两个神经网络互相竞争！他的想法是：一个 AI（生成器，Generator）负责生成假图像。另一个 AI（判别器，Discriminator）负责判断这些图像是真实的还是伪造的。二者不断博弈，最终生成器能骗过判别器，生成高度逼真的图像！

这种“对抗学习”的方式，突破了传统 AI 生成方法的局限，被命名为 GAN（Generative Adversarial Network）。

GAN 让 AI 从“分析数据”变成了“创造数据”，彻底改变了 AI 在艺术、设计、游戏、影视等行业的应用方式。可以说，他的研究让 AI 从理解世界进化到了创造世界，并成为 AI 生成内容（AIGC）浪潮的奠基者之一。

古德费洛不仅是GAN 之父，也是AI 伦理的重要倡导者，他的贡献将长期影响 AI 发展方向。

达里奥，AI 能否像人类一样写作和推理？

达里奥是 AI 研究领域的重要人物之一，曾在 OpenAI 领导多个关键项目，后创办 Anthropic，专注于 AI 安全与“AI 对齐”研究。他的工作推动了 AI 模型能力的飞跃，同时也让 AI 伦理问题进入公众视野。

达里奥最初是一名神经科学家，研究大脑与神经网络的相似性。他后来转向机器学习，加入 OpenAI，成为 AI 研究的核心人物之一。他在 OpenAI 期间的关键贡献包括：GPT-2 与 GPT-3 研究负责人：推动了现代大语言模型（LLM）的发展。AI 对齐研究的先驱：他提出 AI 需要“对齐人类价值观”，否则可能失控。

2021 年，达里奥离开 OpenAI，与几位前同事共同创立 Anthropic，专注于 AI 安全和“可控 AI”研究。Anthropic 的核心产品 Claude 系列（类似 ChatGPT）强调安全性，避免 AI 生成危险内容。他的研究强调：“AI 必须对人类有益，否则超级智能可能带来无法预测的后果。”

Anthropic 目前是 OpenAI 的主要竞争对手之一，并获得了 Google 近 30 亿美元的投资。

当然，说到达里奥我们其实也需要提到 Tom B Brown 和 Alec Radford，他们一行三个人的研究共同塑造了现代 AI 发展路径。但我想他们从 OpenA I跳槽到 Anthropic 也许还是遇到了那个难以抉择的问题“是追求更强大的 AI，还是追求更安全的 AI”？

算是本文的尾巴

写到这里其实我有点累了，事实上人工智能发展过程中总不是一帆风顺的，有兴趣的朋友可以看看维基百科上的“人工智能史”，我相信一定会觉得收获满满，在这些厉害的科学家中也会存在各种奇怪的冲突（也正常，大家毕竟都是人嘛）。

但如果我们回到 2025 年的当下，会发现 AI 的发展已经度过了“通用智能”的探索阶段，下一步可能还是要对准通用人工智能的方向进行进一步的细化和延伸。由于各类基于 Claude 3.7 的产品我们已经基本跳过了“AI 行不行”的疑惑，但到底“如何让他更安全，更有效”还是一个短期内我们看不到答案的问题。

前一段时间木遥的解读“vibe coding”在朋友圈和各种渠道刷屏，文章中那句“一方面它犹如神助，让你有一种第一次挥舞魔杖的幻觉。另一方面它写了新的忘了旧的，不断重构又原地打转，好像永远在解决问题但永远创造出更多新的问题，并且面对 bug 采取一种振振有词地姿态对你 gaslighting。你面对着层出不穷的工具甚至不知道自己该认真考虑哪个，心知肚明可能下个月就又有了新的「最佳实践」，养成任何肌肉记忆都是一种浪费，而所谓新的最佳实践只不过是用更快的速度产出更隐蔽的 bug 而已。”可能也是许多正在与 AI 结对编程朋友的真实感觉。

但我想，AI 带来的改变确实日新月异，我能看到身边的朋友能够逐渐完成“不相信 AI → 怀疑 AI → 全部用 AI → 不敢信任 AI → 再一次信任 AI”的无限循环之中。我在一些业余时间也尝试练手用 AI 帮我写了几个产品，相比原先的产品设计与研发过程中，会发现现在的 AI 可能每一次都会比前一段时间的使用更加流畅一些，但依然无法完全避免上下文遇到限制导致记忆力幻觉或者相关的问题，这种感觉好像就像是一种慢性毒药，一方面更爽了，另一方面又不是那么爽。在产品设计过程中各种刷屏的什么“用 AI 搞定原型图，搞定高保真效果图”的论据其实也能变相让我们感知到 AI 在具体业务中的应用其实还处在比较早期的阶段。

一方面我受益于使用 AI 能够极大程度加快我把脑海中的某些想法付诸于实践的过程，但另一方面好像也能明显感知到过拟合带来的某种不适感，在开启新项目的时候确实能够通过 AI 极大程度加快效率，但是否会因为过度信任 AI 而导致代码中潜藏了许多暂时没有精力与时间发现的 bug，又变成代码中一个潜藏的问题真的很难一两句话讲清楚。

如果对比我前端时间那篇《AI 取代人工进展走到哪一步了？》，当下的我结论还是那句“保持对前沿技术学习与了解，让自己不要落伍的概念是没问题的，用 AI 来输出一下自己无处安放的创造力或者做一些创新与变化的真实落地是很好的”，但 AI 改变世界的进度条到哪一步了？

我觉得还得再看看。

聊聊 Agent 架构 – Single Agent / MCP / Multi-Agent

bang’s blog

bang

2025年3月16日 13:42

近期在业务中尝试落地 Agent，有一个架构设计问题，应该用单 Agent 架构，还是多 Agent 架构？

Single Agent

先来看看单 Agent 架构，在之前的文章里，OpenHands 这里的架构是典型的单 Agent 架构，依赖一个模型，组织多个工具调用，做好 ReAct 和上下文管理，整个过程很简单。

Tools 是一个个函数，定义和调用都是在当前程序里进行。Tools的函数定义会作为 System Prompt 的一部分让 LLM 理解当前可用工具
Memory 分两部分：
1. 当前 Session 数据流，包括每一步执行了什么，结果是什么，在当前 Session 内存中保存，随时全量输入 LLM，让 LLM 判断下一步应该做什么。
2. 用户的长期数据、知识库，例如用户在平台的偏好数据、领域内容、多轮对话上下文等，这些内容会从向量数据库召回。
Router 中心化程序调度整个过程，拿用户 Prompt / System Prompt / Memory 输入 LLM，LLM 进行深度思考和给出具体执行的任务，Router 去调用对应的 Action 函数。

这是简单通用的单 Agent 架构，实现 Agent 中 Thought – Plan – Action – Reflection(Thought) 的循环，一个模型负责所有事情。

MCP

上述架构里，Tools 模块有一些小问题：工具函数可维护性和可扩展性不太好，多了后难管理，要加函数得更新主程序，另外得自己定义一个 Function call 规范，对外部的一些会用到的工具服务都需要自己封装一遍。

对这些小问题，这个架构可以有一个优化：Tool 模块从 Agent 剥离出来，用 MCP 协议统一管理和实现。

附：MCP是什么？

MCP 是 Anthropic 24年11月推出的协议，近期 Cursor / windsurf / cline 等一众 AI Coding 产品支持了 MCP 后出圈，众多开源框架也开始支持 MCP，大有统一的趋势。

MCP 的概念很简单，就是统一了工具调用的接口规范，这几张图可以帮助理解：

MCP 统一了各工具能力接入的接口调用定义，原先一个服务(例如slack）要对接多个用户端产品（例如cursor）定义的 Function call 格式，现在服务和客户端统一对接同一种格式就行，两边都只需要实现一次。

MCP Server 独立运行在任意服务器上，也可以有自己独立的数据库信息/资源，不与 Agent 服务器绑定，可复用、易于插拔。

把原先 Tool 几个工具函数调用用 MCP Server 封装，架构变成这样：

跟原先纯 Function call 的区别在于架构上更灵活，包括：

聚类，对零散的一个个函数可以统一放到一个服务，便于管理。
解耦：调用实际发生在各自 MCP 服务端，而不是 Agent 服务直接去调用，部署扩展工具与 Agent 工程上解耦。
内聚：MCP Server 本身可以内聚做一些事，包括独立的资源管理、独立上下文等。
复用：通用协议，Tool 能力便于在多个 Agent 间接入复用，外部生态有较多现成 MCP Server 可直接接入。
统一：客户端、云端的工具调用，都可以用统一的 MCP 协议去实现。

这个架构似乎已经可以满足大部分场景下对 Agent 的诉求，为什么还需要考虑 Multi-Agent？

Multi-Agent

考虑 Multi-Agent 最主要的问题是上下文过长。

如果一个 Agent 能力足够强，它应该能完成需要非常多轮调用完成各种任务，这些任务的制定和执行结果全部塞在一个上下文里，可能会超出当前模型能理解和处理的范围。

这时候，计算机工程的典型解决思路就是：分治模块化。把整体 Agent 能力拆分成解决一个个独立复杂任务的子 Agent，让这些 Agent 在它的范围内能有自主思考和自主行动能力。

从 Agent 的组成来说，必不可少的部分包括：

模型：独立的处理模型，可以跟其他 Agent 不同，称为专家模型。也可以相同，看需要。
上下文：独立的多轮 ReAct Loop 上下文管理，完成自己特定的任务
System Prompt：对应任务制定特定的 System Prompt

而 Tools 可以不是 Agent 专用的，这个 Agent 需要什么 Tools，就注册什么 Tools。长时记忆/知识库也可以是多个 Agent 共用的。

架构会变成这样：

这样 Plan Agent 只专门制定计划，它需要知道的上下文是其他几个 Agent 能完成什么大的任务，至于他们调了什么工具怎么完成不用管，只需管它要结果，整个任务的上下文就被分出多个部分，每个 Agent 的上下文对另一个 Agent 可以是黑盒。每个 Agent 也可以有自己对应的模型，做独立的训练和 Prompt 调优。

这样是不是一个更优的架构？

它的好处是解决了上下文过长，模型处理不好的问题。
但坏处也是很明显：整个架构是复杂化了，而效果也不一定好。多个 Agent 需要协同，Plan Agent 能获取的上下文信息变少了，它没有了更细粒度统筹规划整个任务的能力，变成一个偏项目管理的角色协调各方的工作，多人协作带来信息熵增大，组织效率低。

AI 的范式，可能不应该这样分治，可能大模型在对上下文的支持、细节信息的理解上会越来越好，能统筹把握好各项细节，把一个复杂任务完成，而不是像人类社会一样分工协作。这样对大模型来说，有足够的信息量能做规划/决策/反思，也更便于端到端的模型训练。

从号称泄漏的 Manus Prompt 来看，Manus 也没有 Multi Agent，所有能力包括工具函数都在一个上下文中定义，看起来目前也能跑得起足够复杂的任务。

所以如果项目在早期，没有遇到很明显的瓶颈，并不需要用 Multi-Agent 架构，用 Single Agent 简单的架构足够能做好。工程架构越简单，后续基础模型升级带来的增益越大。

基于 MCP 的(伪)Multi-Agent

再探讨下，如果在应用过程中已经发现上下文处理不过来的问题，或者某个任务的内部实现细节对整个任务无影响，或者三方都实现好了，那采用另一种伪 Multi-Agent 架构，也是可以考虑的方案：

例如对接 browser-base 实现更深度的 research 能力，需要多轮打开不同网页、判断资料收集是否完成、整理资料，有自己的 loop 、上下文和模型。但这个完全可以封装在一个 MCP 服务上，自行闭环完成多网页搜索和整理，不需要与原 Agent 流程上有更深入的交互。

跟上面的 Multi-Agent 架构的区别在于，并没有改变原来单 Agent 架构，不会增加架构复杂度。Agent 不需要感知 MCP 调用背后是 Agent 还是一个普通的函数调用，没有区别。

MCP 协议本身也是 SSE 流式输出，对这个背后是 Agent 的 MCP 调用，要输出多少上下文信息给原 Agent，也是可以非常方便地调控。

以上是近期的一些想法，Agent 是新东西，后续实践有认知的更新再分享。

我在苏州逛园子之狮子林

雅余 · 茶余饭后，闲情雅致

雅余

2025年3月6日 23:19

狮子林，苏州四大名园之一，代表元代的艺术风格。园林，园林，大多叫园，叫林的只有一个，就是狮子林。狮子林园内以假山叠石为主体，厅、堂、殿、阁、亭、选、斋、堂20余处，园中有9条假山山脉，21处洞穴，是中国古典园林中堆山最曲折，最复杂的一个，假山面积约占全园总面积的五分之一，面积达1100平方米，被誉为“假山王国”。乾隆下江南时曾六次到访狮子林，园中共有乾隆皇帝写的匾额16处，可见他对狮子林是喜爱至极。

狮子林为什么叫狮子林，大部份UP主解释为因为园内有很多假山形似狮子，所以叫狮子林。其实狮子林发端于禅林，是寺庙和园林的结合体。禅宗高僧天为纪念自己的师傅而取名“狮子林”。

元朝1341年，一位名叫天如的禅师来到苏州讲经传禅，天如禅师的弟子在娄门边的某处地方，见闹市中古木参天，觉得这里很适合修禅讲道，于是便在此置屋，建起了一处禅林给天如禅师布道之用。
来到苏州之前，天如禅师曾在浙江天目山狮子崖修行二十余载。而天如禅师的老师中峰明本，以及中峰明本的老师高峰原妙都是在狮子岩得道。
天如禅师将住所命名为“狮子林”，又称“菩提正宗寺”。狮子林，以“狮”同“师”，表明了不忘师祖之意。同时，狮子又名“狻猊”，是佛国之兽。而在古代，寺院又称丛林，简称“林”。这便是狮子林名字的由来。[原文]

卧云室位于指柏轩南面假山中央的平地中，如安卧于峰石间，取金元好问“何时卧云身，因节遂疏懒”诗句意名“卧云室”。其原为寺僧静坐敛心、止息杂虑的禅室。

亭内正中悬挂着天如禅师像。

揖峰指柏轩是园内主要厅堂，楼式建筑，轩面对规整的小水池和湖石假山，山上罗列石峰石笋，山石缝中古木虬根盘绕。轩底层四周为回廊，楼上层缩进。轩面阔五间，黄瓜环脊歇山顶。

真趣亭位于水池南岸，面对假山。其形体较大，结构特殊，亭内前二柱为花篮吊柱，后用纱隔成内廊，亭内天花装饰性强，扁作大梁上为菱角轩和船蓬轩，雕梁画栋，彩绘鎏金，鹅胫椅短柱柱头为座狮。亭内悬挂金底绿字乾隆御笔“真趣”匾。

园林漏景、借景都很好看，专门拍了一些。

此次狮子林游玩和旅行漫记差点可以偶遇，后来我又追到了上海，还是错过了。（纯属自编）如果要看狮子林的好片，可以去S兄博客。

好啦，2025 苏州园林之旅到此更新完毕。连续几天都在园子里逛，十分尽兴，都有点时空错乱了。

By iPhone 12 Pro Max（前一天玩得太累，回酒店忘记给相机电池充电， D-LUX8 备3个电池都是必要的。）

我在苏州逛园子之沧浪亭

雅余 · 茶余饭后，闲情雅致

雅余

2025年3月4日 23:11

沧浪亭是苏州存世最古老的园林，苏州四大园林之一，代表着宋代艺术风格，出自于北宋时期苏舜钦之手，曾经是名将韩世忠的住宅。相对留园、拙政园，沧浪亭的造园艺术是别具一格的。未进园就有一池绿水环绕的园林外墙，然后一进门就可以看到一座假山屏障。园内以假山为主体，山下有开凿的水池，假山延伸的左侧石头山上有沧浪亭，然后山水之间以一条曲折的复廊相连。园内除了专门开凿的一个水池，就没有其他水源，它的水都巧妙的设计在了园外，是其一大特色。

沧浪亭匾额上三个字是清代文学家俞樾所书写，石柱上的楹联为“清风明月本无价，近水远山皆有情”。欧阳修曾在《沧浪亭》一诗中写道：清风明月本无价，可惜只卖四万钱。而苏舜钦在《过苏州》中有诗云：绿杨白鹭皆自得，近水远山皆有情。这副楹联便是清代梁章钜将这两句诗集为一联。

临水处建复廊，以漏窗通透内外景物，使内外山水融为一体。

清香馆内陈列一套树根家具，为清末之物，用福建榕树根精制，采其天然造型形有飞禽走兽图案，龙凤星祥形态。

据统计，园内共有花窗108款，造型各不相同，活泼有趣，十分花心思。

通过这些花窗漏景，可以窥探园内的美丽景色。

沧浪亭另外一个特色就是竹子，据统计园内共计22种竹子种类，包括箬竹、苦竹、慈孝竹、毛环竹、湘妃竹、水竹、青秆竹、哺鸡竹等等。园内处处可见竹子，《沧浪亭记》中记载其周边环境：“前竹后水，水之阳又竹，澄川翠干，光影会合于轩户之间，尤与风月为相宜”“水得微径于杂花修竹之间”。智者乐水，君子师竹。翠竹潇洒清逸，代表了君子的翩翩风度。

仰止亭，袭诗经“高山仰止，景行行止”之意而名。此为半亭，始筑于同治年间，其名与五百名贤祠有关，亭内嵌有御题文徵明小像石刻，是珍贵的历史文物。新亭建在遗址上，原亭为六棱六柱、六角形屋盖式凉亭，石木结构，高6米，周长20米，顶盖小青瓦、柱为红色、顶内盖板与花额窗为绿色，亭西一米靠山处立有“讲经台”石碑一块。