阅读视图

Windows Recall Is Getting Its First Major Update

2025年6月25日 03:30

Windows Recall, a "privacy-focused" AI tool for Copilot+ PCs designed to make it easier to retrace your digital steps if you forgot what you did the day before, is going to receive a major update: a homepage.

咖啡厅的信息接收器

莫比乌斯

ONO

2025年6月24日 11:12

我很喜欢在咖啡厅写东西，是因为写东西的同时我可以随时分心，电脑界面一边是正在创作的内容，而另一边单开的页面是随时随地都能接受四面八方来的信息。

无意偷听，就是天生对这类信息非常敏感，从聊天内容到情绪变化，都是信息接收的一部分。

比如此时此刻，有一个正在电话面试的年轻男性，有一些情绪失控地在反驳电话另一端的面试官，根据他们聊天的内容，大概是因为提及到了「利用 AI 工作」的话题，年轻男人回应道：

AI 不能解决任何事，自己不可能被 AI 替代，他觉得坚持自己的原则，不利用 AI 是一种工作态度，而不是能力问题。

这是一段掐头去尾的聊天内容，当我决定要好好观察他时，他已经把情绪发泄在了收拾自己的电脑上面，气鼓鼓地走了。同时察觉到这份情绪的，是在他身后正在聊天的一对刚热恋不久的情侣，他们在聊感情观的同时也被这个年轻男性的愤怒吓了一跳，他们虽然在聊感情观，却用了一个非常危险的「问题」来引出这个话题：

你为什么结束了上一段关系啊？

两人都说了经典却毫无意义的台词「不合适」，彼此的答案都在敷衍对方，所以彼此都没办法把这个话题深入下去，所以他们沉默了一阵，还好被身后那个背上书包带着情绪拖动椅子的年轻男人给打破了。

和我一样在等这个情感问题真实答案的，是一个正在情侣附近用电脑做 PPT 的上班族女性，在等答案的时候，她停下了手中的工作，却又因为听到这么无聊的答案，从鼻腔里挤出了一声轻蔑的笑，她意识到这个动作后，立马假装鼻子不舒服用纸擦了擦鼻子。年轻女性显然不接受这个答案，所以她瞥了一眼这对情侣。然后继续手里的工作，给 AI 输入指令，为她制作 PPT。

另一个正在工作的女性，是在咖啡厅的吧台工作的店长，她正在处理一杯客人退回的饮料，大概是糖分的问题，是她拦下了正准备和客人争吵的店员，深吸一口气后让饮料开始重新制作。我想她经常遇到这样的事情，所以早就处变不惊——如果这一切都用 AI 替代呢？未来的咖啡厅不再有柜台，而是一个冷冰冰的机器，它绝对不会出错，也会因为是人与机器的操作，在付款那一刻契约已经生成，消费者不能再以任何的主观上的要求去为难机器再重新制作一杯，没有人情味的咖啡，是否意味着咖啡的味道也跟着改变了？

本来想要和客人争执的店员有些气不过，离开了收银台，走到女店长耳语着，或许还是在解释自己并没有工作失职，女店长笑了笑拍了拍年轻店员的肩膀。那个要求重做咖啡的女人并不在乎眼前发生的一切，她已经赢了这场重做咖啡的游戏，她正在拿着手机找角度和光源自拍。当时她也一点不重要，因为没人愿意成为她的观众。女店长也是这样认为，所以她面无表情地把重新做好的咖啡放在桌面上提醒女性自己拿走，然后立马切换了表情，笑容满面地接待下一个点单的客人。

硬要说，人们仍然觉得这是 AI 做不到的，个人喜好、主观评价、以及他们可以为自己的工作做出细微但巧妙的调节。

这时，又来了一个男性客人，向吧台递出一个空杯子索要一杯纯净水。年轻店员正准备接过空杯子，被女店长打断了，她示意客人将杯子放在吧台上，然后命令店员重新拿一个新的空杯再接水给客人。

我被这个细节吸引走了所有的关注，为什么会存在这个 SOP，在它的背后是不是藏着一个更庞大的历史事件和剧情，比如男人在空杯子里提前准备好了迷药，在咖啡厅过手接水的那一刻，责任被连带给了咖啡厅……

犯罪，永远在规则之前，人的意识，也在 AI 之前吧。或许。

Microsoft's 'Mu' Will Power More Windows 11 Improvements

How-To Geek

Corbin Davenport

2025年6月24日 02:45

Large language models (LLMs) are the talk of the town, but small language models are also important for certain tasks, especially on power-limited devices like phones and laptops. Microsoft just revealed its new Mu language model, and it’s already powering some Windows 11 features.

Google's AI Overviews Are Still a Mess—You Should Turn Them Off

How-To Geek

Ismar Hrnjicevic

2025年6月20日 03:15

If you’ve been Googling stuff lately, you’ve likely seen AI Overviews everywhere. The option to opt out is no longer available, and they now appear on nearly every search, usually with inaccurate or confusing information, which is frustrating.

普通应用不建议自己部署AI

夜未央

水拍石

2025年6月18日 14:04

最近一直想自己部署下本地AI，主要原因是想搭建自己的知识库，然后让AI基于知识库来帮我回答问题，或写文章。比如 […]

This Hidden Google Feature Left Me With New Privacy Concerns

How-To Geek

Aman Kumar

2025年6月16日 04:15

Google made a lot of exciting announcements at its 2025 annual conference, but the one that grabbed my attention was the Try On feature. While it can definitely help you decide whether to buy a dress you see online, there is a big privacy concern with this feature that you need to be aware of.

Hilarious AI-Generated Bigfoot Vlogs Prove AI's Worth as a Creative Tool

How-To Geek

Sydney Butler

2025年6月15日 06:00

It used to be that if you wanted to make a half-decent Bigfoot video, you needed to spend a lot of time making a suit, and then walk around the local forests while your friend films you, hoping that no hunters mistake you for a bear.

为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox)

小赖子的英国生活和资讯

JustYY.com 小赖子的英国生活和资讯

2025年6月12日 02:10

莫拉维克悖论是什么？

莫拉维克悖论（Moravec’s Paradox）是人工智能与机器人学中的一个重要观察结果。

一句话总结

“对于人类来说简单的事情，对机器却很难；而人类觉得复杂的事情，机器却往往很容易。”

悖论的由来

由 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 1980 年代提出
他们注意到：计算机能轻松完成逻辑推理，却难以感知与运动：让计算机进行高等数学、下棋、逻辑推理等任务相对容易；但让计算机像人类一样“感知世界”和“移动身体”——比如走路、抓取物体、识别人脸——却非常困难。

为什么会出现这种现象？

进化时间差

人类的感知与运动系统经过数亿年进化，极度复杂；抽象思维是最近几千年才发展出的新能力。感知与运动能力（比如视觉处理、走路、抓握）是人类在数亿年的进化中逐步发展出来的，极其高效而复杂。抽象逻辑和符号推理（比如数学、象棋）则是人类近几千年才发展出的“新技能”，反而对人类来说相对“费力”。
神经资源分配不同

大脑的大部分区域用于处理感知与运动，只有小部分用于逻辑与推理：大脑皮层中，有大量区域用于视觉、听觉、运动控制等感知与行动；相比之下，用于抽象思维的区域相对较小。
我们低估了“本能”的复杂性

比如走路、看东西、抓杯子——这些能力虽然自动完成，但对机器来说极其复杂：因为感知与行动是无意识自动完成的（比如：走路时你不需要思考每一步如何移动），人类通常低估了这些任务的复杂性。

经典对比案例

任务	人类	机器
玩象棋	难	容易（如 AlphaZero）
解微积分题	难	容易（符号计算软件）
面部识别	容易	曾经极难，现在勉强可行
走路/抓物	容易	极其困难（机器人领域难点）
理解语境与讽刺	容易	仍然很困难

与现代AI的关系

近年来，随着深度学习、神经网络和传感器技术的发展，某些“莫拉维克难题”已经被部分攻克，如：

计算机视觉（如人脸识别、物体检测）已大幅进步；
机器人控制仍然困难（例如 Boston Dynamics 的机器狗用了几十年发展）。
但整体来说，莫拉维克悖论仍然成立，特别是在人类对语境、常识、情感的直觉理解方面，AI 依然逊色很多。

悖论对当代AI的启示

深度学习解决了部分“感知难题”，如图像识别与语音识别
机器人控制和人机交互仍是巨大挑战
莫拉维克悖论提醒我们：真正的智能不在棋盘上，而在厨房里

未来展望

在构建 AGI（通用人工智能）时，不能只强调逻辑推理能力
理解感知、常识、直觉与情感才是构建类人智能的关键
莫拉维克悖论仍然有效，是AI研究者不可忽视的指导法则

总结

莫拉维克悖论揭示了人类智能的深层次本质：最普通的能力，往往是最不平凡的进化成果。莫拉维克悖论提醒我们：真正智能的“简单事”，往往隐藏着极端复杂的机制。它对于AI研究者、机器人开发者具有指导意义——不要把看似简单的任务想得太简单，也不要对AI过早“类人化”。

人工智能 / Artificial Intelligence

英文：What is Moravec’s Paradox?

本文一共 974 个汉字, 你数一下对不对.

为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox). (AMP 移动加速版本)

赞赏我的几个理由.

¥ 打赏支持

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec's Paradox) 人工智能 (AI) 资讯

The post 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox) first appeared on 小赖子的英国生活和资讯.

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
在英国给孩子换学校的经历: 孩子离开了村里的小学由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...
公司请的专业摄影师公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
力扣 Leetcode 的刷题利器: 在线调试器和自动代码提示完成力扣代码调试器 Debugger 最近 leetcode 刷题网站出了一个在线调试器. 个人感觉非常好用. 因为我平时是用 IPAD+蓝牙键盘来刷题, 而在 ipad 上是没有集成的IDE的, 对于调试来说, 只能很原始的让函数退出一个值, 然后尝试不同的输入来发现问题. leetcode在线调试器的好处...
公司给配了台高配DELL笔记本早上例会结束的时候我顺便说了一句我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

小赖子的英国生活和资讯

JustYY.com 小赖子的英国生活和资讯

2025年6月10日 05:30

近日，苹果机器学习研究团队发布了一项引人关注的研究，指出当前所谓的大型推理模型（LRM，如 OpenAI、Anthropic、Google 等推出的模型）在面对难度不断提升的逻辑类问题时，会出现准确率骤降至 0、推理努力减少的现象，表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计：复杂性可控的逻辑谜题

研究团队采用了像河流过渡和汉诺塔（Tower of Hanoi）等经典谜题，通过可控手段系统增加问题复杂度，同时观察模型的“思考过程”和最终结果，避免传统数学或编程基准可能的数据泄露问题。

苹果机器学习团队最新发布研究，指出当前大型推理模型（LRM）在面对高复杂度逻辑题时，准确率骤降至零，且推理过程中的计算量急剧下降，表现出“放弃思考”的现象。
研究用经典谜题如河流过渡和汉诺塔，通过逐步增加难度控制变量，观察模型的表现和推理行为，规避了训练数据泄露的影响。
结果显示，低复杂度时普通大语言模型LLM表现更好，中等难度下推理模型依赖“链式思考”提升表现，但高复杂度下所有模型准确率急剧崩溃。

模型推理能力的“崩溃”与“偷懒”

在复杂度临界点，模型的有效 token 使用量明显下降，表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时，这些模型伴随着有效 tokens 使用量骤降（即前几步还在思考，後面却“偷懒”了），表现出类似“放弃继续解题”的行为。
即使研究者直接给出解题算法，模型仍无法有效利用，说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法，研究者在汉诺塔问题中提供了解题算法，但这些模型依然无法提升准确率，表明它们并不能用“听懂并执行算法”的思维方式，而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级	模型类型	表现趋势	备注
低	普通大语言模型	准确率较好	推理模型表现一般
中	推理模型（含链式思考）	准确率提升	链式思考开始有效
高	所有模型	准确率急剧下降至0	模型推理“崩溃”并“放弃”

专家观点与行业影响

Gary Marcus：该研究“毁灭性”，打破了大语言模型快速通向通用人工智能的幻想。
Andrew Rogoyski：当前推理模型已遇瓶颈，现有方法或进入“死胡同”。

苹果的AI发展战略解读

此次研究发布正值 WWDC 2025 前夕，体现苹果强调“设备端效率”和“实际应用价值”，反对盲目追求模型规模和复杂度。
苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术，但表现平平，此次研究进一步证明稳扎稳打才是长远之计。

未来方向与思考

建立无数据泄露风险的逻辑谜题评测基准，避免传统 benchmark 偏差。评估基准的重塑：苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI，以避免传统 benchmark 的偏差。
引入符号逻辑和神经符号混合技术，突破纯统计学习的限制。融合思维范式：当前 LLM 的“链式思考”是统计学习，并不是真正的推理。未来可能引入符号逻辑、神经符号混合等技术路径。
结合专用推理子系统，提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络：苹果研究者曾指出，搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。

总结

链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
未来AI发展需要超越纯数据驱动的模式匹配，向可解释、可操作的逻辑机制进化。
苹果此次研究为业界敲响警钟，也明确了其在AI道路上的稳健路线。

参考文献

苹果发表的文章：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
‘The illusion of thinking’: Apple research finds AI models collapse and give up with hard puzzles

新闻/实事/经济

人工智能 / Artificial Intelligence

本文一共 1899 个汉字, 你数一下对不对.

赞赏我的几个理由.

¥ 打赏支持

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” 人工智能 (AI) 新闻科技资讯

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...
老婆的配偶签证被拒郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....
公司给配了台高配DELL笔记本早上例会结束的时候我顺便说了一句我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...
花钱让人换汽车钥匙的电池真是个智商税今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
Microbit 编程: 简易人工智能让电脑玩游戏上一周, 我们在 Microbit 上编写了第一个游戏: 吃苹果. 我两儿子很喜欢玩, 他们互相比着最高分, 大概极限是35分. 吃苹果的游戏代码和Microbit模拟器: https://makecode.microbit.org/_DV93uT7i0WuK 可能有极限吗? 即使我们做出足够迅速的反应并且没有犯错, 会出现怎么样也无法抓住苹果的情况吗? 人工智能简介-让计算机玩游戏 AI被称为人工智能,...

AI Coding 与 AI 视频：从生产力工具到大众内容平台

bang’s blog

bang

2025年6月5日 19:08

数字世界的创作和内容，最重要的是程序和视频。程序负责逻辑、互动；视频负责信息的表达、感知。

2024年2月 Sora 概念发布，6月可灵发布，AI 视频开始发展。同年 6月 Claude 3.5 Sonnet 发布，8月 Cursor 接入，AI Coding 开始狂奔。

回想起来只过了一年时间，但已经经历了很多的变化，想探讨一下这两个核心 AI 领域的演化可能性。

现状：作为生产力工具的 AI

AI Coding

AI Coding 短期已经达到生产可用，能显著提升程序员 Coding 效率，长期还是 AGI 本身核心的能力，有现在也有未来，自然是最热门的方向，Cursor / Windsurf / Lovable / Augment 层出不穷。

AI Coding 除了给程序员提效，也开始覆盖到其他互联网从业者，设计师/产品/运营/自媒体等，让原本不会写程序的人 0 门槛通过 AI Coding 做出 demo 和场景，带来 0-1 的新体验。

但目前这些应用，核心是提效。没有 AI Coding，程序员也能写出一样的程序，产品/设计师等也能跟程序员合作快速做出 demo，从产物的形态/目的角度看，做出来的东西没有本质的变化，只是有了 AI Coding，效率提高了一个级别。

AI 视频

AI 视频过去一年可灵/即梦/Runway/Veo 等模型持续进化，指令遵循、画面稳定性一直在增强，在一些场景达到了生产可用，提升了 CG 制作、商品广告等视频场景的生产效率。

AI 视频也覆盖到广大自媒体用户，以前需要一个 CG 团队才能做出来的视频，现在一个人可以创作出来，例如橘猫/风格化视频等，给创作者带来 0-1 的新体验，发布到小红书/抖音等平台获利，AI 视频部分代替了基于摄像头实拍的内容，成为新的一种生产力工具。

AI Coding 和 AI 视频作为生产力工具毋庸置疑会带来巨大的价值，也是现在正在发生和快速增长的。

不确定的是，随着能力的持续提升，使用的门槛的持续降低，AI Coding 和 AI 视频的使用人群是否能进一步覆盖更广到亿级大众用户，带来生产力目的以外新的东西，催生新的偏社交/娱乐的内容平台？

大众化和新平台的可能性

类比

从历史上找，有两个可类比的领域：

拍摄

拍摄从早期专业人士才能操作，到现在大众化的手机拍摄，创作工具能力极大提升，带来门槛极大降低，普惠到大众，催生新的内容和平台。
现在专业摄影仍然继续存在于电影电视/广告/艺术等行业，而大众化的拍摄存在于日常生活，脱离了生产力，催生了 Instagram、抖音、朋友圈等这些新的内容和社交平台。
可以想象，AI Coding 和 AI 视频随着门槛降低也可能可以覆盖到大众，催生新的平台。但拍摄的演进过程中伴随了其他巨大的变量：设备和环境的迁移。电脑、互联网、手机设备，与工具的低门槛一起催生了现在的形态，AI 创作只有门槛的降低，缺乏其他大的变量。

3D打印

3D 打印技术的发展，让从以前工厂才能生产实体制品，到 3D 打印的技术发展让每个人都能生产实物制品，3D打印的产物有社交价值（分享/炫耀）、实用价值（3D 打印常制作出工具解决问题），但目前没有内容价值，还是只存在于小众圈子内。
与 AI 创作类似的是，3D 打印的发展是纯工具低门槛化，没有其他变量；差别是 3D 打印是实体世界，与数字世界的规模化扩展性差异巨大。

从类比上并没有特别适配的案例，但不妨碍 AI Coding 和 AI 视频有自己的大众化和演进路径，我们先看看如果工具要大众化和催生新平台，需要什么条件。

消费价值与内容形态

一个工具要大众化，门槛持续降低是必要的但不充分，创作的核心是消费，大部分人有创作欲，但纯粹的创作欲是小众，创作欲更多是社交认同、利益驱动。如果不能分享，大家不会好好拍照，如果没有利益，短视频创作者不会那么多。所以工具要大众化，核心还是创作的内容有高的消费价值，包括消费频次。

但即使人人都创作和分享，也不一定需要新的平台承接，创作产物的形态没有变化，消费场景(硬件/环境)没有变化，原来的社交/内容平台也足以承接。要诞生新的平台，还是得有不同的消费场景或不同的内容形态，导致原来的平台没法很好地承接。我们不考虑新硬件的情况下，主要就看内容形态。

沿着消费价值和内容形态，看看 AI Coding 和 AI 视频的情况。

AI Coding

AI Coding 的产物归类到源头可能就三种：工具、内容容器、游戏。我们拆开来设想一下：

工具：可供大众使用的工具可复用性高，个性化程度低，当前程序员和APP/Web/小程序的量级已经足够大，更多的人群进来用 AI Coding 做小工具，在硬件设备和环境没有变化的情况下不会有太多新的花样，很难出现质变，消费价值和创作频次都不会很高。
内容容器：个人网站、简历、报告、方案等是这一类。借助 Coding 让内容呈现形态多样化，这也是初期可能最容易人人参与创作出来的东西。但这类的核心是内容而不是代码，只是在内容呈现上可能有个20%的体验提升，Coding 的作用不会太大。要说这一类有什么一定要 Coding 才能满足，那就是交互，如果重交互的内容场景和需求足够多，是有希望的。
游戏：游戏的核心是代码，人们对游戏玩法有无限的需求，用户消费频次够高，范围够广，这可能是最有希望的品类。产物不一定是现在形态下的一个个独立小游戏，可能是更看重创作和生成过程的游戏，同时又有消费价值，具体是什么不知道。只是游戏相对复杂，当前 Coding 能力还不够，还没看到苗头。

有足够的个性化差异的可交互产品/游戏，是 AI Coding 可能的出圈点。比如，以个人形象为主角的、融入了自身经历的小游戏；比如，一个可以在里面不断做个性化扩建的自由世界，像“我的世界”。如果有这些新的形态，就会催生一个新的内容平台去承接这一类产品。

AI 视频

AI 视频的产物应用涵盖太广，难以细拆，但近期也看到一些大众化和新形态的可能性：

日常表达：AI 视频是想象力的相机。我们的日常表达，一部分通过摄像头记录和分享，另一部分心情的传达，比较难通过摄像头，在以前更多通过文字，以后可能更多通过 AI 这个想象力的相机。它能把你本来只能用文字描述的心情和感想，转成更容易引起共鸣的画面。近期在抖音上火了一阵的像素风 AI 视频，就是这种感觉。（印象较深的是，勇士队输掉季后赛的那天，看到了一个像素风视频很好表达了郁闷/不甘的心情，很有共鸣，这种心情用真实的图片视频和文字都很难表达）
可交互视频：最近看到 odyssey 发布了可交互视频，40ms 生成一帧，根据用户行动实时生成下一帧，体验上像玩游戏一样。可交互视频可能是 AI 视频生成新形态的关键，它不一定是非常实时的交互，比如看一个剧，可以自己修改剧情走向，看到视频里的一个场景，可以进去这个场景无限扩充看它整个空间，都是可能的场景。

日常心情表达是 AI 视频很能大众化的场景，消费价值和消费频次高，但催生不了新平台，生成的视频都会回到原来的内容/社交平台上。可交互视频这种衍生的形态，才会需要一个新的平台去承接。

新形态的核心：交互

看下来无论是 AI Coding 还是 AI 视频，交互都是新内容形态的关键点。

因为这波 AI 浪潮是生成式 AI，生成的产物都是业界已有的形态，如果只看生成的产物，在没有新的硬件设备、使用环境等其他变量的情况下，只会有生产效率的提升，很难诞生新的内容形态和平台。

生成式 AI 真正独特的地方，是生成的过程。需要用户频繁通过生成产生交互的场景，才会是新的内容场景，才能产生新的内容形态。

AI Coding 和 AI 视频都有在各自领域里通过交互产生新的内容形态的可能。另一种可能是，这两者做进一步的结合，逻辑+画面都实时生成，不断创造的可玩的虚拟世界，可能又能回到元宇宙的概念。

这些新的形态和玩法，可能会像当时 Snapchat 刚出来时大家看不懂，难以理解，但就是能戳中年轻一代的诉求，值得探索和期待。

豆包的双重水印

石樱灯笼博客

石樱灯笼

2025年6月3日 16:48

字节不仅没活，而且玩不起。

玩不起也就算了，还搞出笑话。

（自上篇文章写完之后，这最近十多天我都没怎么打开过豆包，所以这些事情的具体发生日期不确定）

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

豆包开始封杀无水印图片获取方法

之前最基本的方法就是，直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的，而且下载图是带水印的，所以没必要再去点击下载。

之所以有这么个办法，即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的 。

然后大约5月28日左右，网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15

豆包的二次水印

这玩意就搞笑。

首先预览图带水印，然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印，CPU随便用，存储空间不要钱，带宽流量狠劲浪。

豆包视频的双重水印

豆包当然在服务器端是有保存无水印，看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了？

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的，我解释一下：

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确，是为了 免去用户手动下载图片，然后再重新上传图片到网站，浪费资源 。

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候，是把 预览图 下载到本地，然后转码成BASE64。然后在 「生成视频-发送」 时，却又并不提交浏览器缓存的图片或BASE64，而是直接提交了一堆ID和Token，但是这些ID和Token引用的，是服务器端保存的 带水印的预览图 ，所以最后生成的视频文件，同时带有 预览图水印 和 视频水印 。

如果梳理一下他们这奇葩行为的流程的话：

二次下载预览图（会调用浏览器缓存，不浪费带宽，可以理解，但是干啥用？）
把预览图转码成BASE64（干啥用？）
提交ID和Token而不是图片（正确操作）
调用的是服务器端保存的带水印的预览图（有病啊）
在生成的视频上打水印（在屎上拉屎）

screenshot_7734397622634242-20250602174504

他这玩意，在16:9和4:3以及1:1横向视频上问题还不严重，毕竟两个水印叠加在一起了。但是在9:16纵向视频上，以及21:9宽屏视频上，水印不论位置还是大小都不一样，很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频，他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司，甚至都不关心竖屏视频的输出结果。

PS1：豆包现在线上输出的视频分辨率小于720p，现在是一个很奇葩的数值，16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

（这破公司怎么想的）

PS2：假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ，输入完文字（一般是复制粘贴）直接敲回车键提交的话，那么将会以 无首帧图 的场景下，进入 文字生成视频 的流程。还挺滑稽的，以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24

豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面，那么回到页面时，点开缩略图展开的预览图片，不是真正的预览图片，而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能，崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化，刻板印象真的表现得淋漓尽致。

以后如何获取无水印图片

除非豆包重新放开渠道，否则想要直接获取无水印图片是比较困难了。

当然，这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印：

screenshot_7875414228876802-20250603160359-1506-watermark

无水印：

screenshot_7875414228876802-20250603160359-1506

对比：

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子：

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓，现在豆包的输出结果，只要是接触过豆包AI的，一眼就能看出来是豆包3.0的视觉模型，

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层人皮在外边卖服务吧 …… 不过考虑到字节旗下的用户，还真说不准。来个闲鱼修图业务，套人皮用免费AI收费改图。

有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵，还能有人觉得AI现在不会自行污染了？

至少我是会在图片上额外再打一个水印的，但是我打的水印AI能不能识别到都不一定。

结尾

我之前做了一个无水印下载脚本，当时遇到了不少问题，比如跨域图片下载，下载图片的命名。

本身豆包页面就有不计其数的逻辑错误，我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ，点开下载视频按钮直接打开视频，需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式，搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧，其实字节根本就没有高端用户，顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧，最多就是少了一个玩具而已。

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

石樱灯笼博客

石樱灯笼

2025年5月22日 23:42

看来字节没活了。

（注1：文章具有时效性）
（注2：文章包含大量图片。为照顾布局，部分图片有经过剪切，与线上排版有差异）

前提

建议先读我之前写的这篇文章：《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲，我4月末写的那篇文章，差不多是豆包这超能创意的更新，但是他们的文档5月14日才出来。

而且现在状态还是灰度测试？那我之前三个星期用的是啥玩意？

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档，那就能明确他这玩意到底都更新了个啥，不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事？TMD这是想要抓截图的人吗？我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

（我甚至担心，别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码）

另外，啥叫 超能创意 1.0 版本不稳定，建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」，怎么在图像生成之外使用？难道还有其他的灰测？

隔夜饭还是馊的

首先我得勘误一个事情，这个「超能创意 1.0」实际上在4月25日出过更新内容，只不过我上一篇文章却是从4月22日开始写，一直写了5天（你就说有多慢吧），期间也没有仔细检查过他们的更新通知，而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你：理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的，连传送门都有。

而且，它到底理解了个啥？

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

（车头对着少女，这明显是公交车进站啊）

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是智力只有小学生程度的用户吧？公主被抓走什么的，我直接用更精确的难过上心流泪这些形容词不就好了？

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

（你发散思维时，至少把人物主体的手画对好吧？）

只能说这玩意只有在输入的内容过少的时候，自由发挥时有用。但是自由发挥的范围却是不可控的，谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂，遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得，把你整体构图都改了。

图片处理

你玩我是吧？

这TM不还是 参考图/智能编辑 ？

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的伪人？

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过，这个功能的最大边长是1312，而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与参考图/智能编辑唯一的区别在于，入口不是按钮，而是在对话里直接对话执行……有那个必要吗？

这玩意唯一的优点就是，可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创：灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ，又来？！？！

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题？

我之前也说过，用这玩意讲故事的话，有严重的连续性的问题，改了？

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ，四格就崩得金瞳变蓝瞳，长直变马尾，还把腰给搞没了。

更别说我本身不想使用这个功能的时候，也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆？！

……

不对劲！

莫非文档是错的？这功能本来就不是文档例子里那么用？

保持主体不变：

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化：

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ，这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题，真的着实不靠谱。

超效率：批量生成 + 自适应：比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过，就是你手动输入生成超过20条的时候，他会按照两个阶段输出。比如输出32张，那就先输出20张，再输出12张。比例也是一样的。

输出4张是为了调整关键字，输出20张是为了批量结果然后在其中挑选，输出超过20张那基本脑子有病。

万千：风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风，实际上背景构图姿势全都变了。

人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个：

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图，没有放在首页里，但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取，所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接，看到带着各种报错信息的例子 ，比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了，把日志打到用户侧也实在是太……傲慢。

开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本，不能选模型分类，现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级，新版则是模型乱跑。

不识数的问题更严重了

之前文章说过，有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量，手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了，还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车，你上了车说要去美食城，司机却说美食城有啥好玩的我带你去更好的地方，说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候，却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候，比如「过膝靴」和「过肘手套」，「过膝袜」和「手臂抵住膝盖」，精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚，有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过，4月份更新的时候，多了个敏感词/违禁词提示。这功能不说好坏，至少能让用户知道某些词不能用。现在，没了。

现在的情况，要不就是直接弹个黄框然后没反映，要不就是输出4个你看不到的图片，要不就是在有上文的情况下直接忽视敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成敏感词/违禁词被截图也会很尴尬吧。

更诡异的敏感词/违禁词

（写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块，我目前只能说的确有更诡异的敏感词/违禁词，而且视频生成还有额外的一套敏感词/违禁词，而且还有图像识别用来检查输入图像是否合规，尤其是豆包自己AI生成的图片也有可能无法通过审查，而使用与豆包相同模型的即梦AI的审查更严格）

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是敏感词/违禁词我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧？还是说因为内容主体是女性，只能「喷」而不能「射」？

中国人的AI的想像也能在这一层能够如此跃进吗？

NTM 要是能在内容上精确，而不是在敏感词/违禁词上也瞎「创意」就好了。

是时候破案了

之前文章中有写到过，豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的，这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

（想想看假如真的是国内网站被 DNS污染 ，还挺搞笑的）

在 hosts 里添加了个静态地址，稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开，而且文档也写得稀烂，所以我之前没怎么看过。其实现在我也不想看。

简单来讲，豆包线上用的文生图模型是：doubao-seedream-3.0-t2i，而「参考图/智能编辑」功能其实在学名上是叫做 「图生图」 ，而这个功能只有 2.0 和更旧的版本支持。不仅如此，官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了，模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」功能其实是把图片走了另一套逻辑，进的另一个旧模型，输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度，已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何？

（因为这文章是写完主题后查漏补缺补的，所以顺序有点乱）

这里要用到与豆包使用同样模型的收费工具：即梦AI。

（关于即梦的介绍见文章后部分）

动画模型

我用相同的提示词，不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出，2.0的图片虽然看起来很花俏，但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的（除非当作无目标的玩具瞎玩）

（但是2.0的妹子，胸大，穿得短，露得多……？？？？？？）

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看，毕竟这玩意风格都不一样，简直就是换了个人画画，作画方向不一样，风格也不一样，说不了谁好谁坏。

但是论精度，肯定是3.0的更靠谱，因为这些图片都是在2.0先出图后，在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话（出4张图能有3张图匹配一定的文字描述），那2.0的精度差不多是 1/16 （出16张图能有3张图匹配一定的文字描述）。我只能说「一定程度上」的，因为大部分时候你怎么折腾，3.0都匹配不上，更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿，结果一个坐地上，一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错，手套画错，没画鞋，衣服画错，手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露，你把我参考图/智能编辑的腰搞没了干什么？

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图，假如有人说这是张真人高P图，大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了，3.0原图的细节也被抹掉不少。

人像这块就不用对比了，2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说：豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型，付费服务比免费服务还烂，是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型，不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利，因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具：即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

（能看到使用与豆包相同模型的即梦AI，高版本模型同样没有「参考图/智能编辑」功能）

事实上如今市场上有相当多的AI生成工具，而且大部分都是收费的，仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具，而付费服务价格非常高，作为短期玩具花大钱不值得，作为长期工具，这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的？

之前文中没写过（但是评论里有提到过），现在的AI出图工具一般是有 「积极提示词」 和 「消极提示词」 两种提示词入口的，但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有：

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

（所以我说你把错误日志打印到用户侧实在太过于傲慢了）

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词，不会被用户输入影响。

不仅如此，prompt 还并不是你的文本输入，而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西，而这玩意在报错崩溃之前，你是看不到的，更没办法调整。

更搞笑的是，同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

（把人类当工具，把工具当爹）

只不过 DeepSeek 这玩意吧，你只给一张图片然后让他发散的话，大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有收敛这一个能力，你还让人家发散。

那就顺便把视频生成也讲一点吧

参见这个视频：【AI 参考图/智能编辑 + 图片生成视频效果展示。】

我把部分AI生成的原图片和使用参考图/智能编辑的图片，使用支持首尾帧的AI视频功能穿起来，然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远，所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0，其输出质量也远比图形模型3.0差很远。

结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来，重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」，而且由于文生图和图生图模型之间差异巨大，越整越烂。

不过说到底，豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件，其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能，输出质量虽然一言难尽（模型应该也是1.5-2.0之间的水平，跟3.0差远了），好歹聊胜于无。

相对来讲，豆包反而良心多了。

其他 付费软件 的输出质量更差，我真的理解不了会有什么人高价买会员。

当然，每年都720充魔兽世界年卡然后完全不玩不上线的人，我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年：https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年：

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺？

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

尽信AI不如无AI

我的天

xrspook

2025年5月16日 08:12

何不委心任去留

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

小赖子的英国生活和资讯

JustYY.com 小赖子的英国生活和资讯

2025年5月15日 01:21

今天在一个群里看到四张由字节的豆包（Doubao AI）生成的美女图，着实震撼。现在的AI技术已经发展到这种程度了吗？

刚开始我还以为是真人照片，直到注意到右下角写着“豆包AI”。不得不说，字节的这波操作真是让不少男性同胞“受益”匪浅（字节豆包模型训练数据很可能有来自其抖音和Tiktok平台，所以更懂男性）。AI的进化速度之快令人惊叹，各大模型之间也越来越“内卷”。很多行业都在被AI渗透：程序员、设计师、律师、医生……并不是说这些岗位会因此消失，但竞争会更加激烈，岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说，卷得只会更厉害。

这四张图完全击中了我的审美：美女站在镜子前自拍，高跟鞋、短裙、长发、身材丰满，每一处细节都恰到好处，而且看起来毫无“AI感”。

注意美女脚上的青筋，还有手机闪光，阴影等，细节很细致。

其实我已经很久没有关注AI生成美女图了，之前总觉得那些图风格千篇一律，容易审美疲劳，也可能是提示词的问题。

这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成，毕竟这种尺度对某些AI来说可能有些“越界”，系统可能直接提示：“不符合规定，无法生成”。

2025-05-14-10.19.09 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.16-1 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.22.27 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.13 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根