阅读视图

发现新文章,点击刷新页面。

咖啡厅的信息接收器

我很喜欢在咖啡厅写东西,是因为写东西的同时我可以随时分心,电脑界面一边是正在创作的内容,而另一边单开的页面是随时随地都能接受四面八方来的信息。

无意偷听,就是天生对这类信息非常敏感,从聊天内容到情绪变化,都是信息接收的一部分。

比如此时此刻,有一个正在电话面试的年轻男性,有一些情绪失控地在反驳电话另一端的面试官,根据他们聊天的内容,大概是因为提及到了「利用 AI 工作」的话题,年轻男人回应道:

AI 不能解决任何事,自己不可能被 AI 替代,他觉得坚持自己的原则,不利用 AI 是一种工作态度,而不是能力问题。

这是一段掐头去尾的聊天内容,当我决定要好好观察他时,他已经把情绪发泄在了收拾自己的电脑上面,气鼓鼓地走了。同时察觉到这份情绪的,是在他身后正在聊天的一对刚热恋不久的情侣,他们在聊感情观的同时也被这个年轻男性的愤怒吓了一跳,他们虽然在聊感情观,却用了一个非常危险的「问题」来引出这个话题:

你为什么结束了上一段关系啊?

两人都说了经典却毫无意义的台词「不合适」,彼此的答案都在敷衍对方,所以彼此都没办法把这个话题深入下去,所以他们沉默了一阵,还好被身后那个背上书包带着情绪拖动椅子的年轻男人给打破了。

和我一样在等这个情感问题真实答案的,是一个正在情侣附近用电脑做 PPT 的上班族女性,在等答案的时候,她停下了手中的工作,却又因为听到这么无聊的答案,从鼻腔里挤出了一声轻蔑的笑,她意识到这个动作后,立马假装鼻子不舒服用纸擦了擦鼻子。年轻女性显然不接受这个答案,所以她瞥了一眼这对情侣。然后继续手里的工作,给 AI 输入指令,为她制作 PPT。

另一个正在工作的女性,是在咖啡厅的吧台工作的店长,她正在处理一杯客人退回的饮料,大概是糖分的问题,是她拦下了正准备和客人争吵的店员,深吸一口气后让饮料开始重新制作。我想她经常遇到这样的事情,所以早就处变不惊——如果这一切都用 AI 替代呢?未来的咖啡厅不再有柜台,而是一个冷冰冰的机器,它绝对不会出错,也会因为是人与机器的操作,在付款那一刻契约已经生成,消费者不能再以任何的主观上的要求去为难机器再重新制作一杯,没有人情味的咖啡,是否意味着咖啡的味道也跟着改变了?

本来想要和客人争执的店员有些气不过,离开了收银台,走到女店长耳语着,或许还是在解释自己并没有工作失职,女店长笑了笑拍了拍年轻店员的肩膀。那个要求重做咖啡的女人并不在乎眼前发生的一切,她已经赢了这场重做咖啡的游戏,她正在拿着手机找角度和光源自拍。当时她也一点不重要,因为没人愿意成为她的观众。女店长也是这样认为,所以她面无表情地把重新做好的咖啡放在桌面上提醒女性自己拿走,然后立马切换了表情,笑容满面地接待下一个点单的客人。

硬要说,人们仍然觉得这是 AI 做不到的,个人喜好、主观评价、以及他们可以为自己的工作做出细微但巧妙的调节。

这时,又来了一个男性客人,向吧台递出一个空杯子索要一杯纯净水。年轻店员正准备接过空杯子,被女店长打断了,她示意客人将杯子放在吧台上,然后命令店员重新拿一个新的空杯再接水给客人。

我被这个细节吸引走了所有的关注,为什么会存在这个 SOP,在它的背后是不是藏着一个更庞大的历史事件和剧情,比如男人在空杯子里提前准备好了迷药,在咖啡厅过手接水的那一刻,责任被连带给了咖啡厅……

犯罪,永远在规则之前,人的意识,也在 AI 之前吧。或许。

为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox)


莫拉维克悖论是什么?

莫拉维克悖论(Moravec’s Paradox)是人工智能与机器人学中的一个重要观察结果。

一句话总结

“对于人类来说简单的事情,对机器却很难;而人类觉得复杂的事情,机器却往往很容易。”

悖论的由来

  • 由 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 1980 年代提出
  • 他们注意到:计算机能轻松完成逻辑推理,却难以感知与运动:让计算机进行高等数学、下棋、逻辑推理等任务相对容易;但让计算机像人类一样“感知世界”和“移动身体”——比如走路、抓取物体、识别人脸——却非常困难。

为什么会出现这种现象?

  1. 进化时间差

    人类的感知与运动系统经过数亿年进化,极度复杂;抽象思维是最近几千年才发展出的新能力。感知与运动能力(比如视觉处理、走路、抓握)是人类在数亿年的进化中逐步发展出来的,极其高效而复杂。抽象逻辑和符号推理(比如数学、象棋)则是人类近几千年才发展出的“新技能”,反而对人类来说相对“费力”。

  2. 神经资源分配不同

    大脑的大部分区域用于处理感知与运动,只有小部分用于逻辑与推理:大脑皮层中,有大量区域用于视觉、听觉、运动控制等感知与行动;相比之下,用于抽象思维的区域相对较小。

  3. 我们低估了“本能”的复杂性

    比如走路、看东西、抓杯子——这些能力虽然自动完成,但对机器来说极其复杂:因为感知与行动是无意识自动完成的(比如:走路时你不需要思考每一步如何移动),人类通常低估了这些任务的复杂性。

经典对比案例

任务 人类 机器
玩象棋 容易(如 AlphaZero)
解微积分题 容易(符号计算软件)
面部识别 容易 曾经极难,现在勉强可行
走路/抓物 容易 极其困难(机器人领域难点)
理解语境与讽刺 容易 仍然很困难

与现代AI的关系

近年来,随着深度学习、神经网络和传感器技术的发展,某些“莫拉维克难题”已经被部分攻克,如:

  • 计算机视觉(如人脸识别、物体检测)已大幅进步;
  • 机器人控制仍然困难(例如 Boston Dynamics 的机器狗用了几十年发展)。
  • 但整体来说,莫拉维克悖论仍然成立,特别是在人类对语境、常识、情感的直觉理解方面,AI 依然逊色很多。

悖论对当代AI的启示

  • 深度学习解决了部分“感知难题”,如图像识别与语音识别
  • 机器人控制和人机交互仍是巨大挑战
  • 莫拉维克悖论提醒我们:真正的智能不在棋盘上,而在厨房里

未来展望

  1. 在构建 AGI(通用人工智能)时,不能只强调逻辑推理能力
  2. 理解感知、常识、直觉与情感才是构建类人智能的关键
  3. 莫拉维克悖论仍然有效,是AI研究者不可忽视的指导法则

总结

莫拉维克悖论揭示了人类智能的深层次本质:最普通的能力,往往是最不平凡的进化成果。莫拉维克悖论提醒我们:真正智能的“简单事”,往往隐藏着极端复杂的机制。它对于AI研究者、机器人开发者具有指导意义——不要把看似简单的任务想得太简单,也不要对AI过早“类人化”。

人工智能 / Artificial Intelligence

英文:What is Moravec’s Paradox?

本文一共 974 个汉字, 你数一下对不对.
为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox). (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec's Paradox) 人工智能 (AI) 资讯
The post 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox) first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  3. 在英国给孩子换学校的经历: 孩子离开了村里的小学 由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
  4. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  5. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
  6. 公司请的专业摄影师 公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
  7. 力扣 Leetcode 的刷题利器: 在线调试器和自动代码提示完成 力扣代码调试器 Debugger 最近 leetcode 刷题网站出了一个在线调试器. 个人感觉非常好用. 因为我平时是用 IPAD+蓝牙键盘来刷题, 而在 ipad 上是没有集成的IDE的, 对于调试来说, 只能很原始的让函数退出一个值, 然后尝试不同的输入来发现问题. leetcode在线调试器的好处...
  8. 公司给配了台高配DELL笔记本 早上例会结束的时候我顺便说了一句 我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”


近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计:复杂性可控的逻辑谜题

研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。

  • 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。
  • 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。
  • 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。

模型推理能力的“崩溃”与“偷懒”

  1. 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。
  2. 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级 模型类型 表现趋势 备注
普通大语言模型 准确率较好 推理模型表现一般
推理模型(含链式思考) 准确率提升 链式思考开始有效
所有模型 准确率急剧下降至0 模型推理“崩溃”并“放弃”

专家观点与行业影响

  • Gary Marcus:该研究“毁灭性”,打破了大语言模型快速通向通用人工智能的幻想。
  • Andrew Rogoyski:当前推理模型已遇瓶颈,现有方法或进入“死胡同”。

苹果的AI发展战略解读

  • 此次研究发布正值 WWDC 2025 前夕,体现苹果强调“设备端效率”和“实际应用价值”,反对盲目追求模型规模和复杂度。
  • 苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术,但表现平平,此次研究进一步证明稳扎稳打才是长远之计。

未来方向与思考

  • 建立无数据泄露风险的逻辑谜题评测基准,避免传统 benchmark 偏差。评估基准的重塑:苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI,以避免传统 benchmark 的偏差。
  • 引入符号逻辑和神经符号混合技术,突破纯统计学习的限制。融合思维范式:当前 LLM 的“链式思考”是统计学习,并不是真正的推理。未来可能引入 符号逻辑、神经符号混合 等技术路径。
  • 结合专用推理子系统,提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络:苹果研究者曾指出,搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。

总结

  • 链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
  • 未来AI发展需要超越纯数据驱动的模式匹配,向可解释、可操作的逻辑机制进化。
  • 苹果此次研究为业界敲响警钟,也明确了其在AI道路上的稳健路线。

相关引用示例代码(伪代码展示算法示意)

以下是汉诺依塔(Hanoi)的递归算法:

function solveTowerOfHanoi(n, from, to, via) {
  if (n == 0) return;
  solveTowerOfHanoi(n-1, from, via, to);
  moveDisk(from, to);
  solveTowerOfHanoi(n-1, via, to, from);
}

评论

缺乏物理世界的规律认知。

Meta的那个scientist一直说现在的LLM不能理解物理世界,所欲AGI肯定不是llm。

其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。

when it scales.. 会出现 智能”涌现”的现像,就是一个黑箱。

脑科学,涌现。其实想想人脑真挺厉害的,而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作,例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练,也许正确的道路是战锤里面的湿件,血肉苦弱,机械飞升。

lecun说的没问题 目前的llm就还是统计模型 物理世界数据太少了所以无法理解。

也有人质疑这个论文,说不是推理不出来,是token限制。数据太少了无法大量训练。它论文里有一块,说模型在不同puzzle中的表现不一致,可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据,只是单纯的假设了一下。我感觉有点不严谨。

脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。

人脑带宽就10bit,但这是真推理,人脑做决策,计算量很小,但是每秒能处理很多大量的工作。我的脑子这么屌,为什么一个月才值 3000。

但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明,训练需要几百万年,做推理的时候计算量很小,利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。

人类有集体潜意识 是训练几百万年 通过遗传留下来的weight。

脉冲很稀疏,虽然也还只是特别粗糙的模拟,但是也有一些应用价值。

计算机就是靠易经发明的 所以得回到道教里面去找灵感怎么搞AI。

参考文献

新闻/实事/经济

人工智能 / Artificial Intelligence

本文一共 1899 个汉字, 你数一下对不对.
苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” 人工智能 (AI) 新闻 科技 资讯
The post 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  3. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  4. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
  5. 老婆的配偶签证被拒 郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供 有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....
  6. 公司给配了台高配DELL笔记本 早上例会结束的时候我顺便说了一句 我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...
  7. 花钱让人换汽车钥匙的电池真是个智商税 今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
  8. Microbit 编程: 简易人工智能让电脑玩游戏 上一周, 我们在 Microbit 上编写了第一个游戏: 吃苹果. 我两儿子很喜欢玩, 他们互相比着最高分, 大概极限是35分. 吃苹果的游戏代码和Microbit模拟器: https://makecode.microbit.org/_DV93uT7i0WuK 可能有极限吗? 即使我们做出足够迅速的反应并且没有犯错, 会出现怎么样也无法抓住苹果的情况吗? 人工智能简介-让计算机玩游戏 AI被称为人工智能,...

AI Coding 与 AI 视频:从生产力工具到大众内容平台

数字世界的创作和内容,最重要的是程序和视频。程序负责逻辑、互动;视频负责信息的表达、感知。

2024年2月 Sora 概念发布,6月可灵发布,AI 视频开始发展。同年 6月 Claude 3.5 Sonnet 发布,8月 Cursor 接入,AI Coding 开始狂奔。

回想起来只过了一年时间,但已经经历了很多的变化,想探讨一下这两个核心 AI 领域的演化可能性。

现状:作为生产力工具的 AI

AI Coding

AI Coding 短期已经达到生产可用,能显著提升程序员 Coding 效率,长期还是 AGI 本身核心的能力,有现在也有未来,自然是最热门的方向,Cursor / Windsurf / Lovable / Augment 层出不穷。

AI Coding 除了给程序员提效,也开始覆盖到其他互联网从业者,设计师/产品/运营/自媒体 等,让原本不会写程序的人 0 门槛通过 AI Coding 做出 demo 和场景,带来 0-1 的新体验。

但目前这些应用,核心是提效。没有 AI Coding,程序员也能写出一样的程序,产品/设计师等也能跟程序员合作快速做出 demo,从产物的形态/目的角度看,做出来的东西没有本质的变化,只是有了 AI Coding,效率提高了一个级别。

AI 视频

AI 视频过去一年 可灵/即梦/Runway/Veo 等模型持续进化,指令遵循、画面稳定性一直在增强,在一些场景达到了生产可用,提升了 CG 制作、商品广告等视频场景的生产效率。

AI 视频也覆盖到广大自媒体用户,以前需要一个 CG 团队才能做出来的视频,现在一个人可以创作出来,例如橘猫/风格化视频等,给创作者带来 0-1 的新体验,发布到小红书/抖音等平台获利,AI 视频部分代替了基于摄像头实拍的内容,成为新的一种生产力工具。

AI Coding 和 AI 视频作为生产力工具毋庸置疑会带来巨大的价值,也是现在正在发生和快速增长的。

不确定的是,随着能力的持续提升,使用的门槛的持续降低,AI Coding 和 AI 视频的使用人群是否能进一步覆盖更广到亿级大众用户,带来生产力目的以外新的东西,催生新的偏社交/娱乐的内容平台?

大众化和新平台的可能性

类比

从历史上找,有两个可类比的领域:

拍摄

  • 拍摄从早期专业人士才能操作,到现在大众化的手机拍摄,创作工具能力极大提升,带来门槛极大降低,普惠到大众,催生新的内容和平台。
  • 现在专业摄影仍然继续存在于电影电视/广告/艺术等行业,而大众化的拍摄存在于日常生活,脱离了生产力,催生了 Instagram、抖音、朋友圈等这些新的内容和社交平台。
  • 可以想象,AI Coding 和 AI 视频随着门槛降低也可能可以覆盖到大众,催生新的平台。但拍摄的演进过程中伴随了其他巨大的变量:设备和环境的迁移。电脑、互联网、手机设备,与工具的低门槛一起催生了现在的形态,AI 创作只有门槛的降低,缺乏其他大的变量。

3D打印

  • 3D 打印技术的发展,让从以前工厂才能生产实体制品,到 3D 打印的技术发展让每个人都能生产实物制品,3D打印的产物有社交价值(分享/炫耀)、实用价值(3D 打印常制作出工具解决问题),但目前没有内容价值,还是只存在于小众圈子内。
  • 与 AI 创作类似的是,3D 打印的发展是纯工具低门槛化,没有其他变量;差别是 3D 打印是实体世界,与数字世界的规模化扩展性差异巨大。

从类比上并没有特别适配的案例,但不妨碍 AI Coding 和 AI 视频有自己的大众化和演进路径,我们先看看如果工具要大众化和催生新平台,需要什么条件。

消费价值与内容形态

一个工具要大众化,门槛持续降低是必要的但不充分,创作的核心是消费,大部分人有创作欲,但纯粹的创作欲是小众,创作欲更多是社交认同、利益驱动。如果不能分享,大家不会好好拍照,如果没有利益,短视频创作者不会那么多。所以工具要大众化,核心还是创作的内容有高的消费价值,包括消费频次。

但即使人人都创作和分享,也不一定需要新的平台承接,创作产物的形态没有变化,消费场景(硬件/环境)没有变化,原来的社交/内容平台也足以承接。要诞生新的平台,还是得有不同的消费场景或不同的内容形态,导致原来的平台没法很好地承接。我们不考虑新硬件的情况下,主要就看内容形态。

沿着消费价值内容形态,看看 AI Coding 和 AI 视频的情况。

AI Coding

AI Coding 的产物归类到源头可能就三种:工具、内容容器、游戏。我们拆开来设想一下:

  1. 工具:可供大众使用的工具可复用性高,个性化程度低,当前程序员和APP/Web/小程序的量级已经足够大,更多的人群进来用 AI Coding 做小工具,在硬件设备和环境没有变化的情况下不会有太多新的花样,很难出现质变,消费价值和创作频次都不会很高。
  2. 内容容器:个人网站、简历、报告、方案等是这一类。借助 Coding 让内容呈现形态多样化,这也是初期可能最容易人人参与创作出来的东西。但这类的核心是内容而不是代码,只是在内容呈现上可能有个20%的体验提升,Coding 的作用不会太大。要说这一类有什么一定要 Coding 才能满足,那就是交互,如果重交互的内容场景和需求足够多,是有希望的。
  3. 游戏:游戏的核心是代码,人们对游戏玩法有无限的需求,用户消费频次够高,范围够广,这可能是最有希望的品类。产物不一定是现在形态下的一个个独立小游戏,可能是更看重创作和生成过程的游戏,同时又有消费价值,具体是什么不知道。只是游戏相对复杂,当前 Coding 能力还不够,还没看到苗头。

有足够的个性化差异的可交互产品/游戏,是 AI Coding 可能的出圈点。比如,以个人形象为主角的、融入了自身经历的小游戏;比如,一个可以在里面不断做个性化扩建的自由世界,像“我的世界”。如果有这些新的形态,就会催生一个新的内容平台去承接这一类产品。

AI 视频

AI 视频的产物应用涵盖太广,难以细拆,但近期也看到一些大众化和新形态的可能性:

  1. 日常表达:AI 视频是想象力的相机。我们的日常表达,一部分通过摄像头记录和分享,另一部分心情的传达,比较难通过摄像头,在以前更多通过文字,以后可能更多通过 AI 这个想象力的相机。它能把你本来只能用文字描述的心情和感想,转成更容易引起共鸣的画面。近期在抖音上火了一阵的 像素风 AI 视频,就是这种感觉。(印象较深的是,勇士队输掉季后赛的那天,看到了一个像素风视频很好表达了郁闷/不甘的心情,很有共鸣,这种心情用真实的图片视频和文字都很难表达)
  2. 可交互视频:最近看到 odyssey 发布了可交互视频,40ms 生成一帧,根据用户行动实时生成下一帧,体验上像玩游戏一样。可交互视频可能是 AI 视频生成新形态的关键,它不一定是非常实时的交互,比如看一个剧,可以自己修改剧情走向,看到视频里的一个场景,可以进去这个场景无限扩充看它整个空间,都是可能的场景。

日常心情表达是 AI 视频很能大众化的场景,消费价值和消费频次高,但催生不了新平台,生成的视频都会回到原来的内容/社交平台上。可交互视频这种衍生的形态,才会需要一个新的平台去承接。

新形态的核心:交互

看下来无论是 AI Coding 还是 AI 视频,交互 都是新内容形态的关键点。

因为这波 AI 浪潮是生成式 AI,生成的产物都是业界已有的形态,如果只看生成的产物,在没有新的硬件设备、使用环境等其他变量的情况下,只会有生产效率的提升,很难诞生新的内容形态和平台。

生成式 AI 真正独特的地方,是生成的过程。需要用户频繁通过生成产生交互的场景,才会是新的内容场景,才能产生新的内容形态。

AI Coding 和 AI 视频都有在各自领域里通过交互产生新的内容形态的可能。另一种可能是,这两者做进一步的结合,逻辑+画面都实时生成,不断创造的可玩的虚拟世界,可能又能回到元宇宙的概念。

这些新的形态和玩法,可能会像当时 Snapchat 刚出来时大家看不懂,难以理解,但就是能戳中年轻一代的诉求,值得探索和期待。

豆包的双重水印

字节不仅没活,而且玩不起。

玩不起也就算了,还搞出笑话。


(自上篇文章写完之后,这最近十多天我都没怎么打开过豆包,所以这些事情的具体发生日期不确定)

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

豆包开始封杀无水印图片获取方法

之前最基本的方法就是,直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的,而且下载图是带水印的,所以没必要再去点击下载。

之所以有这么个办法,即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的

然后大约5月28日左右,网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15


豆包的二次水印

这玩意就搞笑。

首先预览图带水印,然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印,CPU随便用,存储空间不要钱,带宽流量狠劲浪。


豆包视频的双重水印

豆包当然在服务器端是有保存无水印,看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了?

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的,我解释一下:

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确,是为了 免去用户手动下载图片,然后再重新上传图片到网站,浪费资源

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候,是把 预览图 下载到本地,然后转码成BASE64。然后在 「生成视频-发送」 时,却又并不提交浏览器缓存的图片或BASE64,而是直接提交了一堆ID和Token,但是这些ID和Token引用的,是服务器端保存的 带水印的预览图 ,所以最后生成的视频文件,同时带有 预览图水印视频水印

如果梳理一下他们这奇葩行为的流程的话:

  1. 二次下载预览图(会调用浏览器缓存,不浪费带宽,可以理解,但是干啥用?)
  2. 把预览图转码成BASE64(干啥用?)
  3. 提交ID和Token而不是图片(正确操作)
  4. 调用的是服务器端保存的带水印的预览图(有病啊)
  5. 在生成的视频上打水印(在屎上拉屎)

screenshot_7734397622634242-20250602174504

他这玩意,在16:9和4:3以及1:1横向视频上问题还不严重,毕竟两个水印叠加在一起了。但是在9:16纵向视频上,以及21:9宽屏视频上,水印不论位置还是大小都不一样,很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频,他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司,甚至都不关心竖屏视频的输出结果。

PS1:豆包现在线上输出的视频分辨率小于720p,现在是一个很奇葩的数值,16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

(这破公司怎么想的)

PS2:假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ,输入完文字(一般是复制粘贴)直接敲回车键提交的话,那么将会以 无首帧图 的场景下,进入 文字生成视频 的流程。还挺滑稽的,以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24


豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面,那么回到页面时,点开缩略图展开的预览图片,不是真正的预览图片,而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能,崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化,刻板印象真的表现得淋漓尽致。


以后如何获取无水印图片

除非豆包重新放开渠道,否则想要直接获取无水印图片是比较困难了。

当然,这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印:

screenshot_7875414228876802-20250603160359-1506-watermark

无水印:

screenshot_7875414228876802-20250603160359-1506

对比:

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子:

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓,现在豆包的输出结果,只要是接触过豆包AI的,一眼就能看出来是豆包3.0的视觉模型,

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层 人皮 在外边卖服务吧 …… 不过考虑到字节旗下的用户,还真说不准。来个闲鱼修图业务,套人皮用免费AI收费改图。


有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵,还能有人觉得AI现在不会自行污染了?

至少我是会在图片上额外再打一个水印的,但是我打的水印AI能不能识别到都不一定。


结尾

我之前做了一个无水印下载脚本,当时遇到了不少问题,比如跨域图片下载,下载图片的命名。

本身豆包页面就有不计其数的逻辑错误,我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ,点开下载视频按钮直接打开视频,需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式,搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧,其实字节根本就没有高端用户,顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧,最多就是少了一个玩具而已。

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

看来字节没活了。

  • (注1:文章具有时效性)
  • (注2:文章包含大量图片。为照顾布局,部分图片有经过剪切,与线上排版有差异)


前提

建议先读我之前写的这篇文章:《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲,我4月末写的那篇文章,差不多是豆包这超能创意的更新,但是他们的文档5月14日才出来。

而且现在状态还是灰度测试?那我之前三个星期用的是啥玩意?

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档,那就能明确他这玩意到底都更新了个啥,不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事?TMD这是想要抓截图的人吗?我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

(我甚至担心,别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码)

另外,啥叫 超能创意 1.0 版本不稳定,建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」,怎么在图像生成之外使用?难道还有其他的灰测?


隔夜饭还是馊的

首先我得勘误一个事情,这个「超能创意 1.0」实际上在4月25日出过更新内容,只不过我上一篇文章却是从4月22日开始写,一直写了5天(你就说有多慢吧),期间也没有仔细检查过他们的更新通知,而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你:理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的,连传送门都有。

而且,它到底理解了个啥?

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

(车头对着少女,这明显是公交车进站啊)

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是 智力只有小学生程度 的用户吧?公主被抓走什么的,我直接用更精确的 难过 上心 流泪 这些形容词不就好了?

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

(你发散思维时,至少把人物主体的手画对好吧?)

只能说这玩意只有在输入的内容过少的时候,自由发挥时有用。但是自由发挥的范围却是不可控的,谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂,遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得,把你整体构图都改了。

图片处理

你玩我是吧?

这TM不还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的 伪人

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过,这个功能的最大边长是1312,而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与 参考图/智能编辑 唯一的区别在于,入口不是按钮,而是在对话里直接对话执行……有那个必要吗?

这玩意唯一的优点就是,可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创:灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ,又来?!?!

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题?

我之前也说过,用这玩意讲故事的话,有严重的连续性的问题,改了?

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ,四格就崩得 金瞳变蓝瞳,长直变马尾,还把腰给搞没了。

更别说我本身不想使用这个功能的时候,也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆?!

……

……

……

不对劲!

莫非文档是错的?这功能本来就不是文档例子里那么用?

保持主体不变:

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化:

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ,这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题,真的着实不靠谱。

超效率:批量生成 + 自适应:比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过,就是你手动输入生成超过20条的时候,他会按照两个阶段输出。比如输出32张,那就先输出20张,再输出12张。比例也是一样的。

输出4张是为了调整关键字,输出20张是为了批量结果然后在其中挑选,输出超过20张那基本脑子有病。

万千:风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风,实际上背景构图姿势全都变了。


人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个:

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图,没有放在首页里,但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取,所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接,看到带着各种报错信息的例子 ,比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了,把日志打到用户侧也实在是太……傲慢。


开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本,不能选模型分类,现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级,新版则是模型乱跑。

不识数的问题更严重了

之前文章说过,有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量,手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了,还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车,你上了车说要去美食城,司机却说美食城有啥好玩的我带你去更好的地方,说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候,却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候,比如「过膝靴」和「过肘手套」,「过膝袜」和「手臂抵住膝盖」,精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚,有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过,4月份更新的时候,多了个 敏感词/违禁词 提示。这功能不说好坏,至少能让用户知道某些词不能用。现在,没了。

现在的情况,要不就是直接弹个黄框然后没反映,要不就是输出4个你看不到的图片,要不就是在有上文的情况下直接忽视 敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成 敏感词/违禁词 被截图也会很尴尬吧。

更诡异的 敏感词/违禁词

(写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块,我目前只能说的确有更诡异的 敏感词/违禁词,而且 视频生成 还有额外的一套 敏感词/违禁词,而且还有图像识别用来检查输入图像是否合规,尤其是豆包自己AI生成的图片也有可能无法通过审查,而使用与豆包相同模型的即梦AI的审查更严格)

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是 敏感词/违禁词 我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧?还是说因为内容主体是女性,只能「喷」而不能「射」?

中国人的AI的想像也能在这一层能够如此跃进吗?

NTM 要是能在内容上精确,而不是在 敏感词/违禁词 上也瞎「创意」就好了。


是时候破案了

之前文章中有写到过,豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的,这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

(想想看假如真的是国内网站被 DNS污染 ,还挺搞笑的)

在 hosts 里添加了个静态地址,稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开,而且文档也写得稀烂,所以我之前没怎么看过。其实现在我也不想看。

简单来讲,豆包线上用的文生图模型是:doubao-seedream-3.0-t2i,而 「参考图/智能编辑」 功能其实在学名上是叫做 「图生图」 ,而这个功能只有 2.0 和 更旧的版本 支持。不仅如此,官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了,模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」 功能其实是把图片走了另一套逻辑,进的另一个旧模型,输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度,已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何?

(因为这文章是写完主题后查漏补缺补的,所以顺序有点乱)

这里要用到与豆包使用同样模型的收费工具:即梦AI。

(关于即梦的介绍见文章后部分)

动画模型

我用相同的提示词,不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出,2.0的图片虽然看起来很花俏,但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的(除非当作无目标的玩具瞎玩)

(但是2.0的妹子,胸大,穿得短,露得多……??????)

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看,毕竟这玩意风格都不一样,简直就是换了个人画画,作画方向不一样,风格也不一样,说不了谁好谁坏。

但是论精度,肯定是3.0的更靠谱,因为这些图片都是在2.0先出图后,在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话(出4张图能有3张图匹配一定的文字描述),那2.0的精度差不多是 1/16 (出16张图能有3张图匹配一定的文字描述)。我只能说「一定程度上」的,因为大部分时候你怎么折腾,3.0都匹配不上,更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿,结果一个坐地上,一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错,手套画错,没画鞋,衣服画错,手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露,你把我 参考图/智能编辑 的 搞没了干什么?

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图,假如有人说这是张真人高P图,大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了,3.0原图的细节也被抹掉不少。

人像这块就不用对比了,2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说:豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型,付费服务比免费服务还烂,是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型,不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利,因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具:即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

(能看到使用与豆包相同模型的即梦AI,高版本模型同样没有「参考图/智能编辑」功能)

事实上如今市场上有相当多的AI生成工具,而且大部分都是收费的,仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具,而付费服务价格非常高,作为短期玩具花大钱不值得,作为长期工具,这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的?

之前文中没写过(但是评论里有提到过),现在的AI出图工具一般是有 「积极提示词」「消极提示词」 两种提示词入口的,但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有:

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

(所以我说你把错误日志打印到用户侧实在太过于傲慢了)

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词,不会被用户输入影响。

不仅如此,prompt 还并不是你的文本输入,而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西,而这玩意在报错崩溃之前,你是看不到的,更没办法调整。

更搞笑的是,同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

(把人类当工具,把工具当爹)

只不过 DeepSeek 这玩意吧,你只给一张图片然后让他 发散 的话,大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有 收敛 这一个能力,你还让人家发散。


那就顺便把视频生成也讲一点吧

参见这个视频:【AI 参考图/智能编辑 + 图片生成视频 效果展示。】

我把部分AI生成的原图片和使用 参考图/智能编辑 的图片,使用支持首尾帧的AI视频功能穿起来,然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远,所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0,其输出质量也远比图形模型3.0差很远。


结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来,重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」,而且由于文生图和图生图模型之间差异巨大,越整越烂。

不过说到底,豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件,其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能,输出质量虽然一言难尽(模型应该也是1.5-2.0之间的水平,跟3.0差远了),好歹聊胜于无。

相对来讲,豆包反而良心多了。

其他 付费软件 的输出质量更差,我真的理解不了会有什么人高价买会员。

当然,每年都720充魔兽世界年卡然后完全不玩不上线的人,我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年:https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年:

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺?

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

字节豆包AI还是比较懂男性: 可能和抖音数据有关?


今天在一个群里看到四张由字节的豆包(Doubao AI)生成的美女图,着实震撼。现在的AI技术已经发展到这种程度了吗?

刚开始我还以为是真人照片,直到注意到右下角写着“豆包AI”。不得不说,字节的这波操作真是让不少男性同胞“受益”匪浅(字节豆包模型训练数据很可能有来自其抖音和Tiktok平台,所以更懂男性)。AI的进化速度之快令人惊叹,各大模型之间也越来越“内卷”。很多行业都在被AI渗透:程序员、设计师、律师、医生……并不是说这些岗位会因此消失,但竞争会更加激烈,岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说,卷得只会更厉害。

这四张图完全击中了我的审美:美女站在镜子前自拍,高跟鞋短裙长发身材丰满,每一处细节都恰到好处,而且看起来毫无“AI感”。

注意美女脚上的青筋,还有手机闪光,阴影等,细节很细致。

其实我已经很久没有关注AI生成美女图了,之前总觉得那些图风格千篇一律,容易审美疲劳,也可能是提示词的问题。

这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成,毕竟这种尺度对某些AI来说可能有些“越界”,系统可能直接提示:“不符合规定,无法生成”。

2025-05-14-10.19.09 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.16-1 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.22.27 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.13 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

吉卜力风格/Ghibli

把上面这四张的高挑美女图,让ChatGPT来生成吉卜力风格的照片,尽可能保留细节:只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

ChatGPT-Image-May-24-2025-08_12_53-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_48-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_40-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

最后这一张生成的有点胖(丰满)了,因为ChatGPT生成的内容也会有点随机,当然你可以让它改,直接和它说需求即可。ChatGPT相当于一个设计师/PS大师,你是甲方,你只需要和它说需求即可。

ChatGPT-Image-May-24-2025-08_12_24-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

让它改了“有点胖了,改瘦一点,大长腿一点”,不过感觉还是上面第一版本比较好,丰满一些好看一下。

ChatGPT-Image-May-24-2025-09_01_45-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

有意思的/雅俗共赏

ChatGPT 可以拿来做什么?

ChatGPT 通用人工智能

Grok 3

字节/豆包/AI

本文一共 1253 个汉字, 你数一下对不对.
字节豆包AI还是比较懂男性: 可能和抖音数据有关?. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利
The post 字节豆包AI还是比较懂男性: 可能和抖音数据有关? first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈,据说,特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的,具体如下: 其中 I 是 Import,进口;E 是 Export 出口。 优美又实用的公式家族又添新成员 勾股定理: 欧拉恒等式: 牛顿运动定律: 爱因斯坦质能等价公式: 特朗普的“互惠关税”公式:,其中 I...
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  5. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  6. 公司请的专业摄影师 公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
  7. 在英国给孩子换学校的经历: 孩子离开了村里的小学 由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
  8. 终于在Steam平台上玩了最终幻想7-Remake-蒂法和爱丽丝真是美啊 前不久先是我用了7年的HPZ800的服务器在车库里寿终正寝了, 然后就是感觉小电脑NUC太慢, 所以又又搞了一台微软的 Surface Studio Laptop, 这电脑真是快, 自带独显, 玩DOTA2+鱼尾屏很爽. 在STEAM平台花了69.99英镑买了最终幻想7-Remake. Final Fantasy VII – Remake...

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命


AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天,新一代视频生成工具Pollo横空出世,再次刷新了人们对AI创造力的认知。只需上传一张图片,Pollo便能生成5秒左右的动态视频,无论是充满浪漫氛围的法式接吻,还是童话般的公主抱画面,都能精准呈现,细节生动,情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式,Pollo的操作几乎简单到极致,大大降低了内容创作的门槛。这种从”静态到动态”的极速转化,不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破,也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年,AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现,标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户,都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化,远比我们想象中还要快。也许在不久的将来,”一念成片”、”一想成电影”不再是幻想,而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频,只需要一段话或者一两张图片。注册后有100个积点,可以免费用10次,每天还可以打卡获得积分,感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频制作工具:短视频的利器,可以图生视频,文生视频,也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重,现实中我真抱不动,更不用说来一个公主抱了。

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook

法式接吻 French Kiss – AI可以拿来喂狗粮

和媳妇来个法式接吻,秀个恩爱

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook

也可以把ChatGPT生成的Ghibli动画图片拿来用!

也支持在Ghibli动画图上二次创作。

我媳妇说:生成视频不清楚,很模糊。确实是,感觉之后AI Agent会互相协作,视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了,听说2027年就能全面进入AGI时代,到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了,被社会淘汰的会是那些不懂得用AI工具的人。

视频模糊变清楚

这个工具里也有视频变清楚的功能,选择了一个4k,除了生成的视频文件确实变大了一些,效果并不是感觉特别明显(当然可能确实有点效果)

和媳妇高清版本4k的法式接吻 French Kiss in 4k

Pollo立马注册,上传一张照片就能生成AI视频!

AI 图片/照片/视频 工具分享/小技巧

英文:AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 1096 个汉字, 你数一下对不对.
只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件
The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 个人网站Adsense广告申请通过: 需要最少15篇文章 我的个人网站 zhihua-lai.com 本月通过了 Adsense 审核,终于可以再次放置广告,赚些零花钱了。 其实,最初 Adsense 账户通过审核后就能直接放广告,但后来规则变得严格了。如果一个网站长时间没有放置任何 Adsense 广告代码,账户资格会被撤销。重新启用时,需要进行单独审核。如今,在 Google Adsense 中新增一个域名,也必须通过审核后才能投放广告。 为了让我的网站通过审核,我尝试了几次,但总是被拒,原因之一是必须要有足够的内容支持。例如,以前我做的工具网站 SlowAPI.com...
  2. 特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈,据说,特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的,具体如下: 其中 I 是 Import,进口;E 是 Export 出口。 优美又实用的公式家族又添新成员 勾股定理: 欧拉恒等式: 牛顿运动定律: 爱因斯坦质能等价公式: 特朗普的“互惠关税”公式:,其中 I...
  3. 新的旅途 – 离别总是伤感的, 离开了一起创业的公司 2周前, 正式离开了一起创业的公司, 这公司是我博士毕业后的第一份正式工作, 待了8年多了, 离别总是伤感的. 我是9月初提的离职, 三个月 Notice Period, 最后的几周交接完工作确实没有什么压力了. 11月30号, 在公司最后一天, 公司有个习惯, 对于 Good...
  4. Minuet in C – 小步舞曲C Posted Youtube – 油管地址 孩子弹琴的时候最帅了. 我现在成了我儿子的粉丝了. Eric (Aged 6) is playing “Minuet in C” when...
  5. 上了年纪痛风脚崴了的惨痛经历(尿酸过高) 痛风是一种疼痛性关节炎, 当血液中的尿酸水平高, 导致晶体形成并积聚在关节内或关节周围, 就会发生痛风. 当人体分解一种叫做嘌呤的化学物质时, 就会产生尿酸. 嘌呤自然存在于您的身体中, 也存在于某些食物中. 尿酸通过尿液从体内排出. 上两周, 和媳妇吵架, 然后就自己一人睡, 有一天起床后脚踝就开始疼了, 然后明显比左脚肿了. 我刚开始就以为是睡觉的时候不小心姿势不对,...
  6. 今晚可能是英国倒数第三次冬令时时间调整 来英国生活过的人都知道 英国有一个很有意思的夏令时和冬令时时间调整. 夏令时是每年3月份的最后一个星期天凌晨会暴力的把时间往后调整1个小时, 也就是1点的时候很神奇的时间会自动变成2点. 冬令时是相反, 在每年的十月份最后一个周日凌晨暴力的把时间往前调整一个小时, 也就是2点神奇的变成1点. 现在大多数电子设备都能自动调整时间了, 比如你的智能手机和电脑. 但是传统的一些钟表, 还需要人为的调整时间. 夏令时 (Daylight Saving Time)调整的那一天,...
  7. 优衣库 感觉像炒作 这几天 这个在北京三里屯 ‘优衣库’ 试衣间自拍的视频真的很火, 男女主角均被人肉. 不可否认 这个效果还真的不错 因为我之前根本不知道 “优衣库” 是干嘛的 很刺激 在试衣间XXOO是多么爽的事情 女主角 95后妹子 长相甜美....
  8. 因为一个 try catch 好几天优秀点赞程序挂掉了我却以为是节点的问题 YY银行有四个点赞程序, 分别跑于四台服务器上, 它们是: 股东点赞(代理给 @justyy ) 自己的号 足球队 优秀作者(排名前30, 还有跟随点赞) 这几天我就发现, 有些赞没有给出, 我还以为是节点的原因, 因为查看记录, 发现是...

做好 AI Agent 最重要的是什么

是评测,或者说是基准测试(Benchmark)。

为什么?

因为我们已经有足够的技术方案,只要定义清楚我们要解决的问题(基准测试),就能解决它。

OpenAI 姚顺雨近期提出“AI下半场”的概念,我们已经拥有了

  1. 存储大量知识的预训练模型(先验知识),并知道怎么持续训练它
  2. 通过这个模型做思考推理并执行动作的 Agent 能力(环境)
  3. 强化学习算法

为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用,整个方案已经标准化,能很好地泛化,所有场景都适用,能快速攻破一个又一个的基准测试。

重点会变成,我们应该定义什么样的基准测试?我们已经有涵盖数学推理编程等领域非常多的基准测试,经常大模型发布刷分刷得飞起,但对现实世界的影响却并没有那么大。

显然我们应该定义更能贴近现实世界问题的基准测试,只要定义了,用上述方案就能持续优化解决它:基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。

而定义的基准测试越贴近现实世界,对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题,也是做好 AI Agent 最重要的问题。(AI Agent 就是目前 AI 的代表,大模型有先验知识和推理能力,Agent 给大模型装上环境感知和行动能力,要解决现实世界的问题,一定需要 Agent)

是什么?

什么是贴近现实世界的基准测试?

过去大量的基准测试,基本是封闭世界的固定任务,例如数学题、算法题、围棋、游戏,能明确定义问题、规则、答案,定义这样的基准测试是比较容易的,规则和过程都是现成的,推理也可以属于这一类,大模型发展到这个阶段,解决这些问题也是相对容易的。

但这些任务与现实世界大家日常要解决的问题距离太远,并不是现实世界的环境,因为之前缺乏感知和处理现实世界海量复杂规则任务的能力,现在大模型和 Agent 已经初步具备了这个能力。

目前有比较多横切面上单一维度的基准测试,包括 规划能力(PlanBench、AutoPlanBench等)、工具调用能力(ToolBench、BFCL等)、反思能力(LLF-Bench、LLM-Evolve等),也有大统一的通用任务完成能力的基准测试,主要是操作浏览器和操作电脑方面,例如 OpenAI 的 browsecomp (评测复杂信息检索和理解能力),学术界的 OSWorld (评测理解 GUI 操作完成任务的能力)。

但这些横切面或者通用的基准测试,可能并不是用户关心的。AI Agent 要实用,用户角度上更关注的是垂直任务上的能力,例如它能不能帮我写好代码,做好客服,创作出好的故事,给出好的调研报告等。当前行业处于早期,先把基础通用的问题做好基准测试去解决,达到一定阈值后,垂直领域任务上的基准测试才是更重要的。

如果简单分类,可以把这些任务分为两类:目标明确和不明确的任务。

目标明确的任务

现实中有些任务,有很明确的结果是否正确的定义,能像数学那样有标准答案,但过程中又是需要跟现实环境不断交互。典型的是 AI Coding,程序能不能跑通,bug有没有修复,都是能明确验证的。其他的还有像客服、数据分析等。

这一类是最容易被 AI 突破,但要定义出好的基准测试也不容易。

发展得最好的 AI Coding,在这个领域最权威的基准测试是 SWE-Bench,它已经在尽量贴近现实世界去定义问题,以解决 github 上的真实 issue 为出发点,但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右,但实际用起来,Claude 3.5 在可用性上高出一个档次,没有其他基准测试能反应 Claude 3.5 断档的效果,而 Claude 3.7 分数高达70%,但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后,windsurf、cursor、trae、argument 等几十个 AI Coding 工具,他们实际效果差异怎样,如何评测衡量,都是不清楚的。

SWE-Bench 只覆盖了 Coding 的一部分,大型项目理解能力、视觉动画开发能力、代码CR、需求理解等,要补的基准测试还有很多,现在也有 SWE – bench MultimodalAgentBenchSWELancer 这些基准测试在不断推出试图覆盖。

其他领域还没看到有相关的基准测试。

目标不明确的任务

大部分现实世界的任务,都是结果难以明确定义的,不是非黑即白。例如调研报告、旅行规划、简历筛选面试,各种涉及文字/图片/视频创作的场景,比如营销、故事创作、邮件回复沟通等,结果的好坏很多只有人能判断

Deepseek 年初的一波火爆,除了各项分数刷爆外,其中有一个原因是它输出的中文质量很好,但这个点并没有基准测试能衡量到,因为确实是很难定义什么样的文字是明确的好,跟文化/偏好品味/逻辑性/多样性等都有关系。

图片视频生成也一样,过了一定门槛后,生成的图片怎样才算更好,也是有很多维度和人的主观判断,目前没有基准测试能做到。

如何做好这类任务的评测?

  1. 靠人工:例如对于图片生成,常见的做法是分维度人工打分,给不同模型生成的结果人工打分综合对比,文章/视频也可以是同样的评测方式。另外也有在线盲测PK,做大批量结果PK对比,按总得分区分各模型的排行。对于自己产品内部迭代,也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与,主观成分大,难以形成公认的标准基准测试。
  2. 靠模型:模型理解能力逐渐增强,它能拥有人一样的评估能力,就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估,当前像4o这样的多模态模型理解能力越来越强,是能评估出部分好坏。文字也一样,可以有评估模型去评估,模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK,定义好相关数据集、评估维度,就可以是一个基准测试,只是目前模型还没达到能与人工评估媲美的程度。
  3. 靠任务分解:不衡量整体结果,只衡量中间可明确定义的部分,把任务部分转成上面提到的目标明确的任务。例如邮件沟通,只评估邮件内是否含有需要的关键信息,旅行规划,只评估是否符合定性的偏好(如最低价)、订机票API调用等操作是否正确。

如果要让 Agent 在各个领域上能很好发挥作用产出价值,可能每个领域都有自己的垂类 Agent,也都需要定义自己的一个或多个基准测试去覆盖这个领域,AI Coding 领域跑得最快,已经有多个,像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务,每一类任务可能都需要一个基准测试,去衡量谁在这个任务上做得最好,去促进这个任务成功率的提升。

如果要做一个垂类 Agent,最值得做的是把基准测试定义好,比较像软件开发的TDD(测试驱动开发),在 AI 时代这种做法可能更重要,它明确问题定义,指引优化方向,提供优化数据,不会受到模型升级的影响,是这个领域 Agent 的重要资产。

附:

大模型基准测试大全:https://github.com/onejune2018/Awesome-LLM-Eval

《Survey on Evaluation of LLM-based Agents》:https://arxiv.org/abs/2503.16416

HAL(批量跑 Agent 基准测试的框架):https://github.com/princeton-pli/hal-harness/

豆包“偷偷”“更新”文生图功能

大概是4月21日的晚上,豆包偷偷更新了。不能说是升级,因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了,但是精度大幅度下降了,乱七八糟的东西变多了。当然了,豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

(文章内容随时间推移而失效)


变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出,这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系,从结果来看根本没关联。文字上好像是理解了你的文字输入,但实际上最终图片结果大部分场景下跟这段重排文字没啥关系,该错还是错的,这反而更加显蠢。


不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心,然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活,就是做着玩的。


敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。


出图精度大幅下降

这是水下吗?这是游泳吗?这游泳馆为啥有海豚?

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58


画蛇添足问题明显

这狗熊脸哪里来的?

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的,最麻烦的是,整体场景多余内容变得特别多。这导致整体输出变得非常的不可控,如果想要做内容的话,很有可能因为不必要输出乱跑导致完全跑题。

比如,这是更改前的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前,输出的内容很干净很稳定,但更改后,就非常过分的自作多情了。

准确度也变得更差了,带着雨帽还能露出双马尾这种错误,在更新之前是没有的。

这玩意就是明显的「画蛇添足」


单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个,触发条件不详。


某些场景下会只生成一张图,而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话,有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。


结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容,项目是在微信上做公众号,比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送(说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程,所以自己做APP死路一条),结果做了几年之后,微信大幅度砍了公众号的推送功能,导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容,但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

[vlog][漫画][魔圆] 《约会》

怎么说呢……

偶尔做一把甜的。

「封面图」

视频

该内容仅供娱乐,请勿过分解读。
这是一篇使用AI工具辅助创作的作品。

B站链接:https://www.bilibili.com/video/BV1ZBLFznEht/

嵌入:

嵌入模式的清晰度应该是假的,横屏的时候反正窗口很烂,看不出来,竖屏就诡异了。反正怎么点都会跳转。

結尾

偶尔做一把甜的。

偶尔也写一把短的。

The post [vlog][漫画][魔圆] 《约会》 first appeared on 石樱灯笼博客.
❌