普通视图

发现新文章，点击刷新页面。

昨天以前首页

豆包的双重水印

石樱灯笼博客

作者石樱灯笼

2025年6月3日 16:48

字节不仅没活，而且玩不起。

玩不起也就算了，还搞出笑话。

（自上篇文章写完之后，这最近十多天我都没怎么打开过豆包，所以这些事情的具体发生日期不确定）

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

豆包开始封杀无水印图片获取方法

之前最基本的方法就是，直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的，而且下载图是带水印的，所以没必要再去点击下载。

之所以有这么个办法，即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的 。

然后大约5月28日左右，网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15

豆包的二次水印

这玩意就搞笑。

首先预览图带水印，然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印，CPU随便用，存储空间不要钱，带宽流量狠劲浪。

豆包视频的双重水印

豆包当然在服务器端是有保存无水印，看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了？

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的，我解释一下：

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确，是为了 免去用户手动下载图片，然后再重新上传图片到网站，浪费资源 。

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候，是把 预览图 下载到本地，然后转码成BASE64。然后在 「生成视频-发送」 时，却又并不提交浏览器缓存的图片或BASE64，而是直接提交了一堆ID和Token，但是这些ID和Token引用的，是服务器端保存的 带水印的预览图 ，所以最后生成的视频文件，同时带有 预览图水印 和 视频水印 。

如果梳理一下他们这奇葩行为的流程的话：

二次下载预览图（会调用浏览器缓存，不浪费带宽，可以理解，但是干啥用？）
把预览图转码成BASE64（干啥用？）
提交ID和Token而不是图片（正确操作）
调用的是服务器端保存的带水印的预览图（有病啊）
在生成的视频上打水印（在屎上拉屎）

screenshot_7734397622634242-20250602174504

他这玩意，在16:9和4:3以及1:1横向视频上问题还不严重，毕竟两个水印叠加在一起了。但是在9:16纵向视频上，以及21:9宽屏视频上，水印不论位置还是大小都不一样，很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频，他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司，甚至都不关心竖屏视频的输出结果。

PS1：豆包现在线上输出的视频分辨率小于720p，现在是一个很奇葩的数值，16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

（这破公司怎么想的）

PS2：假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ，输入完文字（一般是复制粘贴）直接敲回车键提交的话，那么将会以 无首帧图 的场景下，进入 文字生成视频 的流程。还挺滑稽的，以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24

豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面，那么回到页面时，点开缩略图展开的预览图片，不是真正的预览图片，而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能，崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化，刻板印象真的表现得淋漓尽致。

以后如何获取无水印图片

除非豆包重新放开渠道，否则想要直接获取无水印图片是比较困难了。

当然，这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印：

screenshot_7875414228876802-20250603160359-1506-watermark

无水印：

screenshot_7875414228876802-20250603160359-1506

对比：

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子：

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓，现在豆包的输出结果，只要是接触过豆包AI的，一眼就能看出来是豆包3.0的视觉模型，

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层人皮在外边卖服务吧 …… 不过考虑到字节旗下的用户，还真说不准。来个闲鱼修图业务，套人皮用免费AI收费改图。

有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵，还能有人觉得AI现在不会自行污染了？

至少我是会在图片上额外再打一个水印的，但是我打的水印AI能不能识别到都不一定。

结尾

我之前做了一个无水印下载脚本，当时遇到了不少问题，比如跨域图片下载，下载图片的命名。

本身豆包页面就有不计其数的逻辑错误，我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ，点开下载视频按钮直接打开视频，需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式，搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧，其实字节根本就没有高端用户，顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧，最多就是少了一个玩具而已。

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

石樱灯笼博客

作者石樱灯笼

2025年5月22日 23:42

看来字节没活了。

（注1：文章具有时效性）
（注2：文章包含大量图片。为照顾布局，部分图片有经过剪切，与线上排版有差异）

前提

建议先读我之前写的这篇文章：《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲，我4月末写的那篇文章，差不多是豆包这超能创意的更新，但是他们的文档5月14日才出来。

而且现在状态还是灰度测试？那我之前三个星期用的是啥玩意？

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档，那就能明确他这玩意到底都更新了个啥，不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事？TMD这是想要抓截图的人吗？我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

（我甚至担心，别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码）

另外，啥叫 超能创意 1.0 版本不稳定，建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」，怎么在图像生成之外使用？难道还有其他的灰测？

隔夜饭还是馊的

首先我得勘误一个事情，这个「超能创意 1.0」实际上在4月25日出过更新内容，只不过我上一篇文章却是从4月22日开始写，一直写了5天（你就说有多慢吧），期间也没有仔细检查过他们的更新通知，而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你：理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的，连传送门都有。

而且，它到底理解了个啥？

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

（车头对着少女，这明显是公交车进站啊）

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是智力只有小学生程度的用户吧？公主被抓走什么的，我直接用更精确的难过上心流泪这些形容词不就好了？

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

（你发散思维时，至少把人物主体的手画对好吧？）

只能说这玩意只有在输入的内容过少的时候，自由发挥时有用。但是自由发挥的范围却是不可控的，谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂，遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得，把你整体构图都改了。

图片处理

你玩我是吧？

这TM不还是 参考图/智能编辑 ？

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的伪人？

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过，这个功能的最大边长是1312，而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与参考图/智能编辑唯一的区别在于，入口不是按钮，而是在对话里直接对话执行……有那个必要吗？

这玩意唯一的优点就是，可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创：灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ，又来？！？！

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题？

我之前也说过，用这玩意讲故事的话，有严重的连续性的问题，改了？

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ，四格就崩得金瞳变蓝瞳，长直变马尾，还把腰给搞没了。

更别说我本身不想使用这个功能的时候，也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆？！

……

不对劲！

莫非文档是错的？这功能本来就不是文档例子里那么用？

保持主体不变：

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化：

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ，这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题，真的着实不靠谱。

超效率：批量生成 + 自适应：比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过，就是你手动输入生成超过20条的时候，他会按照两个阶段输出。比如输出32张，那就先输出20张，再输出12张。比例也是一样的。

输出4张是为了调整关键字，输出20张是为了批量结果然后在其中挑选，输出超过20张那基本脑子有病。

万千：风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风，实际上背景构图姿势全都变了。

人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个：

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图，没有放在首页里，但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取，所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接，看到带着各种报错信息的例子 ，比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了，把日志打到用户侧也实在是太……傲慢。

开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本，不能选模型分类，现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级，新版则是模型乱跑。

不识数的问题更严重了

之前文章说过，有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量，手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了，还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车，你上了车说要去美食城，司机却说美食城有啥好玩的我带你去更好的地方，说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候，却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候，比如「过膝靴」和「过肘手套」，「过膝袜」和「手臂抵住膝盖」，精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚，有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过，4月份更新的时候，多了个敏感词/违禁词提示。这功能不说好坏，至少能让用户知道某些词不能用。现在，没了。

现在的情况，要不就是直接弹个黄框然后没反映，要不就是输出4个你看不到的图片，要不就是在有上文的情况下直接忽视敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成敏感词/违禁词被截图也会很尴尬吧。

更诡异的敏感词/违禁词

（写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块，我目前只能说的确有更诡异的敏感词/违禁词，而且视频生成还有额外的一套敏感词/违禁词，而且还有图像识别用来检查输入图像是否合规，尤其是豆包自己AI生成的图片也有可能无法通过审查，而使用与豆包相同模型的即梦AI的审查更严格）

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是敏感词/违禁词我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧？还是说因为内容主体是女性，只能「喷」而不能「射」？

中国人的AI的想像也能在这一层能够如此跃进吗？

NTM 要是能在内容上精确，而不是在敏感词/违禁词上也瞎「创意」就好了。

是时候破案了

之前文章中有写到过，豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的，这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

（想想看假如真的是国内网站被 DNS污染 ，还挺搞笑的）

在 hosts 里添加了个静态地址，稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开，而且文档也写得稀烂，所以我之前没怎么看过。其实现在我也不想看。

简单来讲，豆包线上用的文生图模型是：doubao-seedream-3.0-t2i，而「参考图/智能编辑」功能其实在学名上是叫做 「图生图」 ，而这个功能只有 2.0 和更旧的版本支持。不仅如此，官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了，模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」功能其实是把图片走了另一套逻辑，进的另一个旧模型，输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度，已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何？

（因为这文章是写完主题后查漏补缺补的，所以顺序有点乱）

这里要用到与豆包使用同样模型的收费工具：即梦AI。

（关于即梦的介绍见文章后部分）

动画模型

我用相同的提示词，不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出，2.0的图片虽然看起来很花俏，但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的（除非当作无目标的玩具瞎玩）

（但是2.0的妹子，胸大，穿得短，露得多……？？？？？？）

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看，毕竟这玩意风格都不一样，简直就是换了个人画画，作画方向不一样，风格也不一样，说不了谁好谁坏。

但是论精度，肯定是3.0的更靠谱，因为这些图片都是在2.0先出图后，在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话（出4张图能有3张图匹配一定的文字描述），那2.0的精度差不多是 1/16 （出16张图能有3张图匹配一定的文字描述）。我只能说「一定程度上」的，因为大部分时候你怎么折腾，3.0都匹配不上，更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿，结果一个坐地上，一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错，手套画错，没画鞋，衣服画错，手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露，你把我参考图/智能编辑的腰搞没了干什么？

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图，假如有人说这是张真人高P图，大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了，3.0原图的细节也被抹掉不少。

人像这块就不用对比了，2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说：豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型，付费服务比免费服务还烂，是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型，不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利，因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具：即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

（能看到使用与豆包相同模型的即梦AI，高版本模型同样没有「参考图/智能编辑」功能）

事实上如今市场上有相当多的AI生成工具，而且大部分都是收费的，仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具，而付费服务价格非常高，作为短期玩具花大钱不值得，作为长期工具，这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的？

之前文中没写过（但是评论里有提到过），现在的AI出图工具一般是有 「积极提示词」 和 「消极提示词」 两种提示词入口的，但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有：

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

（所以我说你把错误日志打印到用户侧实在太过于傲慢了）

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词，不会被用户输入影响。

不仅如此，prompt 还并不是你的文本输入，而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西，而这玩意在报错崩溃之前，你是看不到的，更没办法调整。

更搞笑的是，同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

（把人类当工具，把工具当爹）

只不过 DeepSeek 这玩意吧，你只给一张图片然后让他发散的话，大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有收敛这一个能力，你还让人家发散。

那就顺便把视频生成也讲一点吧

参见这个视频：【AI 参考图/智能编辑 + 图片生成视频效果展示。】

我把部分AI生成的原图片和使用参考图/智能编辑的图片，使用支持首尾帧的AI视频功能穿起来，然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远，所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0，其输出质量也远比图形模型3.0差很远。

结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来，重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」，而且由于文生图和图生图模型之间差异巨大，越整越烂。

不过说到底，豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件，其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能，输出质量虽然一言难尽（模型应该也是1.5-2.0之间的水平，跟3.0差远了），好歹聊胜于无。

相对来讲，豆包反而良心多了。

其他 付费软件 的输出质量更差，我真的理解不了会有什么人高价买会员。

当然，每年都720充魔兽世界年卡然后完全不玩不上线的人，我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年：https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年：

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺？

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

小赖子的英国生活和资讯
只需一张图, AI就能拍大片: Pollo引爆短视频创作革命JustYY.com 小赖子的英国生活和资讯
2025年4月28日 20:14

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

小赖子的英国生活和资讯

作者 JustYY.com 小赖子的英国生活和资讯

2025年4月28日 20:14

AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天，新一代视频生成工具Pollo横空出世，再次刷新了人们对AI创造力的认知。只需上传一张图片，Pollo便能生成5秒左右的动态视频，无论是充满浪漫氛围的法式接吻，还是童话般的公主抱画面，都能精准呈现，细节生动，情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式，Pollo的操作几乎简单到极致，大大降低了内容创作的门槛。这种从”静态到动态”的极速转化，不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破，也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年，AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现，标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户，都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化，远比我们想象中还要快。也许在不久的将来，”一念成片”、”一想成电影”不再是幻想，而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频，只需要一段话或者一两张图片。注册后有100个积点，可以免费用10次，每天还可以打卡获得积分，感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频制作工具：短视频的利器，可以图生视频，文生视频，也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重，现实中我真抱不动，更不用说来一个公主抱了。

法式接吻 French Kiss – AI可以拿来喂狗粮

和媳妇来个法式接吻，秀个恩爱。

也可以把ChatGPT生成的Ghibli动画图片拿来用！

也支持在Ghibli动画图上二次创作。

我媳妇说：生成视频不清楚，很模糊。确实是，感觉之后AI Agent会互相协作，视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了，听说2027年就能全面进入AGI时代，到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了，被社会淘汰的会是那些不懂得用AI工具的人。

视频模糊变清楚

这个工具里也有视频变清楚的功能，选择了一个4k，除了生成的视频文件确实变大了一些，效果并不是感觉特别明显（当然可能确实有点效果）

和媳妇高清版本4k的法式接吻 French Kiss in 4k

点Pollo立马注册，上传一张照片就能生成AI视频！

AI 图片/照片/视频工具分享/小技巧

英文：AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 1096 个汉字, 你数一下对不对.

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

赞赏我的几个理由.

¥ 打赏支持

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

个人网站Adsense广告申请通过: 需要最少15篇文章我的个人网站 zhihua-lai.com 本月通过了 Adsense 审核，终于可以再次放置广告，赚些零花钱了。其实，最初 Adsense 账户通过审核后就能直接放广告，但后来规则变得严格了。如果一个网站长时间没有放置任何 Adsense 广告代码，账户资格会被撤销。重新启用时，需要进行单独审核。如今，在 Google Adsense 中新增一个域名，也必须通过审核后才能投放广告。为了让我的网站通过审核，我尝试了几次，但总是被拒，原因之一是必须要有足够的内容支持。例如，以前我做的工具网站 SlowAPI.com...
特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈，据说，特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的，具体如下：其中 I 是 Import，进口；E 是 Export 出口。优美又实用的公式家族又添新成员勾股定理：欧拉恒等式：牛顿运动定律：爱因斯坦质能等价公式：特朗普的“互惠关税”公式：，其中 I...
新的旅途 – 离别总是伤感的, 离开了一起创业的公司 2周前, 正式离开了一起创业的公司, 这公司是我博士毕业后的第一份正式工作, 待了8年多了, 离别总是伤感的. 我是9月初提的离职, 三个月 Notice Period, 最后的几周交接完工作确实没有什么压力了. 11月30号, 在公司最后一天, 公司有个习惯, 对于 Good...
Minuet in C – 小步舞曲C Posted Youtube – 油管地址孩子弹琴的时候最帅了. 我现在成了我儿子的粉丝了. Eric (Aged 6) is playing “Minuet in C” when...
上了年纪痛风脚崴了的惨痛经历(尿酸过高) 痛风是一种疼痛性关节炎, 当血液中的尿酸水平高, 导致晶体形成并积聚在关节内或关节周围, 就会发生痛风. 当人体分解一种叫做嘌呤的化学物质时, 就会产生尿酸. 嘌呤自然存在于您的身体中, 也存在于某些食物中. 尿酸通过尿液从体内排出. 上两周, 和媳妇吵架, 然后就自己一人睡, 有一天起床后脚踝就开始疼了, 然后明显比左脚肿了. 我刚开始就以为是睡觉的时候不小心姿势不对,...
今晚可能是英国倒数第三次冬令时时间调整来英国生活过的人都知道英国有一个很有意思的夏令时和冬令时时间调整. 夏令时是每年3月份的最后一个星期天凌晨会暴力的把时间往后调整1个小时, 也就是1点的时候很神奇的时间会自动变成2点. 冬令时是相反, 在每年的十月份最后一个周日凌晨暴力的把时间往前调整一个小时, 也就是2点神奇的变成1点. 现在大多数电子设备都能自动调整时间了, 比如你的智能手机和电脑. 但是传统的一些钟表, 还需要人为的调整时间. 夏令时 (Daylight Saving Time)调整的那一天,...
优衣库感觉像炒作这几天这个在北京三里屯 ‘优衣库’ 试衣间自拍的视频真的很火, 男女主角均被人肉. 不可否认这个效果还真的不错因为我之前根本不知道 “优衣库” 是干嘛的很刺激在试衣间XXOO是多么爽的事情女主角 95后妹子长相甜美....
因为一个 try catch 好几天优秀点赞程序挂掉了我却以为是节点的问题 YY银行有四个点赞程序, 分别跑于四台服务器上, 它们是: 股东点赞(代理给 @justyy ) 自己的号足球队优秀作者(排名前30, 还有跟随点赞) 这几天我就发现, 有些赞没有给出, 我还以为是节点的原因, 因为查看记录, 发现是...