阅读视图

发现新文章，点击刷新页面。

豆包的双重水印

石樱灯笼博客

石樱灯笼

2025年6月3日 16:48

字节不仅没活，而且玩不起。

玩不起也就算了，还搞出笑话。

（自上篇文章写完之后，这最近十多天我都没怎么打开过豆包，所以这些事情的具体发生日期不确定）

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

豆包开始封杀无水印图片获取方法

之前最基本的方法就是，直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的，而且下载图是带水印的，所以没必要再去点击下载。

之所以有这么个办法，即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的 。

然后大约5月28日左右，网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15

豆包的二次水印

这玩意就搞笑。

首先预览图带水印，然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印，CPU随便用，存储空间不要钱，带宽流量狠劲浪。

豆包视频的双重水印

豆包当然在服务器端是有保存无水印，看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了？

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的，我解释一下：

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确，是为了 免去用户手动下载图片，然后再重新上传图片到网站，浪费资源 。

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候，是把 预览图 下载到本地，然后转码成BASE64。然后在 「生成视频-发送」 时，却又并不提交浏览器缓存的图片或BASE64，而是直接提交了一堆ID和Token，但是这些ID和Token引用的，是服务器端保存的 带水印的预览图 ，所以最后生成的视频文件，同时带有 预览图水印 和 视频水印 。

如果梳理一下他们这奇葩行为的流程的话：

二次下载预览图（会调用浏览器缓存，不浪费带宽，可以理解，但是干啥用？）
把预览图转码成BASE64（干啥用？）
提交ID和Token而不是图片（正确操作）
调用的是服务器端保存的带水印的预览图（有病啊）
在生成的视频上打水印（在屎上拉屎）

screenshot_7734397622634242-20250602174504

他这玩意，在16:9和4:3以及1:1横向视频上问题还不严重，毕竟两个水印叠加在一起了。但是在9:16纵向视频上，以及21:9宽屏视频上，水印不论位置还是大小都不一样，很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频，他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司，甚至都不关心竖屏视频的输出结果。

PS1：豆包现在线上输出的视频分辨率小于720p，现在是一个很奇葩的数值，16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

（这破公司怎么想的）

PS2：假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ，输入完文字（一般是复制粘贴）直接敲回车键提交的话，那么将会以 无首帧图 的场景下，进入 文字生成视频 的流程。还挺滑稽的，以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24

豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面，那么回到页面时，点开缩略图展开的预览图片，不是真正的预览图片，而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能，崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化，刻板印象真的表现得淋漓尽致。

以后如何获取无水印图片

除非豆包重新放开渠道，否则想要直接获取无水印图片是比较困难了。

当然，这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印：

screenshot_7875414228876802-20250603160359-1506-watermark

无水印：

screenshot_7875414228876802-20250603160359-1506

对比：

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子：

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓，现在豆包的输出结果，只要是接触过豆包AI的，一眼就能看出来是豆包3.0的视觉模型，

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层人皮在外边卖服务吧 …… 不过考虑到字节旗下的用户，还真说不准。来个闲鱼修图业务，套人皮用免费AI收费改图。

有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵，还能有人觉得AI现在不会自行污染了？

至少我是会在图片上额外再打一个水印的，但是我打的水印AI能不能识别到都不一定。

结尾

我之前做了一个无水印下载脚本，当时遇到了不少问题，比如跨域图片下载，下载图片的命名。

本身豆包页面就有不计其数的逻辑错误，我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ，点开下载视频按钮直接打开视频，需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式，搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧，其实字节根本就没有高端用户，顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧，最多就是少了一个玩具而已。

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

囤货狂

我的天

xrspook

2025年5月27日 09:25

当年今日

一直以来我都是个囤货爱好者。2003年是我上网的元年，那是高二升高三的暑假，家里装上了长城宽带。那个东西不能说好用，但起码能上网。上网对我来说是开启了一个未知世界的大门，可以这么说，我的世界观由此改变了很多。一开始上网，我就是个囤货爱好者。一开始囤货，倒不是因为我有那么高敏感度觉得此刻我能看到的东西可能以后就看不到了，因为各种各样的原因。一开始的时候，我不知道墙的存在，但后来这种感觉越发明显，不过之前我说的那种可能以后就看不到了，倒不是因为墙的原因，是因为把东西挂在网上，有个域名了有个服务器，这都需要钱，如果是一个私人网站，那么某一天在任何一方面不续费了，自然我之前看到了网站就会不复存在。这种事情可能会发生在一个博客上，也可能发生在一个论坛上，同时也有可能发生在一个自行建立的网站上。

一开始的我没什么技术，只会复制粘贴，但怎么把格式都粘贴过去呢？所以我想到的office，把我喜欢的网页贴到word里。所有网址也都开一个word文档收藏，这样的好处是超链接是有效的。一开始的时候，我不知道怎么编辑超链接，我只会把它贴过去。后来我知道了怎么保存网页，所以对那些没什么图片，有大量文字的东西，我选择的是保存网页。跟文字相比，一开始我存下来更多的是图片。网站是西班牙语的，如果是纯文字，我还可以复制翻译一下，但是按钮是西班牙语的，当时的OCR识别没那么好，而且他们用的是花体，估计哪怕是现在也有点难度的。链接点进去，大概差不多感受一下那到底是什么。

在那里我发现一个很大的相册。大相册里面又有很多不同的部分。最开始的时候我是挑着右键保存，后来我发现那已经满足不了我的收藏欲望，所以最终我做的是批量下载，我也不知道为什么我居然掌握了那项技能。之所以可以这样做，是因为那个相册以及相册里面的图片命名都是非常规律的，所以那个时候我就用Flashget批量下载图片。非常感谢建立那个相册的人那么规律。他们用的是数字序号。有时候某些相册里面的序号是终端，比如3就跳到5，但不影响我。如果相册里每一张图片的命名都不一样，那么就真的是好崩溃。又过了大概10年，哪怕相册里命名没有规律，每张图片都不一样的。只要缩略图和大图的命名是一致的，我依然可以通过发现规律在小图界面把大图下载回来。下载那堆东西耗费了我非常多时间，但是下载回来以后我又打开看过多少次呢？每次我感觉自己都是这样，下载的时候花很多时间，但下载回来就下载回来了，我再触碰的几率很低。文字是这样，图片是这样，后来的视频也是这样。

不知道其他人是不是也像我这样是囤货狂。

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

石樱灯笼博客

石樱灯笼

2025年5月22日 23:42

看来字节没活了。

（注1：文章具有时效性）
（注2：文章包含大量图片。为照顾布局，部分图片有经过剪切，与线上排版有差异）

前提

建议先读我之前写的这篇文章：《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲，我4月末写的那篇文章，差不多是豆包这超能创意的更新，但是他们的文档5月14日才出来。

而且现在状态还是灰度测试？那我之前三个星期用的是啥玩意？

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档，那就能明确他这玩意到底都更新了个啥，不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事？TMD这是想要抓截图的人吗？我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

（我甚至担心，别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码）

另外，啥叫 超能创意 1.0 版本不稳定，建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」，怎么在图像生成之外使用？难道还有其他的灰测？

隔夜饭还是馊的

首先我得勘误一个事情，这个「超能创意 1.0」实际上在4月25日出过更新内容，只不过我上一篇文章却是从4月22日开始写，一直写了5天（你就说有多慢吧），期间也没有仔细检查过他们的更新通知，而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你：理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的，连传送门都有。

而且，它到底理解了个啥？

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

（车头对着少女，这明显是公交车进站啊）

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是智力只有小学生程度的用户吧？公主被抓走什么的，我直接用更精确的难过上心流泪这些形容词不就好了？

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

（你发散思维时，至少把人物主体的手画对好吧？）

只能说这玩意只有在输入的内容过少的时候，自由发挥时有用。但是自由发挥的范围却是不可控的，谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂，遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得，把你整体构图都改了。

图片处理

你玩我是吧？

这TM不还是 参考图/智能编辑 ？

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的伪人？

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过，这个功能的最大边长是1312，而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与参考图/智能编辑唯一的区别在于，入口不是按钮，而是在对话里直接对话执行……有那个必要吗？

这玩意唯一的优点就是，可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创：灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ，又来？！？！

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题？

我之前也说过，用这玩意讲故事的话，有严重的连续性的问题，改了？

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ，四格就崩得金瞳变蓝瞳，长直变马尾，还把腰给搞没了。

更别说我本身不想使用这个功能的时候，也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆？！

……

不对劲！

莫非文档是错的？这功能本来就不是文档例子里那么用？

保持主体不变：

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化：

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ，这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题，真的着实不靠谱。

超效率：批量生成 + 自适应：比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过，就是你手动输入生成超过20条的时候，他会按照两个阶段输出。比如输出32张，那就先输出20张，再输出12张。比例也是一样的。

输出4张是为了调整关键字，输出20张是为了批量结果然后在其中挑选，输出超过20张那基本脑子有病。

万千：风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风，实际上背景构图姿势全都变了。

人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个：

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图，没有放在首页里，但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取，所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接，看到带着各种报错信息的例子 ，比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了，把日志打到用户侧也实在是太……傲慢。

开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本，不能选模型分类，现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级，新版则是模型乱跑。

不识数的问题更严重了

之前文章说过，有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量，手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了，还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车，你上了车说要去美食城，司机却说美食城有啥好玩的我带你去更好的地方，说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候，却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候，比如「过膝靴」和「过肘手套」，「过膝袜」和「手臂抵住膝盖」，精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚，有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过，4月份更新的时候，多了个敏感词/违禁词提示。这功能不说好坏，至少能让用户知道某些词不能用。现在，没了。

现在的情况，要不就是直接弹个黄框然后没反映，要不就是输出4个你看不到的图片，要不就是在有上文的情况下直接忽视敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成敏感词/违禁词被截图也会很尴尬吧。

更诡异的敏感词/违禁词

（写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块，我目前只能说的确有更诡异的敏感词/违禁词，而且视频生成还有额外的一套敏感词/违禁词，而且还有图像识别用来检查输入图像是否合规，尤其是豆包自己AI生成的图片也有可能无法通过审查，而使用与豆包相同模型的即梦AI的审查更严格）

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是敏感词/违禁词我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧？还是说因为内容主体是女性，只能「喷」而不能「射」？

中国人的AI的想像也能在这一层能够如此跃进吗？

NTM 要是能在内容上精确，而不是在敏感词/违禁词上也瞎「创意」就好了。

是时候破案了

之前文章中有写到过，豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的，这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

（想想看假如真的是国内网站被 DNS污染 ，还挺搞笑的）

在 hosts 里添加了个静态地址，稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开，而且文档也写得稀烂，所以我之前没怎么看过。其实现在我也不想看。

简单来讲，豆包线上用的文生图模型是：doubao-seedream-3.0-t2i，而「参考图/智能编辑」功能其实在学名上是叫做 「图生图」 ，而这个功能只有 2.0 和更旧的版本支持。不仅如此，官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了，模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」功能其实是把图片走了另一套逻辑，进的另一个旧模型，输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度，已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何？

（因为这文章是写完主题后查漏补缺补的，所以顺序有点乱）

这里要用到与豆包使用同样模型的收费工具：即梦AI。

（关于即梦的介绍见文章后部分）

动画模型

我用相同的提示词，不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出，2.0的图片虽然看起来很花俏，但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的（除非当作无目标的玩具瞎玩）

（但是2.0的妹子，胸大，穿得短，露得多……？？？？？？）

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看，毕竟这玩意风格都不一样，简直就是换了个人画画，作画方向不一样，风格也不一样，说不了谁好谁坏。

但是论精度，肯定是3.0的更靠谱，因为这些图片都是在2.0先出图后，在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话（出4张图能有3张图匹配一定的文字描述），那2.0的精度差不多是 1/16 （出16张图能有3张图匹配一定的文字描述）。我只能说「一定程度上」的，因为大部分时候你怎么折腾，3.0都匹配不上，更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿，结果一个坐地上，一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错，手套画错，没画鞋，衣服画错，手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露，你把我参考图/智能编辑的腰搞没了干什么？

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图，假如有人说这是张真人高P图，大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了，3.0原图的细节也被抹掉不少。

人像这块就不用对比了，2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说：豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型，付费服务比免费服务还烂，是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型，不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利，因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具：即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

（能看到使用与豆包相同模型的即梦AI，高版本模型同样没有「参考图/智能编辑」功能）

事实上如今市场上有相当多的AI生成工具，而且大部分都是收费的，仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具，而付费服务价格非常高，作为短期玩具花大钱不值得，作为长期工具，这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的？

之前文中没写过（但是评论里有提到过），现在的AI出图工具一般是有 「积极提示词」 和 「消极提示词」 两种提示词入口的，但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有：

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

（所以我说你把错误日志打印到用户侧实在太过于傲慢了）

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词，不会被用户输入影响。

不仅如此，prompt 还并不是你的文本输入，而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西，而这玩意在报错崩溃之前，你是看不到的，更没办法调整。

更搞笑的是，同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

（把人类当工具，把工具当爹）

只不过 DeepSeek 这玩意吧，你只给一张图片然后让他发散的话，大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有收敛这一个能力，你还让人家发散。

那就顺便把视频生成也讲一点吧

参见这个视频：【AI 参考图/智能编辑 + 图片生成视频效果展示。】

我把部分AI生成的原图片和使用参考图/智能编辑的图片，使用支持首尾帧的AI视频功能穿起来，然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远，所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0，其输出质量也远比图形模型3.0差很远。

结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来，重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」，而且由于文生图和图生图模型之间差异巨大，越整越烂。

不过说到底，豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件，其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能，输出质量虽然一言难尽（模型应该也是1.5-2.0之间的水平，跟3.0差远了），好歹聊胜于无。

相对来讲，豆包反而良心多了。

其他 付费软件 的输出质量更差，我真的理解不了会有什么人高价买会员。

当然，每年都720充魔兽世界年卡然后完全不玩不上线的人，我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年：https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年：

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺？

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

小赖子的英国生活和资讯

JustYY.com 小赖子的英国生活和资讯

2025年5月15日 01:21

今天在一个群里看到四张由字节的豆包（Doubao AI）生成的美女图，着实震撼。现在的AI技术已经发展到这种程度了吗？

刚开始我还以为是真人照片，直到注意到右下角写着“豆包AI”。不得不说，字节的这波操作真是让不少男性同胞“受益”匪浅（字节豆包模型训练数据很可能有来自其抖音和Tiktok平台，所以更懂男性）。AI的进化速度之快令人惊叹，各大模型之间也越来越“内卷”。很多行业都在被AI渗透：程序员、设计师、律师、医生……并不是说这些岗位会因此消失，但竞争会更加激烈，岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说，卷得只会更厉害。

这四张图完全击中了我的审美：美女站在镜子前自拍，高跟鞋、短裙、长发、身材丰满，每一处细节都恰到好处，而且看起来毫无“AI感”。

注意美女脚上的青筋，还有手机闪光，阴影等，细节很细致。

其实我已经很久没有关注AI生成美女图了，之前总觉得那些图风格千篇一律，容易审美疲劳，也可能是提示词的问题。

这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成，毕竟这种尺度对某些AI来说可能有些“越界”，系统可能直接提示：“不符合规定，无法生成”。

2025-05-14-10.19.09 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.16-1 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.22.27 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.13 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

吉卜力风格/Ghibli

把上面这四张的高挑美女图，让ChatGPT来生成吉卜力风格的照片，尽可能保留细节：只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

ChatGPT-Image-May-24-2025-08_12_53-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_48-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_40-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

最后这一张生成的有点胖（丰满）了，因为ChatGPT生成的内容也会有点随机，当然你可以让它改，直接和它说需求即可。ChatGPT相当于一个设计师/PS大师，你是甲方，你只需要和它说需求即可。

ChatGPT-Image-May-24-2025-08_12_24-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

让它改了“有点胖了，改瘦一点，大长腿一点”，不过感觉还是上面第一版本比较好，丰满一些好看一下。

ChatGPT-Image-May-24-2025-09_01_45-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

有意思的/雅俗共赏

ChatGPT 可以拿来做什么？

ChatGPT 通用人工智能

Grok 3

AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法!

字节/豆包/AI

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

本文一共 1253 个汉字, 你数一下对不对.

字节豆包AI还是比较懂男性: 可能和抖音数据有关?. (AMP 移动加速版本)

赞赏我的几个理由.

¥ 打赏支持

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

The post 字节豆包AI还是比较懂男性: 可能和抖音数据有关? first appeared on 小赖子的英国生活和资讯.

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈，据说，特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的，具体如下：其中 I 是 Import，进口；E 是 Export 出口。优美又实用的公式家族又添新成员勾股定理：欧拉恒等式：牛顿运动定律：爱因斯坦质能等价公式：特朗普的“互惠关税”公式：，其中 I...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
你要找什么样的老婆? 找媳妇的标准昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
公司请的专业摄影师公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
在英国给孩子换学校的经历: 孩子离开了村里的小学由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
终于在Steam平台上玩了最终幻想7-Remake-蒂法和爱丽丝真是美啊前不久先是我用了7年的HPZ800的服务器在车库里寿终正寝了, 然后就是感觉小电脑NUC太慢, 所以又又搞了一台微软的 Surface Studio Laptop, 这电脑真是快, 自带独显, 玩DOTA2+鱼尾屏很爽. 在STEAM平台花了69.99英镑买了最终幻想7-Remake. Final Fantasy VII – Remake...

豆包“偷偷”“更新”文生图功能

石樱灯笼博客

石樱灯笼

2025年4月27日 01:06

大概是4月21日的晚上，豆包偷偷更新了。不能说是升级，因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了，但是精度大幅度下降了，乱七八糟的东西变多了。当然了，豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

（文章内容随时间推移而失效）

变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出，这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系，从结果来看根本没关联。文字上好像是理解了你的文字输入，但实际上最终图片结果大部分场景下跟这段重排文字没啥关系，该错还是错的，这反而更加显蠢。

不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心，然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活，就是做着玩的。

敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。

出图精度大幅下降

这是水下吗？这是游泳吗？这游泳馆为啥有海豚？

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58

画蛇添足问题明显

这狗熊脸哪里来的？

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的，最麻烦的是，整体场景多余内容变得特别多。这导致整体输出变得非常的不可控，如果想要做内容的话，很有可能因为不必要输出乱跑导致完全跑题。

比如，这是更改前的输出：

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出：

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前，输出的内容很干净很稳定，但更改后，就非常过分的自作多情了。

准确度也变得更差了，带着雨帽还能露出双马尾这种错误，在更新之前是没有的。

这玩意就是明显的「画蛇添足」

单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个，触发条件不详。

某些场景下会只生成一张图，而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话，有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。

结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容，项目是在微信上做公众号，比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送（说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程，所以自己做APP死路一条），结果做了几年之后，微信大幅度砍了公众号的推送功能，导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容，但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

讲讲目前使用线上AI文字生成图片工具的局限性

石樱灯笼博客

石樱灯笼

2025年4月15日 22:55

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下，bilibili的嵌入代码，在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……（破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧）

（为了省事，下文中关于 文字生成图片 、 图片生成 、 AI生成图片 等一系列同义词，均使用 文生图 这个词）

前言

是的这一阵子仍然很无聊的在折腾AI，主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力，天生没有拿笔画画的能力，我最高也只能做到画几个简单的几何体素描，这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情，而我很明确的想象不出来自己拿着笔画画的样子，最多也只是在3DS上玩一下《Colors! 3D》或者《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候，肯定是得当作工具好好尝试一下的。

在上一篇文章中也说过了，线下AI文生图工具用不起，线上AI文生图工具不可靠。

只不过这次玩得有点多，我算是把 豆包的AI文生图天花板给捅 了

尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画，而之前文章《[原创漫画] 《生命，科技，灵魂，死亡》，以及制作感想》中也讲了，因为这玩意不是人，所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单，这样在内容变化上能尽量保证主体变化不大，不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。

尝试用豆包智能编辑和区域重绘功能出图后插帧做动画

我之前想到过，使用智能编辑和区域重绘，一点一点做一个渐变的效果，然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护，或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果：

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图，而动画是一个流畅的东西，在智能编辑和区域重绘这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线，结果没啥效果。尤其是速度曲线需要做积分来确定播放时长，而我现在的脑子算个一元一次方程式都卡壳。

捅到豆包文生图2.0模型的天花板

（我猜这玩意叫2.0，因为我不知道这玩意到底叫啥）

我在思考过后，想了个不如干脆不用动漫风格，而是用写实风格，找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象： 当关键词足够多的时候，出图风格会回落 ，像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是：「人像摄影」＞「电影写真」＞「3D渲染」＞「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下，人脸输出还是比较稳定的，图像也比较像真人。

但是当继续增加关键词的时候，出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片，「3D渲染」就开始出类似建模一样的风格，甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话，即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词，这也就意味着要简化场景的复杂度。

在这个限制条件下，我做了这个视频

《[原创] Dump》

怎么说呢，场景实在是太过于简洁了。

只能说，在线上工具有如此限制的情况下，创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。

豆包文生图模型升级到3.0

这玩意还能升级我是没想到的，因为我一直不太明确，目前这些大厂搞这些产品的目的是什么。豆包的这个产品，明显在外部宣传上没跑过同类选手，在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期，或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后，的确画质提升了非常多，前文中讲的 风格回落 问题基本就不会出现了（或许是服务器升级了内存上限？）。但就像我说的 我一直讨厌依赖线上工具 ，线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来，所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升，所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子，看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

（注：内容具有时效性，随时间变化部分内容会失效）

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比：

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门，不会画角色与背景的比例，不会画角色与背景的相对角度。新模型虽然在比例上还是歪的，但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048，绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词，现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词，现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑，全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪，伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么，发箍这个字段总被当作光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

（莫不是模型是用 蔚蓝档案 跑出来的？）

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样，只要元素个体超过两个，相互关系就会崩。

车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

多个对象场景下，对象间关系很容易出错。

比如，我想让这个紫色少女站在橙色少女前面，站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下，就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的？

参考图、智能编辑、区域重绘、擦除

讲了出图，也得讲一下改图。

擦除

擦除应该是最有用的功能，只不过豆包的这个擦除，抹啥糊啥。

原图：

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除：

生成动漫风格图片-2996429080838914-20250413233211

百度擦除：

jpg-e1d68564eccf784c743295bb2fbbd76c

（百度出的结果是jpg的而且分辨率会被缩，基本上是一坨屎）

GIMP 克隆工具：

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是，豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了，输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘，这三个我就一起说了。

原本2.0模型的时候，这仨功能就不怎么好使。最大的感觉就像是，这三个玩意用的是一个比2.0劣质一点的模型，但还没有到达不可接受的差距。

尤其是2.0的时候，文生图的输出最大边长是1024，而 智能编辑 的最大边长却是 1312，对应16:9比例的话输出结果是 1312×736 这么个分辨率，直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了，图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话，新图的角色可能会比旧图角色小一点，那样的花就用rembg把旧图角色抠出来，然后自己编辑，再贴到新图上。

动画模型还好一点，真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下，精细度差别能大到吓人。

这是3.0的文生图：

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘，尝试在椅子上放一瓶可乐：

生成特定风格图片-2715236277751298-20250413154949

这是参考图/智能编辑想在空椅子上加个人：

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈，智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭：

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心：

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了：

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画，如果用真实场景的话大概就是这么个效果：

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（三）

这里还有一个动漫效果的，所有元素的变形都太严重，根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（四）

文中最开头也说了，本身这玩意流畅度就够呛，再加上智能编辑和区域重绘的模型，就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下， 智能编辑 和 区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用，就是在部分不在意内容的场景下填补空白，比如视频封面图啥的。

只不过由于出图分辨率是固定的，所以扩图的同时还在缩图。

我曾想着或许可以靠反复扩图的方法，做一个绝命毒师结局的 Baby Blue 场景，结果，豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡，想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。

豆包应用

说完模型，说下豆包这玩意。

声明：我个人本身是很讨厌头条系的（现在可能叫做字节系？）。但相对于厌恶程度，头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版，一个 Chrome/Edge/Safari 插件，一个 Windows/MacOS 浏览器，一个手机客户端。Chrome插件和 Windows客户端我都试过了，正经人谁会用这玩意？退一步讲，哪个产品经理想出来专门做一个浏览器只为了跑一个网页？脑残的阿里吗？

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录和第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了，其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。

豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎 。

火山引擎这玩意想要登录进去可以说特别困难，页面的稳定性烂得出奇，大部分情况下都是后端API超时，跨域请求出错，前端条件判定出错，然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨阿里云/腾讯云一样的界面。云服务供应商虽然都长得差不多，但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口，而其背后应该有更多的能提供更强更稳定的商业服务。

至少稳定这一块是没了。

而作为更强这一块呢？

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂，是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂，而出图质量甚至都没有上一个版本的豆包高，只有百度AI的水平。

而且和豆包以及其他国内平台一样，文生图功能都只有一个文字输入接口，非常的落后。（现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的，「负面」输入可以保证输出结果中不存在你完全不想要的内容）

（有一种不愧是头条系的感觉，除了搞出致瘾性算法之外什么都搞得稀烂的样子）

至于其他产品，图文生视频这玩意目前就是搞笑的，屁用没有。你可以看我在B站做的这个视频合集：合集·用AI生成的视频也太离谱了，这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型，开放业务只有声音复刻和同声传译。

文本模型，这玩意真的有人想要花钱用这玩意吗？用途会是啥啊？自己搞个假的 DeepSeek 搞分销？

结尾

反正目前这个AI水平，放在个人手中，仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱；线下个人用户很难将业务稳定的部署，硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求，就是根据已有的html文本，直接生成带锚链接的目录。这个需求我在豆包百度 copilot 下同时试了 bash node php python 三个语言，基本全部都是语法错误，基本都是瞎写的，正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》，除了一条有效评论之外，全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字，更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了，毕竟独立博客不需要刷活跃度来提升展示率，这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去，才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子，大家都在那甩小屌，那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客，现在又要做直播，我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

吉卜力风格照片(持续更新)

小赖子的英国生活和资讯

JustYY.com 小赖子的英国生活和资讯

2025年4月10日 00:59

一些（老）照片用AI的这个功能改改后还能再发一次朋友圈，哈哈。主要是年纪渐长，照片用美颜又太假，发真实照片又惨不忍睹，用这个风格正正好。我朋友圈就看到有很多这样的照片，其实挺好，记录生活，很俏皮可爱。

还是ChatGPT 4o的效果最好，有时候不满意，还可以让AI多生成几个，AI就是个乙方，而且没有脾气，想要几个版本就给几个版本，设计师真的要失业了：

这个帖子就不发原图了，辣眼睛。AI画师上岗，日常秒变番剧现场！

PS：Grok 3的效果不怎么样，其它AI好像没这个功能，比如 Google Bard, Deep Seek, 阿里Qiwen。只会和我说文字描述怎么改图片。

chatgpt-ghibli-2 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物媳妇照片生活

细节更准确图像更立体