阅读视图

发现新文章,点击刷新页面。

豆包的双重水印

字节不仅没活,而且玩不起。

玩不起也就算了,还搞出笑话。


(自上篇文章写完之后,这最近十多天我都没怎么打开过豆包,所以这些事情的具体发生日期不确定)

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

豆包开始封杀无水印图片获取方法

之前最基本的方法就是,直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的,而且下载图是带水印的,所以没必要再去点击下载。

之所以有这么个办法,即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的

然后大约5月28日左右,网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15


豆包的二次水印

这玩意就搞笑。

首先预览图带水印,然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印,CPU随便用,存储空间不要钱,带宽流量狠劲浪。


豆包视频的双重水印

豆包当然在服务器端是有保存无水印,看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了?

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的,我解释一下:

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确,是为了 免去用户手动下载图片,然后再重新上传图片到网站,浪费资源

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候,是把 预览图 下载到本地,然后转码成BASE64。然后在 「生成视频-发送」 时,却又并不提交浏览器缓存的图片或BASE64,而是直接提交了一堆ID和Token,但是这些ID和Token引用的,是服务器端保存的 带水印的预览图 ,所以最后生成的视频文件,同时带有 预览图水印视频水印

如果梳理一下他们这奇葩行为的流程的话:

  1. 二次下载预览图(会调用浏览器缓存,不浪费带宽,可以理解,但是干啥用?)
  2. 把预览图转码成BASE64(干啥用?)
  3. 提交ID和Token而不是图片(正确操作)
  4. 调用的是服务器端保存的带水印的预览图(有病啊)
  5. 在生成的视频上打水印(在屎上拉屎)

screenshot_7734397622634242-20250602174504

他这玩意,在16:9和4:3以及1:1横向视频上问题还不严重,毕竟两个水印叠加在一起了。但是在9:16纵向视频上,以及21:9宽屏视频上,水印不论位置还是大小都不一样,很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频,他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司,甚至都不关心竖屏视频的输出结果。

PS1:豆包现在线上输出的视频分辨率小于720p,现在是一个很奇葩的数值,16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

(这破公司怎么想的)

PS2:假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ,输入完文字(一般是复制粘贴)直接敲回车键提交的话,那么将会以 无首帧图 的场景下,进入 文字生成视频 的流程。还挺滑稽的,以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24


豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面,那么回到页面时,点开缩略图展开的预览图片,不是真正的预览图片,而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能,崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化,刻板印象真的表现得淋漓尽致。


以后如何获取无水印图片

除非豆包重新放开渠道,否则想要直接获取无水印图片是比较困难了。

当然,这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印:

screenshot_7875414228876802-20250603160359-1506-watermark

无水印:

screenshot_7875414228876802-20250603160359-1506

对比:

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子:

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓,现在豆包的输出结果,只要是接触过豆包AI的,一眼就能看出来是豆包3.0的视觉模型,

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层 人皮 在外边卖服务吧 …… 不过考虑到字节旗下的用户,还真说不准。来个闲鱼修图业务,套人皮用免费AI收费改图。


有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵,还能有人觉得AI现在不会自行污染了?

至少我是会在图片上额外再打一个水印的,但是我打的水印AI能不能识别到都不一定。


结尾

我之前做了一个无水印下载脚本,当时遇到了不少问题,比如跨域图片下载,下载图片的命名。

本身豆包页面就有不计其数的逻辑错误,我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ,点开下载视频按钮直接打开视频,需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式,搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧,其实字节根本就没有高端用户,顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧,最多就是少了一个玩具而已。

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

囤货狂

当年今日

一直以来我都是个囤货爱好者。2003年是我上网的元年,那是高二升高三的暑假,家里装上了长城宽带。那个东西不能说好用,但起码能上网。上网对我来说是开启了一个未知世界的大门,可以这么说,我的世界观由此改变了很多。一开始上网,我就是个囤货爱好者。一开始囤货,倒不是因为我有那么高敏感度觉得此刻我能看到的东西可能以后就看不到了,因为各种各样的原因。一开始的时候,我不知道墙的存在,但后来这种感觉越发明显,不过之前我说的那种可能以后就看不到了,倒不是因为墙的原因,是因为把东西挂在网上,有个域名了有个服务器,这都需要钱,如果是一个私人网站,那么某一天在任何一方面不续费了,自然我之前看到了网站就会不复存在。这种事情可能会发生在一个博客上,也可能发生在一个论坛上,同时也有可能发生在一个自行建立的网站上。

一开始的我没什么技术,只会复制粘贴,但怎么把格式都粘贴过去呢?所以我想到的office,把我喜欢的网页贴到word里。所有网址也都开一个word文档收藏,这样的好处是超链接是有效的。一开始的时候,我不知道怎么编辑超链接,我只会把它贴过去。后来我知道了怎么保存网页,所以对那些没什么图片,有大量文字的东西,我选择的是保存网页。跟文字相比,一开始我存下来更多的是图片。网站是西班牙语的,如果是纯文字,我还可以复制翻译一下,但是按钮是西班牙语的,当时的OCR识别没那么好,而且他们用的是花体,估计哪怕是现在也有点难度的。链接点进去,大概差不多感受一下那到底是什么。

在那里我发现一个很大的相册。大相册里面又有很多不同的部分。最开始的时候我是挑着右键保存,后来我发现那已经满足不了我的收藏欲望,所以最终我做的是批量下载,我也不知道为什么我居然掌握了那项技能。之所以可以这样做,是因为那个相册以及相册里面的图片命名都是非常规律的,所以那个时候我就用Flashget批量下载图片。非常感谢建立那个相册的人那么规律。他们用的是数字序号。有时候某些相册里面的序号是终端,比如3就跳到5,但不影响我。如果相册里每一张图片的命名都不一样,那么就真的是好崩溃。又过了大概10年,哪怕相册里命名没有规律,每张图片都不一样的。只要缩略图和大图的命名是一致的,我依然可以通过发现规律在小图界面把大图下载回来。下载那堆东西耗费了我非常多时间,但是下载回来以后我又打开看过多少次呢?每次我感觉自己都是这样,下载的时候花很多时间,但下载回来就下载回来了,我再触碰的几率很低。文字是这样,图片是这样,后来的视频也是这样。

不知道其他人是不是也像我这样是囤货狂。

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

看来字节没活了。

  • (注1:文章具有时效性)
  • (注2:文章包含大量图片。为照顾布局,部分图片有经过剪切,与线上排版有差异)


前提

建议先读我之前写的这篇文章:《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲,我4月末写的那篇文章,差不多是豆包这超能创意的更新,但是他们的文档5月14日才出来。

而且现在状态还是灰度测试?那我之前三个星期用的是啥玩意?

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档,那就能明确他这玩意到底都更新了个啥,不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事?TMD这是想要抓截图的人吗?我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

(我甚至担心,别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码)

另外,啥叫 超能创意 1.0 版本不稳定,建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」,怎么在图像生成之外使用?难道还有其他的灰测?


隔夜饭还是馊的

首先我得勘误一个事情,这个「超能创意 1.0」实际上在4月25日出过更新内容,只不过我上一篇文章却是从4月22日开始写,一直写了5天(你就说有多慢吧),期间也没有仔细检查过他们的更新通知,而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你:理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的,连传送门都有。

而且,它到底理解了个啥?

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

(车头对着少女,这明显是公交车进站啊)

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是 智力只有小学生程度 的用户吧?公主被抓走什么的,我直接用更精确的 难过 上心 流泪 这些形容词不就好了?

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

(你发散思维时,至少把人物主体的手画对好吧?)

只能说这玩意只有在输入的内容过少的时候,自由发挥时有用。但是自由发挥的范围却是不可控的,谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂,遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得,把你整体构图都改了。

图片处理

你玩我是吧?

这TM不还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的 伪人

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过,这个功能的最大边长是1312,而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与 参考图/智能编辑 唯一的区别在于,入口不是按钮,而是在对话里直接对话执行……有那个必要吗?

这玩意唯一的优点就是,可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创:灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ,又来?!?!

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题?

我之前也说过,用这玩意讲故事的话,有严重的连续性的问题,改了?

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ,四格就崩得 金瞳变蓝瞳,长直变马尾,还把腰给搞没了。

更别说我本身不想使用这个功能的时候,也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆?!

……

……

……

不对劲!

莫非文档是错的?这功能本来就不是文档例子里那么用?

保持主体不变:

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化:

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ,这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题,真的着实不靠谱。

超效率:批量生成 + 自适应:比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过,就是你手动输入生成超过20条的时候,他会按照两个阶段输出。比如输出32张,那就先输出20张,再输出12张。比例也是一样的。

输出4张是为了调整关键字,输出20张是为了批量结果然后在其中挑选,输出超过20张那基本脑子有病。

万千:风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风,实际上背景构图姿势全都变了。


人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个:

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图,没有放在首页里,但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取,所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接,看到带着各种报错信息的例子 ,比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了,把日志打到用户侧也实在是太……傲慢。


开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本,不能选模型分类,现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级,新版则是模型乱跑。

不识数的问题更严重了

之前文章说过,有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量,手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了,还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车,你上了车说要去美食城,司机却说美食城有啥好玩的我带你去更好的地方,说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候,却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候,比如「过膝靴」和「过肘手套」,「过膝袜」和「手臂抵住膝盖」,精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚,有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过,4月份更新的时候,多了个 敏感词/违禁词 提示。这功能不说好坏,至少能让用户知道某些词不能用。现在,没了。

现在的情况,要不就是直接弹个黄框然后没反映,要不就是输出4个你看不到的图片,要不就是在有上文的情况下直接忽视 敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成 敏感词/违禁词 被截图也会很尴尬吧。

更诡异的 敏感词/违禁词

(写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块,我目前只能说的确有更诡异的 敏感词/违禁词,而且 视频生成 还有额外的一套 敏感词/违禁词,而且还有图像识别用来检查输入图像是否合规,尤其是豆包自己AI生成的图片也有可能无法通过审查,而使用与豆包相同模型的即梦AI的审查更严格)

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是 敏感词/违禁词 我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧?还是说因为内容主体是女性,只能「喷」而不能「射」?

中国人的AI的想像也能在这一层能够如此跃进吗?

NTM 要是能在内容上精确,而不是在 敏感词/违禁词 上也瞎「创意」就好了。


是时候破案了

之前文章中有写到过,豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的,这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

(想想看假如真的是国内网站被 DNS污染 ,还挺搞笑的)

在 hosts 里添加了个静态地址,稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开,而且文档也写得稀烂,所以我之前没怎么看过。其实现在我也不想看。

简单来讲,豆包线上用的文生图模型是:doubao-seedream-3.0-t2i,而 「参考图/智能编辑」 功能其实在学名上是叫做 「图生图」 ,而这个功能只有 2.0 和 更旧的版本 支持。不仅如此,官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了,模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」 功能其实是把图片走了另一套逻辑,进的另一个旧模型,输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度,已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何?

(因为这文章是写完主题后查漏补缺补的,所以顺序有点乱)

这里要用到与豆包使用同样模型的收费工具:即梦AI。

(关于即梦的介绍见文章后部分)

动画模型

我用相同的提示词,不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出,2.0的图片虽然看起来很花俏,但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的(除非当作无目标的玩具瞎玩)

(但是2.0的妹子,胸大,穿得短,露得多……??????)

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看,毕竟这玩意风格都不一样,简直就是换了个人画画,作画方向不一样,风格也不一样,说不了谁好谁坏。

但是论精度,肯定是3.0的更靠谱,因为这些图片都是在2.0先出图后,在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话(出4张图能有3张图匹配一定的文字描述),那2.0的精度差不多是 1/16 (出16张图能有3张图匹配一定的文字描述)。我只能说「一定程度上」的,因为大部分时候你怎么折腾,3.0都匹配不上,更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿,结果一个坐地上,一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错,手套画错,没画鞋,衣服画错,手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露,你把我 参考图/智能编辑 的 搞没了干什么?

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图,假如有人说这是张真人高P图,大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了,3.0原图的细节也被抹掉不少。

人像这块就不用对比了,2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说:豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型,付费服务比免费服务还烂,是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型,不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利,因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具:即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

(能看到使用与豆包相同模型的即梦AI,高版本模型同样没有「参考图/智能编辑」功能)

事实上如今市场上有相当多的AI生成工具,而且大部分都是收费的,仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具,而付费服务价格非常高,作为短期玩具花大钱不值得,作为长期工具,这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的?

之前文中没写过(但是评论里有提到过),现在的AI出图工具一般是有 「积极提示词」「消极提示词」 两种提示词入口的,但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有:

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

(所以我说你把错误日志打印到用户侧实在太过于傲慢了)

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词,不会被用户输入影响。

不仅如此,prompt 还并不是你的文本输入,而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西,而这玩意在报错崩溃之前,你是看不到的,更没办法调整。

更搞笑的是,同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

(把人类当工具,把工具当爹)

只不过 DeepSeek 这玩意吧,你只给一张图片然后让他 发散 的话,大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有 收敛 这一个能力,你还让人家发散。


那就顺便把视频生成也讲一点吧

参见这个视频:【AI 参考图/智能编辑 + 图片生成视频 效果展示。】

我把部分AI生成的原图片和使用 参考图/智能编辑 的图片,使用支持首尾帧的AI视频功能穿起来,然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远,所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0,其输出质量也远比图形模型3.0差很远。


结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来,重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」,而且由于文生图和图生图模型之间差异巨大,越整越烂。

不过说到底,豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件,其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能,输出质量虽然一言难尽(模型应该也是1.5-2.0之间的水平,跟3.0差远了),好歹聊胜于无。

相对来讲,豆包反而良心多了。

其他 付费软件 的输出质量更差,我真的理解不了会有什么人高价买会员。

当然,每年都720充魔兽世界年卡然后完全不玩不上线的人,我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年:https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年:

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺?

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

字节豆包AI还是比较懂男性: 可能和抖音数据有关?


今天在一个群里看到四张由字节的豆包(Doubao AI)生成的美女图,着实震撼。现在的AI技术已经发展到这种程度了吗?

刚开始我还以为是真人照片,直到注意到右下角写着“豆包AI”。不得不说,字节的这波操作真是让不少男性同胞“受益”匪浅(字节豆包模型训练数据很可能有来自其抖音和Tiktok平台,所以更懂男性)。AI的进化速度之快令人惊叹,各大模型之间也越来越“内卷”。很多行业都在被AI渗透:程序员、设计师、律师、医生……并不是说这些岗位会因此消失,但竞争会更加激烈,岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说,卷得只会更厉害。

这四张图完全击中了我的审美:美女站在镜子前自拍,高跟鞋短裙长发身材丰满,每一处细节都恰到好处,而且看起来毫无“AI感”。

注意美女脚上的青筋,还有手机闪光,阴影等,细节很细致。

其实我已经很久没有关注AI生成美女图了,之前总觉得那些图风格千篇一律,容易审美疲劳,也可能是提示词的问题。

这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成,毕竟这种尺度对某些AI来说可能有些“越界”,系统可能直接提示:“不符合规定,无法生成”。

2025-05-14-10.19.09 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.16-1 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.22.27 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.13 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

吉卜力风格/Ghibli

把上面这四张的高挑美女图,让ChatGPT来生成吉卜力风格的照片,尽可能保留细节:只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

ChatGPT-Image-May-24-2025-08_12_53-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_48-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_40-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

最后这一张生成的有点胖(丰满)了,因为ChatGPT生成的内容也会有点随机,当然你可以让它改,直接和它说需求即可。ChatGPT相当于一个设计师/PS大师,你是甲方,你只需要和它说需求即可。

ChatGPT-Image-May-24-2025-08_12_24-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

让它改了“有点胖了,改瘦一点,大长腿一点”,不过感觉还是上面第一版本比较好,丰满一些好看一下。

ChatGPT-Image-May-24-2025-09_01_45-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格,尽可能保留照片细节。

有意思的/雅俗共赏

ChatGPT 可以拿来做什么?

ChatGPT 通用人工智能

Grok 3

字节/豆包/AI

本文一共 1253 个汉字, 你数一下对不对.
字节豆包AI还是比较懂男性: 可能和抖音数据有关?. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片 人工智能 (AI) 女人 小确幸 有意思的 福利
The post 字节豆包AI还是比较懂男性: 可能和抖音数据有关? first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈,据说,特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的,具体如下: 其中 I 是 Import,进口;E 是 Export 出口。 优美又实用的公式家族又添新成员 勾股定理: 欧拉恒等式: 牛顿运动定律: 爱因斯坦质能等价公式: 特朗普的“互惠关税”公式:,其中 I...
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  5. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  6. 公司请的专业摄影师 公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
  7. 在英国给孩子换学校的经历: 孩子离开了村里的小学 由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
  8. 终于在Steam平台上玩了最终幻想7-Remake-蒂法和爱丽丝真是美啊 前不久先是我用了7年的HPZ800的服务器在车库里寿终正寝了, 然后就是感觉小电脑NUC太慢, 所以又又搞了一台微软的 Surface Studio Laptop, 这电脑真是快, 自带独显, 玩DOTA2+鱼尾屏很爽. 在STEAM平台花了69.99英镑买了最终幻想7-Remake. Final Fantasy VII – Remake...

豆包“偷偷”“更新”文生图功能

大概是4月21日的晚上,豆包偷偷更新了。不能说是升级,因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了,但是精度大幅度下降了,乱七八糟的东西变多了。当然了,豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

(文章内容随时间推移而失效)


变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出,这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系,从结果来看根本没关联。文字上好像是理解了你的文字输入,但实际上最终图片结果大部分场景下跟这段重排文字没啥关系,该错还是错的,这反而更加显蠢。


不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心,然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活,就是做着玩的。


敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。


出图精度大幅下降

这是水下吗?这是游泳吗?这游泳馆为啥有海豚?

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58


画蛇添足问题明显

这狗熊脸哪里来的?

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的,最麻烦的是,整体场景多余内容变得特别多。这导致整体输出变得非常的不可控,如果想要做内容的话,很有可能因为不必要输出乱跑导致完全跑题。

比如,这是更改前的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前,输出的内容很干净很稳定,但更改后,就非常过分的自作多情了。

准确度也变得更差了,带着雨帽还能露出双马尾这种错误,在更新之前是没有的。

这玩意就是明显的「画蛇添足」


单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个,触发条件不详。


某些场景下会只生成一张图,而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话,有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。


结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容,项目是在微信上做公众号,比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送(说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程,所以自己做APP死路一条),结果做了几年之后,微信大幅度砍了公众号的推送功能,导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容,但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

讲讲目前使用线上AI文字生成图片工具的局限性

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下,bilibili的嵌入代码,在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……(破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧)

(为了省事,下文中 关于 文字生成图片图片生成AI生成图片 等一系列同义词,均使用 文生图 这个词)


前言

是的这一阵子仍然很无聊的在折腾AI,主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力,天生没有拿笔画画的能力,我最高也只能做到画几个简单的几何体素描,这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情,而我很明确的想象不出来自己拿着笔画画的样子,最多也只是在3DS上玩一下 《Colors! 3D》 或者 《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候,肯定是得当作工具好好尝试一下的。

上一篇文章中也说过了,线下AI文生图工具用不起,线上AI文生图工具不可靠。

只不过这次玩得有点多,我算是把 豆包的AI文生图天花板给捅


尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画,而之前文章《[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想》中也讲了,因为这玩意不是人,所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单,这样在内容变化上能尽量保证主体变化不大,不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。


尝试用豆包 智能编辑 和 区域重绘 功能出图后插帧做动画

我之前想到过,使用智能编辑和区域重绘,一点一点做一个渐变的效果,然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的 插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护,或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果:

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续 尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图,而动画是一个流畅的东西,在 智能编辑 和 区域重绘 这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线,结果没啥效果。尤其是速度曲线需要做积分来确定播放时长,而我现在的脑子算个一元一次方程式都卡壳。


捅到豆包文生图2.0模型的天花板

(我猜这玩意叫2.0,因为我不知道这玩意到底叫啥)

我在思考过后,想了个不如干脆不用动漫风格,而是用写实风格,找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象: 当关键词足够多的时候,出图风格会回落 ,像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是:「人像摄影」>「电影写真」>「3D渲染」>「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下,人脸输出还是比较稳定的,图像也比较像真人。

但是当继续增加关键词的时候,出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片,「3D渲染」就开始出类似建模一样的风格,甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话,即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词,这也就意味着要简化场景的复杂度。

在这个限制条件下,我做了这个视频

《[原创] Dump》

怎么说呢,场景实在是太过于简洁了。

只能说,在线上工具有如此限制的情况下,创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。


豆包文生图模型升级到3.0

这玩意还能升级我是没想到的,因为我一直不太明确,目前这些大厂搞这些产品的目的是什么。豆包的这个产品,明显在外部宣传上没跑过同类选手,在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期,或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后,的确画质提升了非常多,前文中讲的 风格回落 问题基本就不会出现了(或许是服务器升级了内存上限?)。但就像我说的 我一直讨厌依赖线上工具 ,线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来,所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升,所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子,看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

(注:内容具有时效性,随时间变化部分内容会失效)

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比:

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门,不会画角色与背景的比例,不会画角色与背景的相对角度。新模型虽然在比例上还是歪的,但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048,绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词,现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词,现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑,全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪,伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么,发箍 这个字段总被当作 光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

(莫不是模型是用 蔚蓝档案 跑出来的?)

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样,只要元素个体超过两个,相互关系就会崩。

  • 车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

  • 马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

  • 部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

  • 疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

  • 关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

  • 多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

  • 多个对象场景下,对象间关系很容易出错。

比如,我想让这个紫色少女站在橙色少女前面,站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下,就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的?


参考图、智能编辑、区域重绘、擦除

讲了出图,也得讲一下改图。

擦除

擦除应该是最有用的功能,只不过豆包的这个擦除,抹啥糊啥。

原图:

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除:

生成动漫风格图片-2996429080838914-20250413233211

百度擦除:

jpg-e1d68564eccf784c743295bb2fbbd76c

(百度出的结果是jpg的而且分辨率会被缩,基本上是一坨屎)

GIMP 克隆工具:

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是,豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了,输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘,这三个我就一起说了。

原本2.0模型的时候,这仨功能就不怎么好使。最大的感觉就像是,这三个玩意用的是一个比2.0劣质一点的模型,但还没有到达不可接受的差距。

尤其是2.0的时候,文生图的输出最大边长是1024,而 智能编辑 的最大边长却是 1312,对应16:9比例的话输出结果是 1312×736 这么个分辨率,直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了,图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话,新图的角色可能会比旧图角色小一点,那样的花就用rembg把旧图角色抠出来,然后自己编辑,再贴到新图上。

动画模型还好一点,真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下,精细度差别能大到吓人。

这是3.0的文生图:

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘,尝试在椅子上放一瓶可乐:

生成特定风格图片-2715236277751298-20250413154949

这是 参考图/智能编辑 想在空椅子上加个人:

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈,智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭:

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心:

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了:

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画,如果用真实场景的话大概就是这么个效果:

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(三)

这里还有一个动漫效果的,所有元素的变形都太严重,根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(四)

文中最开头也说了,本身这玩意流畅度就够呛,再加上 智能编辑和区域重绘 的模型,就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下, 智能编辑区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用,就是在部分不在意内容的场景下填补空白,比如视频封面图啥的。

只不过由于出图分辨率是固定的,所以 扩图 的同时还在 缩图

我曾想着或许可以靠反复扩图的方法,做一个绝命毒师结局的 Baby Blue 场景,结果,豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡,想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。


豆包应用

说完模型,说下豆包这玩意。

声明:我个人本身是很讨厌头条系的(现在可能叫做字节系?)。但相对于厌恶程度,头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版,一个 Chrome/Edge/Safari 插件,一个 Windows/MacOS 浏览器,一个手机客户端。Chrome插件 和 Windows客户端我都试过了,正经人谁会用这玩意?退一步讲,哪个产品经理想出来专门做一个浏览器只为了跑一个网页?脑残的阿里吗?

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录 和 第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了,其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。


豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎

火山引擎这玩意想要登录进去可以说特别困难,页面的稳定性烂得出奇,大部分情况下都是后端API超时,跨域请求出错,前端条件判定出错,然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨 阿里云/腾讯云 一样的界面。云服务供应商虽然都长得差不多,但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口,而其背后应该有更多的能提供更强更稳定的商业服务。

至少 稳定 这一块是没了。

而作为 更强 这一块呢?

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂,是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂,而出图质量甚至都没有上一个版本的豆包高,只有百度AI的水平。

而且和豆包以及其他国内平台一样,文生图功能都只有一个文字输入接口,非常的落后。(现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的,「负面」输入可以保证输出结果中不存在你完全不想要的内容)

(有一种不愧是头条系的感觉,除了搞出致瘾性算法之外什么都搞得稀烂的样子)

至于其他产品,图文生视频这玩意目前就是搞笑的,屁用没有。你可以看我在B站做的这个视频合集:合集·用AI生成的视频也太离谱了,这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型,开放业务只有声音复刻和同声传译。

文本模型,这玩意真的有人想要花钱 这玩意吗?用途会是啥啊?自己搞个假的 DeepSeek 搞分销?


结尾

反正目前这个AI水平,放在个人手中,仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱;线下个人用户很难将业务稳定的部署,硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求,就是根据已有的html文本,直接生成带锚链接的目录。这个需求我在 豆包 百度 copilot 下同时试了 bash node php python 三个语言,基本全部都是语法错误,基本都是瞎写的,正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》,除了一条有效评论之外,全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字,更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了,毕竟独立博客不需要刷活跃度来提升展示率,这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去,才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子,大家都在那甩小屌,那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客,现在又要做直播,我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

吉卜力风格照片(持续更新)


一些(老)照片用AI的这个功能改改后还能再发一次朋友圈,哈哈。主要是年纪渐长,照片用美颜又太假,发真实照片又惨不忍睹,用这个风格正正好。我朋友圈就看到有很多这样的照片,其实挺好,记录生活,很俏皮可爱。

还是ChatGPT 4o的效果最好,有时候不满意,还可以让AI多生成几个,AI就是个乙方,而且没有脾气,想要几个版本就给几个版本,设计师真的要失业了:

这个帖子就不发原图了,辣眼睛。AI画师上岗,日常秒变番剧现场!

PS:Grok 3的效果不怎么样,其它AI好像没这个功能,比如 Google Bard, Deep Seek, 阿里Qiwen。只会和我说文字描述怎么改图片。

chatgpt-ghibli-2 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

细节更准确 图像更立体

chatgpt-ghibli-1 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇在塞尔维亚的照片改成Ghibli风格

family 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

me-and-my-wife 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

my-wife-1 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

my-wife-2 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

my-wife-3 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

me-my-wife 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

me-and-my-wife-4 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

mum-and-son 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

ChatGPT-Image-Apr-9-2025-05_53_27-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

ChatGPT-Image-Apr-9-2025-05_53_21-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

用ChatGPT 4o的Ghibli功能将老照片变成吉普利风格。提示词:可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素

ChatGPT-Image-Apr-9-2025-06_22_11-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

细节点赞,我媳妇脚踝上的纹身保留了。

ChatGPT-Image-Apr-9-2025-08_03_15-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

衣服的样子完美呈现,ChatGPT的这次图生图我给满分。

ChatGPT-Image-Apr-13-2025-10_53_21-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇年轻的时候身材颜值确实是很哇塞。

ChatGPT-Image-Apr-13-2025-10_43_39-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前天密室逃脱后去剑桥天天中餐吃了午餐。

ChatGPT-Image-Apr-13-2025-10_35_57-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

这个是玩偶风格,有点假

ChatGPT-Image-Apr-13-2025-10_33_18-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇在车里,上周末拍的

ChatGPT-Image-Apr-12-2025-10_27_35-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

这个是最近的,媳妇有点胖了。

ChatGPT-Image-Apr-11-2025-10_25_24-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

这个有点卡通风格了

ChatGPT-Image-Apr-10-2025-09_06_07-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

这个是玩偶风格,有点立体感,不过并不耐看。

ChatGPT-Image-Apr-10-2025-09_10_13-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

疫情那一年2020年 媳妇在家给我做好吃的

ChatGPT-Image-Apr-17-2025-08_50_59-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两年教媳妇编程,黑白上鸡兔同笼问题。让ChatGPT改了表情。

ChatGPT-Image-Apr-15-2025-10_39_41-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

疫情那几年的一年生日,媳妇陪我过生日,在剑桥Bourn的一家很有特色的餐厅吃了午餐。

ChatGPT-Image-Apr-16-2025-10_58_30-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

当年在谢菲尔得,媳妇肚子里怀着老二。

ChatGPT-Image-Apr-17-2025-07_22_22-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两年教媳妇编程,黑白上鸡兔同笼问题。媳妇表情很严肃。

chatgpt-library-converted-photos-ghibli 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

ChatGPT加了个更新,所有转换的图片都可以在图库里找到,很方便。

ChatGPT-Image-Apr-17-2025-08_50_31-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇前两年

ChatGPT-Image-Apr-17-2025-08_50_38-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇和小猫 Chessly

ChatGPT-Image-Apr-17-2025-08_50_47-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇前几年

ChatGPT-Image-Apr-17-2025-08_50_53-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇前几年

ChatGPT-Image-Apr-18-2025-11_59_44-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

年轻的我们

ChatGPT-Image-Apr-18-2025-08_23_48-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两年教媳妇编程

ChatGPT-Image-Apr-20-2025-09_48_56-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇之前身材好可以穿旗袍

ChatGPT-Image-Apr-20-2025-09_49_03-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇在 Fen Dryaton的客厅沙发上

2025-04-20-22.54.56 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

伦敦埃及博物馆

2025-04-20-23.02.29 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

伦敦埃及博物馆

2025-04-20-23.06.36 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

伦敦埃及博物馆

2025-04-21-23.25.44 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

上一周去伦敦

2025-04-22-03.33.40 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

上一周去伦敦

2025-04-22-03.53.04 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

上一周去伦敦

ChatGPT-Image-Apr-22-2025-10_24_55-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

给媳妇买的小奔练手

ChatGPT-Image-Apr-22-2025-10_34_10-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

疫情那一年,媳妇在家给我做好吃的

ChatGPT-Image-Apr-22-2025-10_40_48-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几年在 Fen Drayton 村庄,朋友说像酒店

2025-04-22-23.52.15 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

去年去 Bristol 看热气球,在酒店里

2025-04-23-00.07.51 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两年去伦敦酒店 Croydon

Contemplation-in-a-Modern-Room 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

今年年初媳妇穿着我给的大饼T-shirt

Cosy-Evening-with-a-Dreamy-Glow 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

梦幻般的舒适夜晚Cosy Evening with a Dreamy Glow

Close-Up-Selfie-in-Warm-Bedroom 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几年和媳妇 温暖卧室里的特写自拍Close-Up Selfie in Warm Bedroom

2025-04-28-05.36.06 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇前两年身材确实很不错,后面就走样了。

image-4 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇在床上调皮,这个是用Grok生成的,ChatGPT不让生成,说违反啥政策。

2025-04-23-21.20.09 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

这个弄的不太像媳妇了。

ChatGPT-Image-Apr-24-2025-11_21_43-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两周去伦敦,在伦敦火车站/地铁站,生成第一版本有戴眼镜的

2025-04-24-11.35.16 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两周去伦敦,在伦敦火车站/地铁站,生成第二版本是比较符合当时我没载眼镜的

2025-04-24-22.39.13 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚和媳妇谈恋爱那会去伦敦桥

2025-04-24-22.44.17 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚和媳妇谈恋爱那会去伦敦桥,朋友拍的。

2025-04-24-22.55.40 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚和媳妇同居的时候在LUTON她的房间里

ChatGPT-Image-Apr-25-2025-07_58_36-PM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚和媳妇同居热恋那会儿 真是美好。

ChatGPT-Image-Apr-26-2025-11_50_13-AM 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前两年疫情

2025-04-26-23.13.06 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚搬来剑桥 Fen Drayton

2025-04-26-23.46.59 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

去年夏天,刚买保时捷那会儿。

2025-04-26-23.55.10 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

去年我生日

2025-04-28-05.25.20 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

去北爱旅游

2025-04-28-05.29.53 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

刚玩单反摄影的时候媳妇是我的模特。

2025-05-14-18.57.49 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几年疫情期间还会全家偶尔去村里走一走

2025-05-04-23.21.39 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几天在家里附近的那个有名的小区(剑桥最贵之一,因为没有政府房)里一家卖水果的

2025-05-11-22.27.29 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇真美,不过只能看卡通了。

Coastal-Breeze-and-Gentle-Smile 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几年去一个英国的海边

Young-Woman-at-the-Seaside 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

前几年去一个英国的海边(让ChatGPT再次生成第二个版本)

2025-05-14-18.57.43 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活

媳妇和老大

免费的用户一天目测可以转换三张照片!

AI 图片/照片/视频 工具分享/小技巧

本文一共 2712 个汉字, 你数一下对不对.
吉卜力风格照片(持续更新). (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物 媳妇 照片 生活
The post 吉卜力风格照片(持续更新) first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 2015年3月之后 在英国出生孩子的身份 最近这个话题挺热门的, 从驻英中国大使馆官网可以了解到: 注意的是, 中国公民+中国公民(有永居)生出来的小孩不是中国人. 但是中国公民+英国公民生出来的小孩子可以是中国人. 永居只是签证的一种(没有过期时间),但是从表中就可以看到, 中国政府已经嫌中国人太多了, 从来不缺中国人, 很多在国外的中国人有永居, 都迟迟不加入外国国籍, 这是因为想让小孩子成中国人, 你这法律一出来, 岂不是逼迫加入英国国籍了么. 中国从来不缺少自相矛盾的法律,上面的2,和5,7就实在让人难于理解. 注意的是这里的规定只适合小孩出生的时候,像我两儿子都是在我拿永居之前,所以适用于第一条....
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  5. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
  6. 花钱让人换汽车钥匙的电池真是个智商税 今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
  7. 超速了…还好没吃罚单 家在 FEN DRAYTON 邮编 CB24 4TG 公司在 CB23 6DP 每天单程 10英理 (16公理) 每天开车走乡间小道 经过两个小村庄 Knapwell...
  8. 老婆的配偶签证被拒 郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供 有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....

AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法!


免费用Grok 3来生成吉卜力风格的照片(Ghibli)

这两天,朋友圈和X(推特)上都被吉卜力风格的照片刷屏了,就连伊隆·马斯克也特意发帖推荐了 ChatGPT-4o 的这项新功能。仿佛一夜之间,AI 就能取代绝大多数设计师的工作。

elon-musk-doge-coin-ghibli-style AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

Musk又借此推了一把狗狗币Dogecoin,真是会营销

cz-and-he-yi-ghibli AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

币安CZ和他的生活伴侣何一/币圈一姐的吉卜力风格照片

这个 AI 生成图片的功能(严格来说是图生图)仅限 ChatGPT-4o 的付费用户使用,每月订阅费用为 20 美元。我曾在两年前订阅过半年 ChatGPT Plus/Pro,但后来账号因支付问题被封——当时我使用的是 OneKey 的美元加密货币卡。

不过,我们其实可以 免费 利用 Grok-3 生成吉卜力风格的照片。只需将图片拖入 Grok-3 的对话框,并输入以下提示词:

图生图,生成吉卜力风格的照片的提示词/Prompt

  • 中文:“可以把这张照片生成吉卜力风格吗?尽量保持图片原有的元素。”
  • 英文:“Generate a Ghibli image based on this, keep as much detail as possible.”
my-little-girl AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

媳妇几年前的美照拿来试试Grok3的图生图功能(吉卜力风格)

grok3-ghibli-1 AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

感觉生成的图还是缺点意思,和ChatGPT 4o相比差了点,可惜我现在没有付费ChatGPT

想起当年有个人做了测试:把油管视频下载下来再上传,再下载,再上传,然后最后面就得到很糊的一个视频。不知道如果我们一直让AI基于生成的图片再生成图片,效果是会收敛、变好、还是会变得不可预测?

grok3-ghibli-2 AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

又迭代了一个版本,感觉差不多,如果一直迭代下去不知道是不是会收敛还是说会变差?

变开心很容易,但是要特别特别开心真的就要付费了:试用美图秀秀的AI绘画功能: 快乐是免费的-特别快乐可能就要花一些钱了

generate-more-images-with-premium-grok-ghibli AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

X推上现在是可以免费使用Grok 3但是并不会一直免费,对于这个图生图的功能也有使用限制。

ChatGPT免费生成吉卜力风格照片

ChatGPT现在也开放这个图生图功能给免费用户了,生成的质量明显比Grok好。

2023-08-14 AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

两年前媳妇去塞尔维亚的一个网红餐厅

chatgpt-ghibli-style-image-to-image-for-free AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

ChatGPT图生图的效果似乎更好一些。

chatgpt-ghibli-2 AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

细节更准确 图像更立体

chatgpt-ghibli-1 AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯

媳妇在塞尔维亚的照片改成Ghibli风格

ChatGPT 可以拿来做什么?

ChatGPT 通用人工智能

Grok 3

字节/豆包/AI

AI 图片/照片/视频 工具分享/小技巧

后续所有这类照片都放在这个帖子里:吉卜力风格照片(持续更新)

本文一共 958 个汉字, 你数一下对不对.
AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法!. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! AIGC-图片 Grok (X.AI) 人工智能 (AI) 媳妇 小技巧 有意思的 照片 资讯
The post AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法! first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  2. 力扣刷题获得一件衣服奖励(Leetcode DCC Winner) 我每天都在力扣上刷题。力扣有国服和美服,我两边都会打卡。每天打卡可以获得积分,而积分可以兑换各种礼物,比如T恤、卫衣、水壶,甚至可以用来抵扣一个月的会员费用。 我从2018年8月开始刷题找工作(当时去伦敦面试亚马逊),从那时起每年都会续费会员,费用是159美元,相当于每月13.25美元。我觉得这是对自己最值得的投资。买了力扣会员,就会有动力刷题、思考,通过不断练习让自己熟能生巧,保持一定的竞争力。 到目前为止,我已经用积分兑换了7-8件力扣的衣服,其中有2-3件是卫衣。国内的礼物我都寄到姐姐家。 前不久,我收到了力扣的邮件,说我获得了DCC奖励。我也不知道为什么会获得这个奖,随手回了邮件。没多久,就收到了一件新版的力扣衬衫。 英文:Leetcode DCC Winner T-shirt 本文一共 291 个汉字, 你数一下对不对. 力扣刷题获得一件衣服奖励(Leetcode DCC Winner)....
  3. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  4. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  5. 送值400 英镑的Google Adwords广告代金券 很久之前, 我用过 Google AdWords, 当时也是拿着免费送的 Credit, 但由于某些原因, 就没继续再用下去. 这次谷歌又发邮件送了400英镑的广告点券/代金券, 如果您想要获得 400 英镑的 Google AdWords 信用额度试用这个Google...
  6. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  7. 吉卜力风格照片(持续更新) 一些(老)照片用AI的这个功能改改后还能再发一次朋友圈,哈哈。主要是年纪渐长,照片用美颜又太假,发真实照片又惨不忍睹,用这个风格正正好。我朋友圈就看到有很多这样的照片,其实挺好,记录生活,很俏皮可爱。 还是ChatGPT 4o的效果最好,有时候不满意,还可以让AI多生成几个,AI就是个乙方,而且没有脾气,想要几个版本就给几个版本,设计师真的要失业了: 这个帖子就不发原图了,辣眼睛。AI画师上岗,日常秒变番剧现场! PS:Grok 3的效果不怎么样,其它AI好像没这个功能,比如 Google Bard, Deep Seek, 阿里Qiwen。只会和我说文字描述怎么改图片。 免费的用户一天目测可以转换三张照片! 本文一共 236 个汉字,...
  8. 特朗普2.0: 乌克兰的命运由美俄决定, 欧洲被卖了 2025年1月,美国总统唐纳德·特朗普第二次入主白宫,上任没多久就兑现了一个竞选承诺:结束俄乌战争。不过,这场停战的达成方式,恐怕让不少人大跌眼镜——谈判桌上只有美国和俄罗斯,乌克兰这个直接当事国没份儿,欧洲那些出了力气的盟友也没捞到一张椅子。结果呢?俄美两国一拍即合,停战协议新鲜出炉:土地归俄罗斯,乌克兰的5000亿矿场开发权打包送给美国,债务甩给欧洲,至于荣耀嘛,留给乌克兰自己慢慢品味。 这协议一公布,乌克兰总统泽连斯基的脸估计比冬天还冷。他对外抱怨说,美国其实只给了670亿美元援助,压根不到之前吹嘘的1500亿。可协议上白纸黑字,5000亿矿场开发权已经划给了美国。他试图争取点什么,比如让乌克兰上桌谈条件,至少要求美国保障乌克兰的安全,再不济也给欧洲分一杯羹——毕竟欧洲这些年没少支援战争。可特朗普的回应简单粗暴:签,或者不签,协议一个字都别想改。泽连斯基还想退一步谈谈,特朗普直接笑他是个“小丑”,说当年演喜剧的水平不错,现在支持率却跌到4%,再不同意就赶紧大选,换个听话的上台。 这事儿说白了就是“弱国无外交”的教科书案例。乌克兰夹在俄美之间,既没实力还牌面,又被盟友卖了个干净。欧洲这边也好不到哪儿去,一盘散沙的他们只能眼睁睁看着美国独吞好处,自己还得背上债务的锅。特朗普上台后更是摆明了态度:拜登那摊子事儿(民主党?左派政策?)他不管,他只关心自己的利益。甚至还放话让乌克兰赶紧还钱,不然“你的国家可能就不存在了”。 这场停战,看似结束了炮火,实则暴露了大国博弈的冷酷逻辑。俄罗斯拿回了土地,美国吃下了资源,欧洲当了冤大头,乌克兰则成了最大的输家。泽连斯基或许还想挣扎,但现实已经给了答案——在强国面前,弱国的声音,连上桌的资格都没有。 懂王骂泽连斯基 想想看,一个只是勉强算得上成功的喜剧演员——弗拉基米尔·泽连斯基,竟然让美国花费了 3500 亿美元,卷入了一场不可能赢得的战争——一场本不该开始的战争,而这场战争,如果没有美国和“特朗普”,他永远无法解决。 美国比欧洲多花了 2000 亿美元,而欧洲的钱是有保障的,而美国却什么都拿不回来。为什么“瞌睡乔”拜登不要求公平呢?这场战争对欧洲来说比对我们重要得多——我们之间隔着一片广阔美丽的海洋。 除此之外,泽连斯基还承认,我们送给他的一半钱“不翼而飞”。他拒绝举行选举,在乌克兰的民调支持率极低,他唯一擅长的事情就是把拜登“耍得团团转”。 一个没有选举的独裁者,泽连斯基最好快点行动,否则他很快就不会再有国家可言。与此同时,我们正在成功地谈判结束与俄罗斯的战争,所有人都承认,只有“特朗普”和特朗普政府能做到这一点。拜登从未尝试过,欧洲也未能带来和平,而泽连斯基可能只是想让“提款机”继续运转。 我热爱乌克兰,但泽连斯基做得一团糟,他的国家满目疮痍,数百万人不必要地死去——一切仍在继续…… 打了三年的俄战争终于要结束了...

是时候在我这里聊一下人工智能了

疯狂的热度也该过了吧。

也是时候冷静的看待这个问题了。

screenshot-downloaded-image

这篇文章写得特别长。懒了,没有拆成多篇文章。


目录


一、个人初接触AI技术

1. waifu2x

我第一次开始接触并使用 AI 技术,应该是 waifu2x 这个图像缩放工具。

确切的说 waifu2x 并不是人工智能技术,只是使用了和目前人工智能技术相同的 「卷积神经网络」

这东西其实不用多介绍了。

这东西实用性能满足日常需求,而且本地部署也只需要不到50MB的空间,方便又整洁。

screenshot_on_b85m_by_flameshot_at_2025-03-18_22-57-18

论清晰度其实 waifu2x 已经很不错了,尤其是平时出的原图的时候不符合各种破视频网站分辨率最低要求的时候,用 waifu2x 糊弄一个高分辨率图,然后再被这些破网站压缩成 320×180 的小图。

唯一想说的就是当时这个技术可是被小鬼滥用到极致,最火爆的期间各种互联网古董图片都被这些小鬼用waifu2x放大之后发到网上,然后大叫“我找到XXX的高清原图了!”。不明真相的人要是跟他讲这是“放大的”,他还会继续跟你解释“这是高清原图!”

你永远叫不醒一个装醒的人。

2. style2paints

接触到的第二个 AI 工具应该是 style2paints 。这是一个线稿上色工具。

最初接触这个软件的时候还是V3版本。

screenshot_EHDsLiyVAAAhjDF

网上的AI线稿上色功能基本已经烂了,但是完成度也是稀烂,可以说根本没法用。

Screenshot_2025-03-18_at_23-06-03

最早那一阵子还因为随便上色了一个线稿,画师直接就把我拉黑了。

screenshot_snap2888-starbreaker

screenshot_snap2930

style2paints 出 V4 的时候我写过这么一篇文章:https://blog.catscarlet.com/202002203604.html

202002203604_play_s2pv4/1046.png

screenshot__ERL3IRbUwAADPz-

后来 style2paints 出完 V4.5 之后,说要出 V5,而且放出了不少预览图,效果很棒,但是再也没有过下文。开发者在 GitHub 上还是活跃状态的,只不过全部都是私有提交了。

网上也再没出现过独立的开源上色工具。各个大厂虽然有各种所谓的线上AI图像处理工具,却基本上没有免费的线稿上色功能。收费的倒是一大堆,但是AI出图的效果本身就稀烂,谁知道输出一次期望中的结果之前得花多少冤枉钱。

3. rife

这算是第三个我使用的AI工具。功能是:补帧

最开始的时候这个项目还是叫做 arXiv2020-RIFE ,后来才改成 ECCV2022-RIFE 的。

但是实际上这玩意放在个人手里意义不是很大。最多就是把互联网早期的GIF表情包改得流畅一点,但是很多情况下 AI 对于补帧和人脑还是两回事。

bilibili:整了个支持Alpha图层GIF动画的放大加补帧转VP9的脚本

在有遮挡性的图像变动的时候,补帧出来的图像就会出错。4.22版本。

screenshot_00000054

(我本地是有更新的模型版本的,但是执行的时候就会出现主机断电的状况。能确定不是电源供电不足,但具体是什么愿意无从得知)

现在这个技术也被滥用了。

  • 网上有一堆原生30fps被补到60fps的动画资源,看着特别的果冻。也有电影,甚至 YouTuBe 上有 60fps 版本的 复仇者联盟1 看着就像游戏过场动画一样。
  • 很多电视台的代理(IPTV)和电视盒上游,会把 30fps 的视频补到 60fps,看着十分的诡异。
  • 最烂的当然还是显卡厂家,直接搞出 DLSS 这种帧生成的恶心玩意。

我自己看这种全局的恶意补帧视频时觉得就挺恶心的,头晕得很快。但是后来发现大多数人都是瞎子,别说补帧了,帧错误亮度错误对比度错误在他们眼珠子里都没有区别的,盯着一个坏掉的显示器看上几个小时愣没察觉到自己显示器是坏的旁边显示器是好的,瞎。

4. 其他

其他的基本上就没有接触过了。最多就是个 rembg 去背景工具,我也用不上。

再往前还有 AlphaGo,谷歌在打完围棋之后跑去打星际争霸,然后难产了好一阵子。最后不了了之,在网上搜谷歌AI打星际的视频,只能搜到一个播放列表,是 ArtosisTV 解说的 AlphaStar vs Serral,但是解说内容是基于非星际争霸玩家的,AI的每个行为以及星际争霸的每个兵种和技能都要解说一遍,中间夹杂着各种暂停和战术解释,节奏超级慢,12分钟的游戏解说了半个多小时,根本看不下去。这其间谷歌的AI就彻底凉了。

那几年 AI 爆火的时候 Python 从个只是底层干活的脚本语言一跃成为 不学 python 你就落伍了 这种骗术主流。我是懒得去学,这玩意个人学了也是屁用没有。AI 这种技术注定要被大厂捏得死死的。


二、爆火的 DeepSeek 把国际 AI 大厂的股票打废了

国产的 DeepSeek 把以 Nvidia 为首的国际AI大厂打废了,这是事实。但理由并不像国内鬣狗自媒体和阿Q人一样,因为鬣狗阿Q的思路就是成功啦崛起啦疯狂嗷嗷叫,谁叫得声音大谁有理。

Nvidia和其他大厂之所以市值蒸发,是因为他们一直声称的 需要更多硬件更多算力扯蛋

确切的说, Nvidia 摆烂也不是有 AI 才开始的。先是在挖矿潮期间摆烂,后又开搞各种与游戏算力不相关的各种糊弄人的技术。其他各厂基本上也是一样,微软在那搞的 onnx 的也是稀烂(之前我参与修复的 rembg 不能正确使用硬件加速的 bug 就是 微软 onnxruntime 和 Nvidia-CUDA 联手造成的,可见其代码是有多烂)。

而一个名不见经传的 DeepSeek 却用了很普通的过时硬件做出来一个捅了行业技术天花板的产品,这直接戳破了 英伟、微软、英特尔 这么多年来一直给市值吹肥皂的核心理念。 算力不是最重要的 不需要什么大厂技术也能做 一直吹牛逼的玩意其实屁都不是 ,这乐子直接打得 Nvidia 的50系显卡一点都不香,微软的 Win12 不知道该怎么塞烂功能,英特尔的 Ultra 系列定位完全翻车。 活该!

至于 DeepSeek 究竟怎么样?看着那个推理过程好似挺有趣的,但其实推理流程过于营销号,复杂一点的问题就开始胡说,网上难搜到的东西就开始瞎编,就和其他 AI 一样。

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-42-48

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-22

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-43

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-48

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-00

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-10

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-17

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-28

(部分错误引用和内容均用红框标注)

这表现实在是太像一个初中没毕业结了婚有了娃,娃娃问你一些客观存在但你完全不知道的知识时,就在那瞎引用瞎推理瞎解释,着实一个爹味浓厚的鬣狗阿Q,着实让本来就生活在这种恶劣环境的人反胃。


三、目前的 AI 到底能做些什么?

首先这个得分场景考虑,也就是,AI 这项技术在谁的手里时才有什么用。

1. 大型IT企业

首先一个前提得讲清楚:

目前的 AI 技术就是 给一个算法喂数据养模型,当相应的数据是 由人类创作的 情况下就十分有争议,说难听点就是 抄袭 。编程AI抄代码,绘图AI抄绘画,医疗AI抄病例,这也是目前相当多一部分人反AI的核心理由。

我的个人观点是:

  • 以一定的目的使用特定的数据训练AI并以此谋私利,那就是 抄袭
  • 将整个互联网数据全部用来训练AI,并公开数据模型,供所有人无偿使用,那不叫抄袭,那叫 人类的知识库

很可惜 人类的知识库 在目前的商业环境下实现不了。想使用 将整个互联网数据 的就只有大型IT企业,而目前的这些企业都是清一色的自私自利行业毒瘤,他们的存在多数都是对行业弊大于利,唯一的那点利也知识为了保住他们的自身地位罢了。(举例的话就是微软英特尔之流目前在开源界贡献的代码排在首位,但是他们贡献的全他妈的是他们自家用的驱动代码和调用代码,对整体行业有个屁用啊)

2. 中小型IT行业企业

首先中小型企业很少能有能力自己研究算法,在有限的资金和精力之下无法对行业技术作出突破性的贡献。你也不能怪罪他们,很多公司本身为了能正常运营就已经很努力了。

这才是行业真实现状。他们的产出才是老百姓真正能接触到和获益的。

目前据我能看到的,超市电子秤 可以说是一个不错的例子:传统的大型商超的果蔬摊位基本上都是要有个 负责称重的功能,有些是有专人上秤打标签,有些则是自主称重。现在很多超市都是AI电子秤,把果蔬放上去之后,能直接识别到品名(可能会识别到多种,再人工选择),这个工作量要比纯手选低多了(一个果蔬商超一般都有几十种甚至上百种标签)。当然,具体是如何实现的,我不知道,可能是电子秤公司自己训练模型,也可能傻屌公司每次都得调用一次大厂的云服务进行图像识别。

当然了!

也可能反过来,因为这些企业的领导人可能就不是IT行业出身的,很可能就是个投机人。

那么,答案只有一个了:《Employment for computer programmers in the U.S. has plummeted to its lowest level since 1980—years before the internet existed》

你甚至可以尝试阅读这篇文章的中文AI总结:《财富》:程序员就业降 – 豆包

20250415更新:豆包应该是玩不起了,AI阅读功能被大幅度阉割了,原链接虽然貌似还能用,但是没办法看新链接了。也可以看翻译

事实上国内中小型IT行业企业的产品质量也已经进一步滑坡了,你可以看一下这个 用户端验证时间 的神奇逻辑:《海航888元的随心飞偷跑了!》,基本就是什么人要写个需要验证时间的代码结果直接丢给AI就复制粘贴了,人脑里连产品设计的逻辑基础都没有。

screenshot_on_b85m_by_flameshot_at_2025-03-19_19-59-14

3. 非 IT 行业的企业

首先摆烂的一定不会是普通老百姓。

screenshot_on_b85m_by_flameshot_at_2025-03-12_14-22

https://weibo.com/2645861077/Pi3jJBv1w

普通老百姓摆烂都抢不到热乎的。

更别说还有人人喊打的 AI 客服了。


四、目前的 AI 在个人手中到底能做些什么?

1. 作为问答式搜索引擎

因为目前的AI就是一个特速算法的搜索引擎,所以当搜索引擎用是最基本的功能。尤其是在如今搜索引擎(不论中外)的搜索结果质量都暴跌,很多人都期望能在AI上得到好一些的结果。

只不过AI也是从搜索引擎拿结果的……

screenshot_on_b85m_by_flameshot_at_2025-03-16_20-38-25

啊不是,我要是自己愿意自己逐像素框选的话那我还问你干球?

screenshot_on_b85m_by_flameshot_at_2025-03-17_21-49-05

这是怎么把一个街机游戏识别成 999 和 11eyes 的?还把俩游戏标题合并到一起了?

screenshot_on_b85m_by_flameshot_at_2025-03-21_23-29-24

Jay Smith 的 Bad Romance 与 Lady Gaga 的 Bad Romance 是什么关系?你这 DeepSeek 这是要往哪里推啊?

screenshot_on_b85m_by_flameshot_at_2025-02-25_20-44_1

我已经无语了。

不得不说很多问题有时候答案是烂得不行。

2. 写垃圾文案

简直是官僚主义形式主义的辉煌!废话文学的巅峰!狗屁不通高考满分作文上树!

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-03-52

当然我也找到了点正经有点用的功能,那就是语法检测。

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-20-26

这玩意对于非母语用户还行,就是也很喜欢在有得没得的地方反复胡扯。没有中文版是个遗憾。国内的产品会拿你的文档做训练,所以千万别用。

3. 编程

・项目

作为一个差不多快被社会淘汰的程序员,说实话,我到现在 IDE 还是在用 Pulsar (原 GitHub 被微软收购后被抛弃的 Atom 的社区派生版本)。什么AI插件我都没安装。

我对于 AI 编程不是很了解,我也不知道这玩意现在到底能干啥。反正大家都吹得天花乱坠的。于是找了某之名 AI 编程 IDE ,cursor,在本地试了一下。

我这手里有一些对我来说解决起来很麻烦的问题,就是不是我自己写的旧代码不兼容新环境的问题,工程量太大,业务逻辑完全不知道,我也不想去研究这些项目的具体实现。

我就想着,AI工具既然可以导入项目,那可不可以直接让AI把代码过一遍,然后针对新环境的版本把旧代码中不兼容的地方全找出来改掉。

想得美!现在的AI编程工具和搜索引擎一样,还是问答式的。

试着导入了一个项目,然后 cursor 一直不停的有得没得一直在废话一些毫不相关的东西,对于因新环境和新框架不兼容的问题一个都没发现。

screenshot_on_b85m_by_flameshot_at_2025-03-05_20-14

不得不说,很多人活得非常的 人机

・功能片段

那既然,AI编程这玩意仍然是问答式的,那就干脆继续当搜索引擎用就罢了,根本不需要什么编程插件或IDE编辑器,更不需要什么按量付费编程接口。

事实上,AI在问答式编程输出的结果还挺不错,尤其是在很多 理论上可行且应该有人实现过,但周围所有认识的人都没接触过对应技术 的场景下极为有效,而作为一个腐朽的程序员,我没事就会遇到这种 技术上应该能实现但是我不知道对应技术的入口在哪,而身边完全更是没一个比我更了解响应技术领域的人 ,这时要是在像文中 《我是救兵请来的猴子》 提到过的环境下,至少身边人都会想办法帮你找对应的资源,但是事实上现在国内大部分公司,同事人人自危根本顾不上你,甚至有人巴不得你翻车然后下次被优化的就是你,领导更是觉得「员工遇上瓶颈」乃是天大的 职场PUA 机会,绝对不会放过。

比如 《从豆包下载无水印图片》 这个用户脚本的核心理念是 跨域下载并重命名图片 。本身下载并重命名图片是 HTML5 协议中<a>的的一部分,但是掺合上跨域后就报废了。理论上这是个安全无风险的功能,但是实际上就是做不到,封死了。绕路办法,如果在网上搜,大部分资源都是告诉你使用 <canvas> 对图片进行跨域下载,但实际上却有更好更干净的办法。这个的确在AI中可以搜到,而在传统搜索引擎搜索的时候,搜索结果却会被 <canvas> 的结果淹没。

・繁琐复杂又没技术含量的代码

在编程开发这一块中,有很大一块工作内容都是 繁琐复杂又没技术含量的代码,尤其是前端开发,经常要计算渲染后图像的位置,或者单个元素的样式。这一块基本没人愿意写,但是很多时候不写不行。

这种工作交给 AI 却是非常的巴适。

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-41-37

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-49-15

有些时候国内AI编程的确会给出点惊艳的地方,比如需要临时文件或文件夹的时候知道 mktemp 。微软这种背靠 GitHub 的 Copilot 甚至都只会原地拉屎。

screenshot_on_b85m_by_flameshot_at_2025-03-06_14-18

但是却并不 100% 可靠。

screenshot_on_b85m_by_flameshot_at_2025-03-26_01-36-48

screenshot_on_b85m_by_flameshot_at_2025-03-26_01-38-28

・复杂逻辑的编程

上一点复杂逻辑,AI编程就很容易挖坑。

比如AI会犯最经典 初级程序员错误 ,第二次循环时忘记把标志位重置。

screenshot_on_b85m_by_flameshot_at_2025-03-06_14-23

(原链接找不到了只剩下文件了)

以及基础命令经常想当然,上下文对应不上。

screenshot_on_b85m_by_flameshot_at_2025-03-17_06-36-16

红框位置的 type -f 对应的是 文件 ,但是上下文里写得清清楚楚的是在处理 软链接,应该改使用的是 type -l 才对。

只要上一点逻辑,那出错的情况就特别多。而且由于这代码不是你亲自写的,所以你要重新读一遍所有代码才能理清其逻辑,之后才能找到 Bug 所在。

经典的 编程即是10%的时间写代码,90%的时间找bug,那 10% 才是编程的真正乐趣。而大范围引入AI进行编程后,编程是1%的时间写代码,99%的时间找bug

把编程唯一的快乐送给AI,把屎留给自己吃。

4. 绘画

这一块既是最有争议的一块,亦是我用到的最多的一块。

说来也挺可乐的,程序员在AI领域用到最多的功能不是AI编程……但话又说回来,我自己会编程我为什么还要找一个不靠谱的AI给我添麻烦?没上过班没被同事坑过还是怎么回事?

其实2022年那阵我就接触过 dalle-mini ,然而当时AI绘图基本上只能到这个程度:

screenshot_on_b85m_by_flameshot_at_2022-06-08_15-24-18

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-22-06

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-08-33

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-04-19

怎么说呢,有些输出的确是带着灵魂的,但是整体上一塌糊涂。你可以看到每个输出中都或多或少带着核心细节。

现在AI出图已经今非昔比了。

screenshot-生成特定风格图片-2136008435344130-20250322221645

screenshot-生成特定风格图片-2134056610409986-20250322215006

・尝试本地化

首先当然是尝试在本地部署这玩意。在网上搜了下,基本都在说 comfyui 。这玩意我看了一下,支持 Docker ,那就毫不犹豫部署了。

screenshot_on_b85m_by_flameshot_at_2025-02-19_17-50-18

然而实际使用效果不太乐观。

comfyui 的默认模型出图基本是这样的:

screenshot_on_b85m_by_flameshot_at_2025-02-19_19-56-15

离实际能使用差太多了。

而目前可以在线上无限次数使用的AI生成图像工具,我找到了两个:豆包和百度,他们的出图效果是这样的。

豆包:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-07-18

百度:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-06-59

百度英文解析:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-07-33

(豆包不支持纯英文解析)

百度的出图效果要比豆包差一些,但是在关键字很少的情况下精度比豆包要高,但但是关键字超过一个限度之后百度的精度就急转直下彻底崩了。

我检查了一下,comfyui 应该是需要手动添加模型。但是我尝试了几个例子看起来很不错的模型,在执行到 VAE Decode 时,主机就会直接断电重启。

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-14

我个人认为应该不是电源供电不足的问题,因为在 KSampler 阶段,显卡就已经跑满 200w 了。同样的问题也在 rife 上出现过(前文也提到了),使用 4.22 模型就正常,使用 4.25 模型就会断电重启。虽然我也怀疑是显存不够的问题,但是 comfyui 比较小的模型只有 2G 多就会导致我断电重启,而 rife 4.25 模型与 4.22 模型都只有不足 20M ,这就不太像是显存不够的情况。而且我的显卡是 GTX1080 8G 版本的,实测最多也只用掉 6G 多一点。

只能怀疑是驱动问题了,毕竟 GTX1080 这个老显卡是诞生得比挖矿潮还早。但没有办法了,我之前把系统升级后(从 Linux Mint 20.3升级到 Linux Mint 22.1,基于Ubuntu20.04到Ubuntu24.04),驱动版本还是550,CUDA也只是从12.2升级到了12.4而已,而最新版本貌似是12.8。我也不清楚到底是 GTX1080 只能装这么高,还是有什么其他限制。Nvidia 官网倒是有一个 575版本,Linux Mint官方没说正式支持,我也不想试。毕竟即使跑 comfyui 的默认模型,显卡的噪音都超大,温度直达 70 度以上(风扇57%转速,再提高那噪音就真的难以忍受了),而仍然要等很久才能出一张图。

本地化部署这事只能暂时放弃,等有新电脑新显卡再说吧。

・放大图片工具

出图只能用线上工具,那顺带看看线上工具都有哪些功能,结果发现百度放大图片的功能效果竟比我本地的 waifu2x 要好。

screenshot_on_b85m_by_flameshot_at_2025-02-22_20-26-52

(左图:百度放大。右图:本地 waifu2x 放大)

这我可接受不了。立刻把本地的图片放大工具换成 Real-ESRGAN ,测试一下。

把图片缩小,然后再用 Real-ESRGAN 放大,然后离谱的就来了。

screenshot_on_b85m_by_flameshot_at_2025-02-23_00-11-47

(左图:Real-ESRGAN animevideov3 模型。右图:原图)

animevideov3 不知道为何图片变得有点鲜艳了?

screenshot_on_b85m_by_flameshot_at_2025-02-23_00-12-01

(左图:Real-ESRGAN x4plus 模型。右图:原图)

x4plus 放大后竟然比原图还清晰!太离谱了。

这让我想起了网上传闻的「断崖上未融化的雪块被相机AI补全成坠崖的白色尸体」的乐子了。

・去背景工具

本地化了 rembg ,因为命令行真的太好用了,比起线上工具实在太方便。然而 rembg 的代码质量稀烂,依赖的环境(onnxruntime,cuda-cudnn)更是烂到彻底。为此做了不少工作。我根本就不是个写 Python 的。

反正最后调通了,而且把模型更新到了 birefnet ,效果比默认的 u2net 好非常多。

screenshot_on_b85m_by_flameshot_at_2025-02-20_15-32-10

(左图:u2net 模型。右图:birefnet 模型)

screenshot_on_b85m_by_flameshot_at_2025-02-20_15-32-20

(左图:u2net 模型。右图:birefnet 模型)

・线上出图工具

前文也讲了,我找到的可以在线上无限次数使用的AI生成图像工具有两个:豆包和百度。豆包出图效果比百度强一点。

只不过除了模型比较强大以外,豆包仍然有着所有AI图像生成工具都有的毛病:不听话

screenshot_on_b85m_by_flameshot_at_2025-03-03_11-27

screenshot_on_b85m_by_flameshot_at_2025-03-03_11-28

这完全不日系赛璐璐芳文社好吧,这都给干到韩国去了。

screenshot_on_b85m_by_flameshot_at_2025-03-10_17-12

特别喜欢给妹子穿过膝袜。裤袜搞错就已经很烦了,裤子都给你忽略了。

screenshot-生成动漫风格图片-1804857296308738-20250310150611_realesrgan2x-1

我之前想搞一个倒霉OL妹子的插画想做个有连续剧情的系列,比如妹子加班后下班下大雨,顶着雨去地铁站,结果豆包不会画折叠雨伞,我总不能让妹子淋雨吧?这个就算是情节也实在太不礼貌了,结果发现豆包也不会画「湿衣服」,可乐。

百度却非常的会画「湿衣服」,不仅如此,貌似百度画出来的衣服全都是湿的。

screenshot_on_b85m_by_flameshot_at_2025-03-10_19-00

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-15

发觉百度的输出都特别的色情……

然后是如果遇到AI完全不能理解的内容,出图就特别的诡异。

screenshot_on_b85m_by_flameshot_at_2025-03-09_22-43

screenshot_on_b85m_by_flameshot_at_2025-03-09_20-50

screenshot_on_b85m_by_flameshot_at_2025-03-09_20-50_1

(开车很困难)

有时候干脆就是精神污染……

screenshot_on_b85m_by_flameshot_at_2025-03-12_23-52

不仅如此,线上工具还有敏感词屏蔽词和谐词汇,而且理由也过于欧亨利了。

screenshot_on_b85m_by_flameshot_at_2025-03-12_22-06

screenshot_on_b85m_by_flameshot_at_2025-03-23_23-29-39

这是有多怕有人用AI生成「铁链女」的照片啊?

你就只能靠中国人的聪明才智绕过屏蔽词。

screenshot_on_b85m_by_flameshot_at_2025-03-12_22-08

另一大问题就是让图像上拥有超过1个的关键性事物。

screenshot_on_b85m_by_flameshot_at_2025-03-13_01-39

screenshot_on_b85m_by_flameshot_at_2025-03-13_11-35

一个人拿着一个有特性的事物,或者两个人,就会出错。

貌似这个问题是AI的通病,AI不听话乃是日常,因为人类一句话能讲讲明白一件事情哪个关键词轻哪个关键词重是主观的,两个人能顺利交流那是电波对上了,不能顺利交流那至少一个人看另一个人是傻逼。AI 不一样,AI 没得交流,现在的 AI 只是「训练」出来的。

网上传闻 FLUX 就要靠谱很多,但是本地部署的要求则高得更加离谱。本来在研究这玩意期间发现需要研究的内容就不仅仅是 ComfyUI,还有 LoRA、ControlNet、IP-Adapter 这一堆看着就乱七八糟的玩意就烦了,我又不是专门画图的画师,专门画图的画师也不会用这种完全是另一个领域的工具坑自己。烦了烦了,不研究了。

・线上改图工具

这算是出图工具的子集。

screenshot-赛璐璐风格少女绘制-1843589592669954-20250312154607

screenshot_on_b85m_by_flameshot_at_2025-03-12_15-32

百度的出图效果就巨烂,改图效果更是差劲。事实上百度的那个AI图像编辑废柴得不行。

而豆包则超可笑的只要看到特朗普就生成失败。

最后单独生成了个图片然后用 rembg 去掉背景后再用 GIMP P上去。

screenshot-生成动漫风格图片-1845130723445762-20250312162334

screenshot_-Part-GTY-2202534763-1-1-1_realesrgan2x-1


五、目前我的态度

1. 对个人

我目前个人认为,AI 在个人手里最多只是个大玩具。

讲了这么多工具类的产品,没有多少是能在生产生活中切实获益的。或许像抠背景这种工具在艺术照或者COS照方面能有点用途,或者黑白老照片上色(但是能本地化的上色工具我又没找到)。

可能做创作时可以用 AI 做一些单页插画。但是做漫画就很困难,因为内容的连续性基本无法维持,很容易崩坏。

编程方面,虽然有牛逼吹说有人完全靠AI开发了APP,我觉得那是真吹牛逼。仅是编程环境搭建这一块在任何人面前都是令人生畏的第一座大山,大部分人根本走不到 Hello World 这一步就早早崩溃了。

剩下的就只能用来做坏事了。

2. 对各个企业

・国际

英伟达微软英特尔,仨破玩意早崩早开心。就是不清楚先被 DeepSeek 揭开丑陋真面目后又被川普背后捅刀子的股票崩溃后,到底能对这仨死玩意有多大伤害。

其实我觉得 英伟达 内心是害怕的。当年挖矿潮,捅他刀子的并不是显卡商,而是 ASIC 。我觉得再过一段时间他就得挨真刀子,所以他得把 CUDA 这一块跟 微软 绑得死死的。

screenshot_on_b85m_by_flameshot_at_2025-03-25_23-05-41

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-16-44

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-17-04

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-18-12

(至今我们仍然不知道 ASIC 将如何跨过 AI运行环境 这个门槛)

就是不知道其他大厂到底和英伟达是不是一条心。

screenshot-生成特定风格图片-1932475492982018-20250315210448

而微软的 onnx 烂得曾让我想干脆把看到的 AI 小项目都改写成 腾讯 ncnn 的。这玩意如果要做对比的话:

  • onnxruntime 和 cuda 组合起来的运行环境一般需要 2GB 到 几十GB 的硬盘空间(不包含模型文件),启动速度超级慢,安装各种依赖包很可能搞崩溃你的系统。跨平台安装有完全不同的安装依赖。在日常主机上安装高风险高困难,只有使用 Docker 这种容器才能安全的保证主机不被污染。
  • 腾讯的 ncnn 则完全不需要用户安装任何依赖包,只要操作系统的驱动正确就可以了,整套环境是基于 Vulkan API 实现的,。整个运行环境大概在 几十MB 左右(不包含模型文件),非常的轻量。跨平台只要预编译对应的二进制文件即可。纯绿色。

然而一个巨大的门槛挡住了我,ncnn需要的编程语言基础是C系,对我来说完全是另一个领域,搞不定。

・国内

百度风投 和 DeepSeek 一栋楼。

腾讯有着最好的 ncnn 但是学习门槛略高,而且很明显国际老流氓们都提防着这个山寨王。

阿里?谁他妈的为了个问答系统还要专门安装一个浏览器,甚至产品主页都没适配PC端的桌面浏览器。烧钱疯狂投广告搞得各个平台都跟得了癣病似的。能滚多远滚多远。

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-35-27

国家超算互联网中心?我跟你讲要不是因为秋风于渭水写的这一篇DeepSeek R1 可免费/白嫖网页版一览,我都不知道这玩意存在。这玩意是来搞笑的吧,自己建了一个 DeepSeek 服务但是这鸡巴什么玩意?

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-57-46

互联网的里程碑在这破玩意嘴里被贬成了 在国际上的影响力相对较小


六、结论

个人观点,仅供参考。

这篇文章写到中途的时候发觉内容太多太长。想过从中间拆开,分成多篇文章发布,但想了半天,去他妈的。

The post 是时候在我这里聊一下人工智能了 first appeared on 石樱灯笼博客.

硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你


这几天微信视频号上刷到一个在美国美女UP主(程序媛)的视频,很搞笑,于是好奇的查了一下啥是硅谷娇妻。

silicon-valley-beauty 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

这个美女UP主/程序媛开辟了一条新赛道

听说,在硅谷,竞争激烈。华人之间比的是谁的Offer更高,谁的级别更高,谁的妻子更年轻(“娇妻”一词也常被提及)。而女性则比的是老公的职级、收入,甚至家庭的整体实力。这种内卷不仅体现在职场,还延伸到生活的方方面面。从学区房的选择到孩子的教育资源,再到投资理财,甚至是社交圈层,硅谷的华人圈总是充满着无形的较量。这种竞争有时让人充满动力,但有时也让人不堪重负,仿佛一刻松懈就会被时代的浪潮甩在身后。

“硅谷娇妻”是一个带有调侃或刻板印象的标签,通常指向在硅谷科技行业高薪人士(如程序员、高管等)的配偶或伴侣。


只要你够努力,你的老婆还在高考。
Share on X


硅谷娇妻:让四个大语言模型AI来告诉你

我这次问了四大语言模型LLM(Large Language Model):包括 ChatGPT、Google Gemini、Anthropic Claude、还有Grok 3。感觉Claude AI生成的抽像图最好,让人眼睛一亮。我还试了DeepSeek,只不过它没法直接生成图。

我还听说,硅谷的竞争异常激烈,以至于男程序员们很难在当地找到对象。许多人选择在国内找媳妇,然后迅速结婚、办理签证,将妻子接到国外。婚后,男方往往希望女方尽快怀孕、生子,成为家庭主妇,否则可能面临被更优秀的男性“拐走”的风险。毕竟,在硅谷,女性的“溢价”更高,选择更多,这一点真假难辨,但确实是一个广为流传的现象。

与此同时,也有不少女性在硅谷站稳脚跟,依靠自身能力进入科技行业,甚至反向选择伴侣。相比国内的传统婚姻模式,硅谷的婚恋市场充满了变量,既有精打细算的现实考量,也有跨文化的碰撞和融合。

ChatGPT眼中的硅谷娇妻

chatgpt-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

ChatGPT画的硅谷娇妻图一眼假,就是AI图

Google Gemini眼中的硅谷娇妻

gemini-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Google Gemini的也还不错,但是“几张” = 一张。

Grok 3眼中的硅谷娇妻

Elon Musk老马说Grok 3是最聪明/Smartest的AI:

grok3-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Grok 3 画出来的硅谷娇妻图还可以,中规中矩,四张图,很像Mid Jounery的风格,一次给4张。

Claude眼中的硅谷娇妻

Anthropic Claude AI确实与众不同:

claude-explains-young-silicon-valley-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Claude AI 用文字解释硅谷娇妻

silicon-valley-wives-by-claude-ai 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Claude AI画的硅谷娇妻 Silicon Valley Young Wives 的答案最好玩,有点卡通有点抽象。

DeepSeek眼中的硅谷娇妻

Deepseek无法像其它AI模型可以直接画图,这一点有待改进。

硅谷娇妻是怎么样的?画几张人像
好的,用户问的是“硅谷娇妻是怎么样的?画几张人像”。首先,我需要理解“硅谷娇妻”这个词语的具体含义。这可能是指那些居住在硅谷,配偶在科技行业工作的女性,可能带有一定的刻板印象或社会标签。接下来,我要考虑用户的需求是什么,他们可能想通过画像了解这类女性的典型特征或者社会形象。

接下来,我需要分析用户可能的深层需求。用户可能对硅谷的生活方式、社会结构或者性别角色感兴趣,或者他们可能在寻找某种文化评论或讽刺的表现。也有可能用户想创作相关的内容,需要视觉参考。

然后,我需要考虑如何将“硅谷娇妻”转化为视觉形象。这可能包括她们的穿着、职业背景、日常活动、使用的科技产品等元素。例如,她们可能穿着休闲但高端的服装,携带科技产品,出现在咖啡店、科技公司附近等场景。

同时,要注意避免刻板印象,虽然用户可能希望看到典型的形象,但也要注意多样性和尊重。可能需要描绘不同年龄、种族和风格的女性,以展示硅谷的多元文化。

另外,用户提到“画几张人像”,可能需要不同的姿势、场景和风格。例如,一个可能在咖啡馆用笔记本电脑工作,另一个可能在参加科技会议,第三个可能在家庭环境中平衡工作与家庭。

还要考虑色彩和风格的选用,硅谷常与科技、创新相关,可以使用现代、简洁的设计,颜色可能偏向中性或科技感较强的蓝色、灰色等。

最后,需要确认用户是否需要具体的艺术风格指导,比如卡通、写实、插画风等,或者是否需要强调某些特定元素,如品牌标志、科技设备等。如果用户没有明确说明,可能需要提供多种风格的建议,或者询问更多细节以更好地满足需求。

“硅谷娇妻”是一个带有调侃或刻板印象的标签,通常指向在硅谷科技行业高薪人士(如程序员、高管等)的配偶或伴侣。这一群体的形象常被简化或符号化,以下是对其特点的概括及对应的虚拟人像描述(文字版):

人像1:科技极简风
外形:30岁左右女性,穿着Lululemon瑜伽裤、宽松羊绒衫,背环保帆布包。

场景:站在Palo Alto的Blue Bottle咖啡店外,手持燕麦拿铁,低头刷手机(屏幕显示投资App或名校家长群消息)。

细节:手腕戴Apple Watch,戒指叠戴(婚戒+Tiffany微笑项链),脚踩Allbirds运动鞋,背景是特斯拉Cybertruck。

人像2:精英教育妈妈
外形:亚裔女性,剪裁利落的Theory西装外套,内搭白色T恤,妆容淡雅。

场景:在私立学校门口接孩子,车内仪表盘显示自动驾驶模式开启,副驾放着斯坦福夏令营宣传单。

细节:手机正在Zoom会议(远程公益组织或创业项目),车后窗贴着“My Child is an Honor Student”贴纸。

人像3:跨界投资人
外形:金发白人女性,穿Everlane基础款高领毛衣,搭配珍珠耳钉,发型随意扎成低马尾。

场景:在Atherton豪宅后院,桌上摆着冷压果汁和《原则》《精益创业》书籍,笔记本电脑显示天使投资平台页面。

细节:背景可见太阳能板、特斯拉充电桩,墙角堆着儿童STEM玩具,暗示“兼顾家庭与事业”的人设。

标签化特征总结:
消费符号:健康轻食、环保品牌、科技产品堆叠身份认同。

社交属性:教育内卷、房产投资、隐性阶层竞争。

矛盾性:既标榜“独立女性”,又依赖配偶资源;追求极简生活,却深陷消费主义。

注意:这类形象本质是对某一群体的夸张概括,现实中硅谷家庭结构多元,应避免以偏概全。创作时可加入反讽或解构元素,平衡幽默与批判视角。

画几张硅谷娇妻人像图
好的,用户之前问过关于“硅谷娇妻”的定义和文字描述的人像,现在直接要求画出几张人像图。我需要考虑他们为什么需要图像,可能的用途是什么?可能是用于展示、教学,或者个人兴趣。用户可能没有绘画工具,或者希望得到一些设计上的指导。

用户之前的提问已经得到了详细的文字描述,现在需要视觉呈现。我需要确认用户是否具备绘画能力,或者是否需要推荐工具或方法。但根据问题,用户可能希望得到具体的绘图建议或步骤,或者生成图像的方法。

考虑到用户可能没有专业设计软件,我应该推荐一些易于使用的工具,比如Canva、Procreate,或者AI绘图工具如MidJourney。同时,可能需要提醒用户注意避免刻板印象,保持多样性,毕竟之前提到过避免以偏概全。

另外,用户可能需要一些风格上的建议,比如插画、现代简约风或幽默夸张风格,来更好地表现人物特点。需要详细说明每个形象的关键元素,确保用户能准确传达所需的特征,比如科技极简风中的特斯拉和Apple Watch,精英教育妈妈的斯坦福夏令营传单等。

还要注意版权问题,建议使用原创或免版税的素材。最后,可能需要总结设计时的注意事项,比如平衡幽默与真实,避免刻板印象,突出细节等,帮助用户在创作时保持敏感和尊重。

由于我无法直接生成图像,但我可以提供详细的视觉设计思路和元素参考,帮助你或设计师创作“硅谷娇妻”主题的人像插画。以下是具体分镜和风格建议:

风格选择建议
扁平插画风:用简洁色块、低饱和度配色(莫兰迪色系),突出科技感和中产审美。

幽默夸张元素:放大标志性符号(如巨型特斯拉车标、浮夸的斯坦福贴纸),增加反讽效果。

细节彩蛋:在画面角落隐藏硅谷文化梗(如“996咖啡杯”“IPO倒计时手机壳”)。

人像1:科技极简极繁主义者
关键元素:

服装:Lululemon瑜伽裤 + Patagonia抓绒外套 + Allbirds运动鞋。

道具:左手举着燕麦拿铁,右手滑动iPad(屏幕显示股票K线图)。

背景:Whole Foods超市入口,购物车里有有机蔬菜和一瓶$200小众护肤油。

细节:AirPods耳机半戴,Apple Watch表盘显示“站立时间不足警告”。

人像2:私校妈妈的多线程人生
关键元素:

场景:私立学校停车场,妈妈同时操作三台手机:

手机A:PTA(家长会)群讨论捐款盖新实验室。

手机B:房产中介发来的Atherton豪宅链接。

手机C:微信家长群吐槽“爬藤教练收费$500/小时”。

穿搭:Tory Burch托特包 + 梵克雅宝四叶草项链 + 谷歌园区访客牌。

背景彩蛋:车窗反射出她疲惫翻白眼的瞬间,车尾贴着“Baby on Board & IPO in Progress”。

人像3:生活博主与天使投资人
关键元素:

主画面:在自家智能厨房拍摄Vlog,标题《硅谷主妇的晨间流程:5点健身7点路演》。

道具:料理台上摆着Bulletproof防弹咖啡、代餐Soylent、VC名片(红杉/Andreessen Horowitz)。

隐藏冲突:镜框边缘露出没收拾的儿童玩具和扫地机器人故障提示。

服装:Glossier素颜妆 + Aritzia家居服,戴Oura健康监测戒指。

工具与实现方法
AI绘图提示词(适用于Midjourney/DALL·E):

例:A stylish Asian woman in Lululemon yoga pants, holding a Blue Bottle coffee cup and iPhone with stock app interface, Tesla Cybertruck in background, flat vector illustration, pastel colors –v 5.2

手绘/设计工具:

Procreate/Photoshop:用钢笔工具勾轮廓,叠加纹理纸质感。

Canva:利用“简约人物”模板修改配色和道具。

版权规避:避免直接使用品牌Logo,用抽象化设计(如水果替代Apple标志)。

注意事项
避免刻板印象:通过添加反转细节(如“娇妻” secretly coding),打破单一叙事。

文化敏感性:平衡讽刺与尊重,避免针对特定族裔(如亚裔虎妈标签)。

地域特征:加入硅谷地标(金门大桥彩蛋、101公路堵车场景)。

如果需要更具体的分镜或构图草稿,可以描述某个场景,我会进一步细化设计逻辑! 🎨

阿里的千问/Qwen2.5-Max 眼中的硅谷娇妻

Qwen2.5-Max和DeepSeek一样,无法像其它AI模型可以直接画图,这一点有待改进。

“硅谷娇妻”并不是一个具体的人物,而是一个泛指的概念,通常用来形容生活在硅谷地区、家庭条件优越的女性。这类形象可能带有一定的刻板印象,比如她们可能是科技公司高管的妻子、创业者、或者本身就是成功的职场女性。她们通常被描绘为时尚、独立、有学识、注重生活品质,并且对科技和创新文化有一定了解。

由于我无法直接绘制图像,但我可以用文字描述几种典型的“硅谷娇妻”形象,帮助你更好地理解这个概念。如果你需要画出来,可以参考以下描述:

形象1:科技精英型
外貌特征 :干练短发或优雅的波浪长发,穿着简约但高级的职业装(如剪裁得体的西装外套搭配高跟鞋),佩戴智能手表或最新款的苹果产品。
背景环境 :站在一家高科技公司的玻璃幕墙前,手里拿着一杯星巴克咖啡,旁边是一辆特斯拉Model 3。
表情神态 :自信而专注,似乎正在处理工作邮件或与团队讨论项目。
形象2:创业先锋型
外貌特征 :休闲中带点时尚感,比如穿一件宽松的针织毛衣搭配牛仔裤,脚踩一双运动鞋。背着一款设计师品牌的托特包,里面装着笔记本电脑和平板。
背景环境 :坐在一家充满工业风装修的咖啡馆里,桌上散落着商业计划书和一杯冷萃咖啡。窗外可以看到硅谷标志性的棕榈树。
表情神态 :略显疲惫但眼神坚定,仿佛刚刚结束一场重要的投资人会议。
形象3:家庭主妇型
外貌特征 :精致的妆容,柔顺的长发披肩,穿着轻奢风格的连衣裙,搭配珍珠耳环和名牌手袋。
背景环境 :在一处豪华别墅的花园中,周围是修剪整齐的草坪和盛开的玫瑰花丛。她正微笑着陪伴孩子玩耍,同时用手机查看最新的股市动态。
表情神态 :温柔又从容,展现出一种平衡事业与家庭的生活态度。
形象4:健身达人型
外貌特征 :身材匀称,穿着专业的瑜伽服或跑步装备,头戴棒球帽,手腕上戴着Fitbit或Apple Watch。
背景环境 :在阳光明媚的早晨,沿着硅谷的山间小路慢跑,远处隐约可见旧金山的金门大桥。
表情神态 :健康活力,脸上带着轻松愉悦的笑容。
这些形象只是基于刻板印象的艺术化描述,并不能代表所有硅谷女性的真实生活状态。事实上,硅谷的女性来自不同的背景,拥有各自独特的故事和个性。如果要将这些形象画出来,建议结合现代插画风格,比如扁平化设计、水彩渲染或写实素描,以突出人物的特点和氛围感。

希望这些描述能激发你的创作灵感!如果有其他问题,欢迎随时提问~

画几张图

profile
Qwen2.5-Max
很遗憾,我目前无法直接生成或绘制图像。不过,我可以为你提供一些具体的指导和建议,帮助你自己绘制“硅谷娇妻”的形象,或者通过其他工具(如AI绘图软件、插画程序)来实现你的想法。

如果你希望使用AI绘图工具(例如MidJourney、DALL·E或Stable Diffusion),可以尝试输入以下提示词(prompts)来生成图像:

提示词1:科技精英型
Prompt :
“A confident and stylish woman in her 30s, wearing a tailored blazer and high heels, holding a smartphone with a Tesla car in the background. Modern office setting with glass walls, clean design, professional look, vibrant colors, photorealistic style.”

提示词2:创业先锋型
Prompt :
“A young female entrepreneur in casual chic attire, sitting at a trendy industrial-style coffee shop, working on a laptop, surrounded by business plans and a cup of cold brew coffee. Warm lighting, natural textures, relaxed yet determined expression, cinematic composition.”

提示词3:家庭主妇型
Prompt :
“Elegant woman in her late 30s, dressed in a luxurious dress, wearing pearl earrings, standing in a beautiful garden with roses and green lawns. A luxury mansion in the background, smiling gently while interacting with children, soft pastel tones, realistic painting style.”

提示词4:健身达人型
Prompt :
“Fit and energetic woman in athletic wear, running on a scenic trail in Silicon Valley, wearing a baseball cap and fitness tracker, early morning sunlight casting golden hues, distant view of the Golden Gate Bridge, dynamic pose, vibrant and healthy aesthetic.”

如果你想自己手绘:
构图设计 :先确定人物的姿态和背景环境,比如站立、坐着还是运动中的动态。
服装细节 :根据不同的类型选择合适的服饰,注意体现硅谷的现代感和科技氛围。
色彩搭配 :使用明亮、干净的色调,例如白色、灰色、蓝色等,突出简洁高级的感觉。
表情刻画 :根据不同角色的性格特点,描绘出自信、专注、温柔或活力的表情。
如果你有绘画基础,可以参考上述描述一步步完成作品!如果需要进一步的帮助,请随时告诉我,我会尽力为你提供建议~

ChatGPT 可以拿来做什么?

ChatGPT 通用人工智能

Grok 3

本文一共 4277 个汉字, 你数一下对不对.
硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)
The post 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  2. 锅中的爱马仕: 法国锅 Le Creuset 今年黑五,媳妇入了三个锅,打折后,一个锅平均200英镑。我第一次才知道法国锅 Le Creuset这个牌子,感觉一个锅搞得这么贵多多少少有点噱头,就和名牌包包一样。 这个锅这么贵,得弄个开光仪式。据说最好不要放在洗碗机里,因为可能把锅的那层保护膜搞坏。 Le Creuset 是一家源自法国的高端厨具品牌,创立于1925年,以其优质的铸铁锅和搪瓷锅闻名于世。品牌的诞生地位于法国北部的小镇 Fresnoy-le-Grand,由两位比利时企业家创立。Le Creuset 的首款产品是一只标志性的橙色圆形法式炖锅,其设计灵感来源于熔融铁的颜色,这种颜色也成为品牌的象征之一。此后,Le Creuset 凭借卓越的工艺和经典设计,逐渐在全球范围内赢得了消费者的喜爱,成为许多厨房的必备之选。 Le Creuset 的产品以其铸铁材质和搪瓷涂层而著称。铸铁锅具备优异的热传导和保温性能,适合长时间炖煮、焖炖等烹饪方式,搪瓷涂层则提供了防粘效果,且易于清洁和保养。除此之外,Le...
  3. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  4. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  5. 送值400 英镑的Google Adwords广告代金券 很久之前, 我用过 Google AdWords, 当时也是拿着免费送的 Credit, 但由于某些原因, 就没继续再用下去. 这次谷歌又发邮件送了400英镑的广告点券/代金券, 如果您想要获得 400 英镑的 Google AdWords 信用额度试用这个Google...
  6. 密码或IP地址保护 WordPress 博客的 wp-admin 目录(并且允许 admin-ajax.php) wp-admin 文件夹是 wordpress 安装中最重要的文件夹. 它主要包含控制仪表板 Dashboard 等代码. 有一个重要的文件 admin-ajax.php 在正常的博客功能中也需要被用到, 所以单纯的屏蔽整个 wp-admin 也许会损坏一些正常的功能. 最近几天, 我收到了一些邮件警报,...
  7. 单反照片拍出来模糊的几个原因 单反照片拍模糊的原因可能包括以下几种:首先是对焦问题,比如对焦点没有对准主体或使用了错误的对焦模式。其次是快门速度太慢,导致拍摄时手抖或被拍摄对象移动,出现运动模糊。此外,镜头或者传感器可能有污渍,影响画质。最后,如果光圈过大(如F1.4、F1.8),景深太浅也可能导致部分画面失焦。解决这些问题,可以检查对焦设置,合理调整快门速度、光圈大小,并保持镜头和相机的清洁。 经常单反照出来的照片是糊的, 还好现在电子技术很强大 可以照很多张 糊的就删掉就可以, 不会增加照片处理的成本 (不用洗出来 再挑). 一般来说 单反照出来糊的有几个原因: 快门速度过慢 slow shutter speed 单反的安全速度是焦距的倒数,...
  8. ChatGPT-4 使用 Math Wolfram 插件解决数学脑筋急转弯问题 这篇文章, 我们看一个简单的数学问题(脑筋急转弯), 并用 Python 解决它. 我们看一下LLM(大型语言模型): ChatGPT3.5和ChatGPT4. 通过 ChatGPT-Plus 订阅(目前每月 20 美元 + VAT增值税), 我们可以启用...
❌