普通视图

发现新文章,点击刷新页面。
昨天以前首页

讲讲目前使用线上AI文字生成图片工具的局限性

作者 石樱灯笼
2025年4月15日 22:55

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下,bilibili的嵌入代码,在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……(破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧)

(为了省事,下文中 关于 文字生成图片图片生成AI生成图片 等一系列同义词,均使用 文生图 这个词)


前言

是的这一阵子仍然很无聊的在折腾AI,主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力,天生没有拿笔画画的能力,我最高也只能做到画几个简单的几何体素描,这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情,而我很明确的想象不出来自己拿着笔画画的样子,最多也只是在3DS上玩一下 《Colors! 3D》 或者 《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候,肯定是得当作工具好好尝试一下的。

上一篇文章中也说过了,线下AI文生图工具用不起,线上AI文生图工具不可靠。

只不过这次玩得有点多,我算是把 豆包的AI文生图天花板给捅


尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画,而之前文章《[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想》中也讲了,因为这玩意不是人,所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单,这样在内容变化上能尽量保证主体变化不大,不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。


尝试用豆包 智能编辑 和 区域重绘 功能出图后插帧做动画

我之前想到过,使用智能编辑和区域重绘,一点一点做一个渐变的效果,然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的 插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护,或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果:

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续 尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图,而动画是一个流畅的东西,在 智能编辑 和 区域重绘 这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线,结果没啥效果。尤其是速度曲线需要做积分来确定播放时长,而我现在的脑子算个一元一次方程式都卡壳。


捅到豆包文生图2.0模型的天花板

(我猜这玩意叫2.0,因为我不知道这玩意到底叫啥)

我在思考过后,想了个不如干脆不用动漫风格,而是用写实风格,找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象: 当关键词足够多的时候,出图风格会回落 ,像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是:「人像摄影」>「电影写真」>「3D渲染」>「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下,人脸输出还是比较稳定的,图像也比较像真人。

但是当继续增加关键词的时候,出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片,「3D渲染」就开始出类似建模一样的风格,甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话,即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词,这也就意味着要简化场景的复杂度。

在这个限制条件下,我做了这个视频

《[原创] Dump》

怎么说呢,场景实在是太过于简洁了。

只能说,在线上工具有如此限制的情况下,创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。


豆包文生图模型升级到3.0

这玩意还能升级我是没想到的,因为我一直不太明确,目前这些大厂搞这些产品的目的是什么。豆包的这个产品,明显在外部宣传上没跑过同类选手,在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期,或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后,的确画质提升了非常多,前文中讲的 风格回落 问题基本就不会出现了(或许是服务器升级了内存上限?)。但就像我说的 我一直讨厌依赖线上工具 ,线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来,所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升,所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子,看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

(注:内容具有时效性,随时间变化部分内容会失效)

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比:

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门,不会画角色与背景的比例,不会画角色与背景的相对角度。新模型虽然在比例上还是歪的,但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048,绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词,现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词,现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑,全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪,伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么,发箍 这个字段总被当作 光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

(莫不是模型是用 蔚蓝档案 跑出来的?)

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样,只要元素个体超过两个,相互关系就会崩。

  • 车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

  • 马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

  • 部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

  • 疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

  • 关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

  • 多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

  • 多个对象场景下,对象间关系很容易出错。

比如,我想让这个紫色少女站在橙色少女前面,站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下,就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的?


参考图、智能编辑、区域重绘、擦除

讲了出图,也得讲一下改图。

擦除

擦除应该是最有用的功能,只不过豆包的这个擦除,抹啥糊啥。

原图:

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除:

生成动漫风格图片-2996429080838914-20250413233211

百度擦除:

jpg-e1d68564eccf784c743295bb2fbbd76c

(百度出的结果是jpg的而且分辨率会被缩,基本上是一坨屎)

GIMP 克隆工具:

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是,豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了,输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘,这三个我就一起说了。

原本2.0模型的时候,这仨功能就不怎么好使。最大的感觉就像是,这三个玩意用的是一个比2.0劣质一点的模型,但还没有到达不可接受的差距。

尤其是2.0的时候,文生图的输出最大边长是1024,而 智能编辑 的最大边长却是 1312,对应16:9比例的话输出结果是 1312×736 这么个分辨率,直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了,图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话,新图的角色可能会比旧图角色小一点,那样的花就用rembg把旧图角色抠出来,然后自己编辑,再贴到新图上。

动画模型还好一点,真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下,精细度差别能大到吓人。

这是3.0的文生图:

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘,尝试在椅子上放一瓶可乐:

生成特定风格图片-2715236277751298-20250413154949

这是 参考图/智能编辑 想在空椅子上加个人:

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈,智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭:

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心:

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了:

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画,如果用真实场景的话大概就是这么个效果:

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(三)

这里还有一个动漫效果的,所有元素的变形都太严重,根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(四)

文中最开头也说了,本身这玩意流畅度就够呛,再加上 智能编辑和区域重绘 的模型,就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下, 智能编辑区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用,就是在部分不在意内容的场景下填补空白,比如视频封面图啥的。

只不过由于出图分辨率是固定的,所以 扩图 的同时还在 缩图

我曾想着或许可以靠反复扩图的方法,做一个绝命毒师结局的 Baby Blue 场景,结果,豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡,想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。


豆包应用

说完模型,说下豆包这玩意。

声明:我个人本身是很讨厌头条系的(现在可能叫做字节系?)。但相对于厌恶程度,头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版,一个 Chrome/Edge/Safari 插件,一个 Windows/MacOS 浏览器,一个手机客户端。Chrome插件 和 Windows客户端我都试过了,正经人谁会用这玩意?退一步讲,哪个产品经理想出来专门做一个浏览器只为了跑一个网页?脑残的阿里吗?

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录 和 第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信吗泄露了,其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。


豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎

火山引擎这玩意想要登录进去可以说特别困难,页面的稳定性烂得出奇,大部分情况下都是后端API超时,跨域请求出错,前端条件判定出错,然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨 阿里云/腾讯云 一样的界面。云服务供应商虽然都长得差不多,但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口,而其背后应该有更多的能提供更强更稳定的商业服务。

至少 稳定 这一块是没了。

而作为 更强 这一块呢?

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂,是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂,而出图质量甚至都没有上一个版本的豆包高,只有百度AI的水平。

而且和豆包以及其他国内平台一样,文生图功能都只有一个文字输入接口,非常的落后。(现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的,「负面」输入可以保证输出结果中不存在你完全不想要的内容)

(有一种不愧是头条系的感觉,除了搞出致瘾性算法之外什么都搞得稀烂的样子)

至于其他产品,图文生视频这玩意目前就是搞笑的,屁用没有。你可以看我在B站做的这个视频合集:合集·用AI生成的视频也太离谱了,这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型,开放业务只有声音复刻和同声传译。

文本模型,这玩意真的有人想要花钱 这玩意吗?用途会是啥啊?自己搞个假的 DeepSeek 搞分销?


结尾

反正目前这个AI水平,放在个人手中,仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱;线下个人用户很难将业务稳定的部署,硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求,就是根据已有的html文本,直接生成带锚链接的目录。这个需求我在 豆包 百度 copilot 下同时试了 bash node php python 三个语言,基本全部都是语法错误,基本都是瞎写的,正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》,除了一条有效评论之外,全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字,更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了,毕竟独立博客不需要刷活跃度来提升展示率,这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去,才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子,大家都在那甩小屌,那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客,现在又要做直播,我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想

作者 石樱灯笼
2025年3月14日 01:43

该内容仅供娱乐,请勿过分解读。
这是一篇使用AI工具辅助创作的作品。
内容包含以下已知问题:

  • 人物形象连贯性错误
  • 作画细节错误
  • 大量的暗示
  • 大量无用的细节描绘

该内容可能会引起部分人引人不适,请谨慎选择观看 。
本作品不适合儿童以及心理承受力较弱者。

screenshot_1808684507679234-20250310161733

B站视频链接:《生命,科技,灵魂,死亡》

我是期望能有人点到B站然后在底下留评论。现在各个平台都已经被算法掌控了,有互动帐号才能活。没互动那就是死。

WordPress这坨狗屎现在乱改用户的HTML嵌入代码,然后B站的自动播放又没法在代码里禁用掉,所以我这里就不嵌入播放器代码了。


结论

假如你觉得这个漫画非常的「抽象」,那就对了。

制作感想

可以说年后就一直都在搞这个作品。

期间甚至把整个操作系统都从 Linux Mint 20.3 升级到了 Linux Mint 22.1 (跳过了1个大版本4个小版本,或者说2个大版本3个小版本?),写了一堆 nemo actions,写了一堆脚本,更新了本地的各种应用工具,测试了一堆AI相关的工具,写了一个 userscript,甚至还把 danielgatis/rembg 常年都修不好的GPU加速给了,还做了 DOCKER GPU 加速版本,你说我也不会 Python 啊竟然还做出了这种事,想想真是疯狂。

前几年挖的各种大坑不仅没填,新大坑开得一个接一个……这些玩意要是能赚钱我早就成暴发户了。

关于AI的感想本篇文章先不讲。我个人是没什么兴趣凑这个烂热度的,整个互联网这几年就跟鬣狗一般,什么热就食什么,不论腥臭。当年韩国人的常压室温超导体,各种人“复现成功”;现在AI也一样,各种狂热,但是实际应用或相关创作基本没有,疯癫的自媒体,遍地的海乙那(这玩意竟然15年前有人写过了!)。


创作契机

最初阶段

契机这玩意很简单。就是随便在网上看看有哪个大厂公开免费支持用户用AI工具乱搞。毕竟如果没有对应工具或者能力的话,什么都是胡扯。

其实我对 线上工具 尤其是 大厂线上工具 非常反感的。这些大厂现在基本没有什么良心,自己的服务功能乱改,而且随时跑路,不仅给你玩个 免费是最贵 , 还要玩得你对工具有依赖性之后 杀自己的产品诛用户的心

所以我在本地部署了缩放工具和去背景工具。图片生成工具其实我也部署了 ComfyUI,但是只要模型大一点,我这个 8G 版的 GTX1080 在 VAE Decode 阶段就直接黑屏重启。绝对不是供电不足的问题,因为KSamper阶段的时候显卡就已经跑满 200w 了。

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-14

扯远了。关于AI相关的内容下篇再讲。

总之是选定了一个线上的AI图像生成工具。

内容构思

这玩意你要是能看懂那大概猜得出来我是怎么想的。

如果你看不懂我也懒得管。

我这个人非常讨厌目前互联网平台的各种解说视频。这是怎么回事? 观众是没有脑子吗?看个作品还要旁边有个人解说才看得懂?


制作过程

AI出图这玩意我就不说了。主要讲讲其他的。

图片序列

首先是把所有图片都整理到一起,然后根据剧情大纲分成多个目录。

png_screenshot_on_b85m_by_flameshot_at_2025-03-13_23-55

再把图片一个一个放入 NLE 的时间轴中。

这时候第一个痛点就来了,图片太多的时候,记不住哪个图片用过哪个图片没用过。又不能移动图片(移动了NLE不就找不到图片了么)。

这时就想到了 Linux Mint 文件管理器的原生功能:打标记。

然而这货……不支持文件多选。半拉喀叽。

最后只好写俩个 nemo_actions 来处理这事情。

screenshot_on_b85m_by_flameshot_at_2025-03-14_00-05

然后就发现这玩意 Bug 真多。

首先这玩意在用 nemo_actions 设置后图标文件管理器不会刷新,需要手动刷新,很烦。触发文件管理器刷新的方式是修改文件,网上给出来的方法都是 直接touch,但是那不就更改了文件修改时间了吗?最后解决办法也很逗乐:

touch $inputfile -r $inputfile

设置文件的修改时间为文件自己的修改时间……

然后写文章的时候才发现这玩意还有另一个Bug,就是媒体文件在默认图标大小时不能正常显示标记……

png_screenshot_on_b85m_by_flameshot_at_2025-03-14_00-05_1

批量调整图像

为了省事,我在导入图片的时候用的是原图大小,1024×576的。图片太小了,但是全部放大太浪费资源,很多图片只是整理出来了,并没有被采用。整理出来的图片如果再手动复制粘贴到相同结构的目录里也很费劲。

于是用 bash shell 将所有引用的图片从 mlt 文件中输出出来,再写个脚本打水印和放大。

png_screenshot_on_b85m_by_flameshot_at_2025-03-14_00-15

有经验的用户应该能看出这段代码很大一部分是AI生成的。

然后只要批量更改 mlt 文件的图片引用路径,所有引用的图片就都处理完毕了。

BGM

首先是背景音乐这一块。首先我就不想用大家都听过的。很多BGM都用烂了,一听就恶心,但又很神奇的是国内这些视频网站用户貌似对吃屎免疫……但是后来仔细观察发现,大多数用户脑电波是直的,只有对着他们放对应的BGM才有对应的反应。

vlcsnap-2025-03-13-23h51m23s547

vlcsnap-2025-03-13-23h51m40s373

反正他们也不看我的视频,不管他们。

专门去 DOVA-SYNDROME 找了些 BGM,收获蛮多。

用了四首曲子把整个视频分成了四段。

结果很诡异的是传到B站后第二段结尾和第三段开头不知为何混到一起了,本地原本没这个问题。

改图

原本生成的图片里是没有任何文字内容的。

我也不想加任何字幕和对话。

我期望是根据角色的神态和动作,让用户自己感觉,画中的角色「在想什么」,「想说什么」,「想做什么」,「在做什么」。一千个哈姆雷特是假的,但要多少是多呢,有一个算一个吧。

但是最后还是加了点内容上去,因为我觉得很多内容还是太过于晦涩和抽象了。

但是加了之后又觉得有点后悔。

我本来期望,是想让用户在前半段根本看不懂女主究竟是在干什么,是怎么回事。加了内容之后再结合标题就跟直接破案了一般,无趣了。

(果然还是由于没有相关创作经验而带来的错失)

剧本

我是本着传统的叙事结构:「起承转合」,其变体「起承转合暗」而考虑的剧本。

第三段,在结尾处,专门设计了完全没有声音的一段。

第四段则做得特别短。专门让故事结束得十分突然。然后把一张啥都没有的背景图连带BGM扔给观众。

最后的结尾图却是我做完大部分视频内容后突来的灵感。

最后加工

最后再重新开一个视频项目,做一段声明,然后用 FFmpeg 无损把俩视频贴在一起就完事了。

png_screenshot_on_b85m_by_flameshot_at_2025-03-11_12-07

本来还想做个英文版来着,但是想到改图好麻烦,懒了,以后再说。


总结

总之算是一件事情了了。

screenshot_20250303005229

奖励自己摆烂一阵子。

The post [原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想 first appeared on 石樱灯笼博客.

荒野机器人

作者 dimlau
2024年10月31日 21:28

我是工作狂,但是工作忙碌到一整天没法自顾的时候,总感觉这一天像是虚度了。我当然喜欢自己的工作,所以也很困惑,为什么做喜欢的工作还会感觉虚度光阴?

晚上下班去接女儿放学,一路听她叽叽喳喳,回家洗漱结束,坐在床头,说服自己再看一部电影吧,就看了这部《荒野机器人》。机器人和野生动物交朋友,说实话,有点低龄向,不过 100 分钟的观影时间不会感觉虚度。说起来,电影里的机器人萝斯开头时也是满脑子想着工作,在学会用心而不是用大脑来看待世界之后,它的时间才真正有了价值,不管是快乐、满足还是思念、寂寞。电影里有一个小细节,从小灰雁还在蛋壳里到它飞在天上,几次用萝斯的机器人视角记录下一系列成长画面;这种亲情的关切真的很令人感动。

回到自己身上,再热爱的工作,如果忙碌到无法用心去感受,也会变成负担。活着就要用心感受,或者说,用心感受才是活着。

fin.

用 Blender 制作一个可循环沙漠公路绿幕

作者 石樱灯笼
2024年2月17日 16:40

偶然间看到有人发了个《奔跑的阿塔尼斯.GB》,我瞬间联想到的竟是《GO BROLY GO GO》这个梗。

那为什么不干脆自己做一个呢?

然后就遇到了一大堆大坑。其中的一个大坑就是这个奔跑用的绿幕背景该怎么搞。本文就围绕这个大坑随便嘚吧几千字。

(注1:本文非教程)

(注2:本文本该引用的图片,因为我懒而直接截图贴到 Discord 了,所以本地没有保存,我也懒得去 Discord 往回抠,直接文字描述了。对付看吧)


素材与原梗

《奔跑的阿塔尼斯.GB》

《GO BROLY GO GO》


首次尝试

在网上随便搞了一个绿幕背景,然后就做了一下。

[StarCraft] Go Go 大主教 Go Go !!!「旧版」

非常的不满意。

主要是这个绿幕背景不能循环,背景高度在开头和结尾不一致,所以每次到循环的位置时都咯噔一下子,看起来就非常的粗糙。

当然在现在这种大多数都是垃圾视频的大环境下,每天都产生大量漏洞百出的垃圾视频,平台和用户已经亢奋到巴不得直接脑子上插根安卓充电线接手机上在人脑内播放垃圾视频了,没人会在乎这种小细节,甚至都没人看我做的这种视频。


重新搜寻绿幕素材

在网上随便搜索了一下,发现几乎没有我需要的 「可循环」 的绿幕素材。

screenshot_on_b85m_by_flameshot_at_2024-02-16_22-32-40

大多数都是随便一个奇怪的片段,长度都很短,而且全部都是头尾不相同的,简单点的咯噔一下,复杂点的干脆连方向都变了,完全不知道这种限制性极强的素材在什么地方能用得到。

总之在网上找这种可循环绿幕素材这个途径行不通。


尝试自己做

算是要做个3D动画。掏出 Blender。

「路」,好解决,画个面,然后找个路的纹理贴上去就行,然后根据纹理做个首尾相接,循环就搞定了。

难点在路边,我想整个沙漠,那单纯的平面纹理就不够了。

在网上搜了一下关于 Blender 沙漠 的教程。

screenshot_on_b85m_by_flameshot_at_2024-02-16_22-32-51

screenshot_on_b85m_by_flameshot_at_2024-02-16_22-32-56

第一个,测试渲染完了,细节很好,但是主要用法是展示大沙漠里微观场景的,就和其缩略图一样。在大场景下做大背景效果很好,但是缩放小了之后发现作为沙地的效果却很差。只能说纯当练手了。

第二个,测试渲染完了,作为沙地的效果很好,但是沙地的效果是完全随机生成的,边缘不连续,接不上,没法做循环。

很明显遇到了非科班出身的人常遇到的困难。


寻求帮助

找熟人

我目前能联系的人当中,目前没有任何一个人是会使用 Blender 的。

可以说是真正意义上的 人脉匮乏,找不到 关系

中文社区

至于所谓的中文社区,QQ群,那都是吹逼饭的窝点。当年我3DS变砖时寻求帮助,顺着3ds.hack的路先加了中文区的QQ群,结果和想象中的一样,中文社区无非就是 吹牛逼 晒有钱 互相诋毁,一点帮助没获取到,还浪费了我不少时间。最后是把 3ds.hack 改成英文模式然后进了 Nintendo Homebrew 的 Discord 频道,我提出问题之后立刻就有人一步一步手把手帮忙解决问题,而且解决途中还发现我遇到的并不是很寻常的基础问题(不然怎么能卡住我)。

screenshot_on_b85m_by_flameshot_at_2024-02-16_23-41-58

screenshot_on_b85m_by_flameshot_at_2024-02-16_23-42-59

从提出问题到得到响应,用时1分钟。从提出问题到完全解决,用时43分钟。此时中文QQ群还一个屁都没崩出来。

本身被自己不懂的有一点难度的问题卡住就很难受了,网上却又存在着各种能力远比你低下的人在那不懂装懂,很可能导致你离解决方案反而越来越远。你看像 segmentfault.com 现在都是乌烟瘴气,都臭成什么样子了。

(光是当时3DS变砖后的解决办法,我当时没写博文出来,我都觉得奇怪)

总之,在中文区甭想找到什么求助。

英文社区

也不知道算是走运,还是巧合。

我的 Discord 频道列表里刚好有一个 TF2 相关的 Blender 社群。

screenshot_on_b85m_by_flameshot_at_2024-02-16_23-51-17

我还真就想不起来是为啥加了这个社群了,可能是因为看了 Pootis Engage ?

然而事情并没有像解决 3DS 变砖那样顺利。

我提出问题之后,首先跳出来的一帮人问我「为什么要做这个东西?」

哈?

然后我解释了一遍我需要做一个「可循环的沙漠公路绿幕」:其核心思想是,渲染一段以plane为底面的沙漠;沙漠上面有一个公路样式的几何图形,最好是 Cube 这种有高度的,看起来像是沙子上的路;视频结尾帧与视频开头帧相同,这样我可以无限循环这个视频,其最简单的办法是镜头最后的图形边界与开头的边界相同(其他方法亦可)。

然后得到了这么几个答案:

  • 随便渲染一下就好了,循环的时候咯噔一下,没人在意。
  • 渲染一个足够长的道路。
  • 你为什么要做绿幕,你直接在 Blender 你做完你的项目不就好了?

基本上,面对一个 目标极为明确的问题时 ,得到的答案是 不要做?

什么玩意……


继续摸索

阶段1

总之得到的帮助极为有限,多数人都是喷子状态。因为我的电脑配置是 i7-4790K + GTX1080 ,10年前的配置。虽然这个配置称霸了非常多的年份(10系显卡GTX1060霸榜一直到去年年末为止),但是放在 Blender 这种纯正的生产力场景下是很虚的。所以又冒出来一堆开喷硬件配置的,直到有人发现我在 Linux 环境下没有正确启用 Cycles 的硬件加速。

作为个生产力工具,整个社区竟然没几个人用 Linux 这一点也是够搞笑的。不过有了这个场景,我立刻就能分辨出哪些才是真正的有能力的 Blender 用户了。

搞了一宿,最后还是没搞定如何 循环 沙漠纹理。

这个时候终于有人提出新的方案了:不要用随机去渲染沙漠纹理,用内置的 海洋 去渲染。

我试了一下,海洋的渲染是基于一个固定模式的,所以其首尾的形状可以首尾相接。然后用颜色噪音把海洋渲染成土黄色。仔细一想其实海洋和沙漠是一回事,还挺有道理的。

然后这个是阶段成果。

[Blender] 在电脑前坐了一天,干到后半夜3点,就整出来2秒钟这玩意

问题出来了,因为我的目标是公路 正向/反向 的效果,所以「地平线」需要是垂直的,这就要求这个海洋要 足够宽 ,那么这个海洋的纹理就会被拉伸得,没啥效果,看着更像是 泥水 了。

此时已经是后半夜三点了。

然后我决定睡觉!

然后刚准备躺下的时候,脑子里冒出来了一个极其有意思的主意!导致我一晚上没睡好觉!

阶段2

首先,「海洋」的办法不是不行,就是实现起来可能要调教很久,效果也很一般,尤其是为了水平线而拉宽之后,效果肉眼可见的差劲。

毕竟我基础就已经很差了,就算形状搞定了,到纹理的大坑也得摔倒。

screenshot_vlcsnap-2024-01-30-19h05m30s064

screenshot_vlcsnap-2024-01-30-19h05m36s007

但是之前的方法我又搞不定边界连接的问题,无法做到循环。

然后我就想到了,或许改变一下前提。

我目前遇到的问题是,沙漠plane的边缘接不上。那假如,代表沙漠的图形没有边缘呢?

screenshot_on_b85m_by_flameshot_at_2024-02-17_01-10-41

Ta-Da!圆柱!

没错,这个就是兴奋得让我一宿没睡好觉的点子。

放弃平面的设计,做两个圆直径超大的圆柱体,一个代表沙漠,沿用旧的渲染方式;一个代表公路,嵌在沙漠里,只要位置恰当,看起来就像公路一样。

这方法甚至都不需要再移动镜头,只要让俩圆柱体旋转起来就行。

[Blender] 用了新的思路,编辑2小时,渲染1小时。

当然,缺点也是有的。圆柱体的直径必须足够大,不然看起来的确不像是平面,而是圆柱,露馅了。直径太大就导致周长特别大,那么转一圈的时长就特别长,渲染压力立刻就上来了。而且圆柱终究是圆柱,边缘怎么看都会觉得并不是地平面,而周长太大,大过头了 循环 的实用性就没了。

不过目前也就只能这样了。

阶段3

第一个大坑算是过了。

然后是给公路贴纹理。

这 TMD 作为一个 Blender 用户,应该是最简单的一个功能。

我TM不会啊!

screenshot_on_b85m_by_flameshot_at_2024-02-17_01-25-20

screenshot_on_b85m_by_flameshot_at_2024-02-17_01-25-37

我其实是要给一个圆柱的侧面贴纹理,而且还是要重复贴相同的纹理。我哪会这个! 你让我写个 CSS 还差不多!

screenshot_on_b85m_by_flameshot_at_2023-12-29_00-34-18

screenshot_on_b85m_by_flameshot_at_2023-12-29_00-49-32

总之这一块也卡了好久才搞定。

这种最基础的玩意,真的是,最好有个人能手把手教一下,把流程缕清晰了最好。

我这种瞎蒙出来的,完全不知道自己是怎么蒙出来,下次让我做一样的事情,我照旧做不出来,还是得瞎蒙。尤其是我也已经上岁数了,记忆力也差,蒙出来也想不起来过程,非常难受。

阶段4

至此坑就算是填了,把天空改成绿幕,然后速度和其他参数什么的,调整了一下就能出成果了。

然后初次渲染的时候,一遍渲染,一边尝试微调些细节。结果渲染出来的结果一塌糊涂。

我这才意识到 Blender 的渲染不是沙盒模式的,即它渲染的不是我在执行「渲染」瞬间的副本,而是正在编辑的正本。

也就是说 Blender 渲染的时候,最好完全不要动 Blender。切出去干别的,或者最好把电脑放那不要动。

这都2024年了怎么软件行业里还有这种玩意啊!


成果

随便剪了一下,做了两个示例,就发B站了。

[Blender] 可循环沙漠公路绿幕

我甚至懒得发布纯素材。

其实渲染有 Alpha 通道的视频也不是不行,但是指望我这个老电脑渲染 VP8/9 H.265 AV1 实在是太困难了。而且现在所有视频网站依旧以 H.264 为主流。

(其实主要还是我电脑带不动)

这玩意到这个阶段时,我把片段发到之前的 Discord 频道里,然后一堆人(就是之前那堆帮倒忙的)冒出来问我这这那那都是怎么实现的,尤其是对绿幕这块甚至都不知道怎么实现怎么使用。

好家伙, NLE+VFX 最基础的东西都不知道,竟然还试着在那指教我?

然后看到我在用开源的 Shotcut 作为 NLE 时竟然开喷我用不起高贵的 Adobe,这一看就是小孩没参加过工作啊,我在家用不起 Adobe 我大不了去公司用公司电脑上的 Adobe。

(原来国外社区跟国内也没什么两样,都 Toxic


使用例

除了上面那个视频带的 Senator 和 国际靶场 两个示例,我还用这个素材做了另一个视频。

Funky Town ⧸ Eurobeat Remix (Deamoz Eurobeat)

当然最初为了做这个绿幕素材的目的也没忘。

[星际争霸2] Go 大主教 Go Go !!!


结尾

这事就算了结了。

经验基本上是没累积到。我现在这个年龄,好多新知识,摸了不进脑子,除非天天摸。我现在开始担心自己以后会不会糊涂得像家里大人一样,到了岁数后连手机怎么接打电话都不会,但是刷短视频乱花钱比谁都猛。

国内国外社区都这么 Toxic 这事看来我是可以确定了,国外的月亮不比国内圆,但国外的屎一样臭。

The post 用 Blender 制作一个可循环沙漠公路绿幕 first appeared on 石樱灯笼博客.
❌
❌