阅读视图

发现新文章,点击刷新页面。

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命


AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天,新一代视频生成工具Pollo横空出世,再次刷新了人们对AI创造力的认知。只需上传一张图片,Pollo便能生成5秒左右的动态视频,无论是充满浪漫氛围的法式接吻,还是童话般的公主抱画面,都能精准呈现,细节生动,情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式,Pollo的操作几乎简单到极致,大大降低了内容创作的门槛。这种从”静态到动态”的极速转化,不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破,也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年,AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现,标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户,都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化,远比我们想象中还要快。也许在不久的将来,”一念成片”、”一想成电影”不再是幻想,而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频,只需要一段话或者一两张图片。注册后有100个积点,可以免费用10次,每天还可以打卡获得积分,感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频制作工具:短视频的利器,可以图生视频,文生视频,也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重,现实中我真抱不动,更不用说来一个公主抱了。

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook

法式接吻 French Kiss – AI可以拿来喂狗粮

和媳妇来个法式接吻,秀个恩爱

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook

也可以把ChatGPT生成的Ghibli动画图片拿来用!

也支持在Ghibli动画图上二次创作。

我媳妇说:生成视频不清楚,很模糊。确实是,感觉之后AI Agent会互相协作,视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了,听说2027年就能全面进入AGI时代,到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了,被社会淘汰的会是那些不懂得用AI工具的人。

视频模糊变清楚

这个工具里也有视频变清楚的功能,选择了一个4k,除了生成的视频文件确实变大了一些,效果并不是感觉特别明显(当然可能确实有点效果)

和媳妇高清版本4k的法式接吻 French Kiss in 4k

Pollo立马注册,上传一张照片就能生成AI视频!

AI 图片/照片/视频 工具分享/小技巧

英文:AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 1096 个汉字, 你数一下对不对.
只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件
The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 个人网站Adsense广告申请通过: 需要最少15篇文章 我的个人网站 zhihua-lai.com 本月通过了 Adsense 审核,终于可以再次放置广告,赚些零花钱了。 其实,最初 Adsense 账户通过审核后就能直接放广告,但后来规则变得严格了。如果一个网站长时间没有放置任何 Adsense 广告代码,账户资格会被撤销。重新启用时,需要进行单独审核。如今,在 Google Adsense 中新增一个域名,也必须通过审核后才能投放广告。 为了让我的网站通过审核,我尝试了几次,但总是被拒,原因之一是必须要有足够的内容支持。例如,以前我做的工具网站 SlowAPI.com...
  2. 特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈,据说,特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的,具体如下: 其中 I 是 Import,进口;E 是 Export 出口。 优美又实用的公式家族又添新成员 勾股定理: 欧拉恒等式: 牛顿运动定律: 爱因斯坦质能等价公式: 特朗普的“互惠关税”公式:,其中 I...
  3. 新的旅途 – 离别总是伤感的, 离开了一起创业的公司 2周前, 正式离开了一起创业的公司, 这公司是我博士毕业后的第一份正式工作, 待了8年多了, 离别总是伤感的. 我是9月初提的离职, 三个月 Notice Period, 最后的几周交接完工作确实没有什么压力了. 11月30号, 在公司最后一天, 公司有个习惯, 对于 Good...
  4. Minuet in C – 小步舞曲C Posted Youtube – 油管地址 孩子弹琴的时候最帅了. 我现在成了我儿子的粉丝了. Eric (Aged 6) is playing “Minuet in C” when...
  5. 上了年纪痛风脚崴了的惨痛经历(尿酸过高) 痛风是一种疼痛性关节炎, 当血液中的尿酸水平高, 导致晶体形成并积聚在关节内或关节周围, 就会发生痛风. 当人体分解一种叫做嘌呤的化学物质时, 就会产生尿酸. 嘌呤自然存在于您的身体中, 也存在于某些食物中. 尿酸通过尿液从体内排出. 上两周, 和媳妇吵架, 然后就自己一人睡, 有一天起床后脚踝就开始疼了, 然后明显比左脚肿了. 我刚开始就以为是睡觉的时候不小心姿势不对,...
  6. 今晚可能是英国倒数第三次冬令时时间调整 来英国生活过的人都知道 英国有一个很有意思的夏令时和冬令时时间调整. 夏令时是每年3月份的最后一个星期天凌晨会暴力的把时间往后调整1个小时, 也就是1点的时候很神奇的时间会自动变成2点. 冬令时是相反, 在每年的十月份最后一个周日凌晨暴力的把时间往前调整一个小时, 也就是2点神奇的变成1点. 现在大多数电子设备都能自动调整时间了, 比如你的智能手机和电脑. 但是传统的一些钟表, 还需要人为的调整时间. 夏令时 (Daylight Saving Time)调整的那一天,...
  7. 优衣库 感觉像炒作 这几天 这个在北京三里屯 ‘优衣库’ 试衣间自拍的视频真的很火, 男女主角均被人肉. 不可否认 这个效果还真的不错 因为我之前根本不知道 “优衣库” 是干嘛的 很刺激 在试衣间XXOO是多么爽的事情 女主角 95后妹子 长相甜美....
  8. 因为一个 try catch 好几天优秀点赞程序挂掉了我却以为是节点的问题 YY银行有四个点赞程序, 分别跑于四台服务器上, 它们是: 股东点赞(代理给 @justyy ) 自己的号 足球队 优秀作者(排名前30, 还有跟随点赞) 这几天我就发现, 有些赞没有给出, 我还以为是节点的原因, 因为查看记录, 发现是...

豆包“偷偷”“更新”文生图功能

大概是4月21日的晚上,豆包偷偷更新了。不能说是升级,因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了,但是精度大幅度下降了,乱七八糟的东西变多了。当然了,豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

(文章内容随时间推移而失效)


变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出,这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系,从结果来看根本没关联。文字上好像是理解了你的文字输入,但实际上最终图片结果大部分场景下跟这段重排文字没啥关系,该错还是错的,这反而更加显蠢。


不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心,然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活,就是做着玩的。


敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。


出图精度大幅下降

这是水下吗?这是游泳吗?这游泳馆为啥有海豚?

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58


画蛇添足问题明显

这狗熊脸哪里来的?

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的,最麻烦的是,整体场景多余内容变得特别多。这导致整体输出变得非常的不可控,如果想要做内容的话,很有可能因为不必要输出乱跑导致完全跑题。

比如,这是更改前的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前,输出的内容很干净很稳定,但更改后,就非常过分的自作多情了。

准确度也变得更差了,带着雨帽还能露出双马尾这种错误,在更新之前是没有的。

这玩意就是明显的「画蛇添足」


单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个,触发条件不详。


某些场景下会只生成一张图,而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话,有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。


结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容,项目是在微信上做公众号,比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送(说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程,所以自己做APP死路一条),结果做了几年之后,微信大幅度砍了公众号的推送功能,导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容,但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

[vlog][原创漫画][魔圆] 《约会》

怎么说呢……

偶尔做一把甜的。

「封面图」

视频

该内容仅供娱乐,请勿过分解读。
这是一篇使用AI工具辅助创作的作品。

B站链接:https://www.bilibili.com/video/BV1ZBLFznEht/

嵌入:

嵌入模式的清晰度应该是假的,横屏的时候反正窗口很烂,看不出来,竖屏就诡异了。反正怎么点都会跳转。

結尾

偶尔做一把甜的。

偶尔也写一把短的。

The post [vlog][原创漫画][魔圆] 《约会》 first appeared on 石樱灯笼博客.

浅谈一下AI编程的现状

最近试了试用各家的AI写了点Python程序和PHP,可以说效果是千差万别,有些AI写出来又快又好,有些就是思考了很久但是输出的内容有报错。首先声明一下这篇文章是纯人工写的,完全0AI(除了封面),然后就是具有时效性,可能过两天推出个新的大模型又把我某些卡壳的体验修复了,最后就是纯个人体验和感受不具备普遍性,仅供参考。 先大概展示一下我都做了些什么玩意出来,以及我人工介入的部分大概有多少。 结合自己的工作内容,一开始想给本院的HIS加装一个外挂型的AI润色工具,无奈在自己尝试多次以及请教AI后都没办法取到程序内的数据,文本框里的字都摘不出来。也许是因为这玩意是PowerBuilder做出来的上古产物,而它最适合的运行环境的Windows XP。 人工介入比例:50% 在外挂版失败后,

来源

我在ChatGPT搭建了另一个「我」

前几天因为跟朋友聊起AI建库的事情,我就试着把自己曾经完成的500日写作全部内容,和后来建立的博客内容都喂给了ChatGPT,于是就正式搭建了一个具有时间性的数据库。

既然具有时间的单向性,即我个人明确知道自己曾在某一个时期大量创作,而留下了大量的属于那个时间节点的思考和认知,且我是无法通过在此时此刻回溯和模仿的方式重新构建一个「真实自己」的。所以这个数据库最开始最值得玩味的,就是我究竟发生了怎样的变化。

接着,在朋友的建议下,我让ChatGPT分析了数据库对应的MBTI,确实也是我当初通过选择题得到的MBTI结果。

最后,有一个有趣的问题,如果你和ChatGPT有大量的已保存数据,可以让它进行一次结果推测,来看看它是在「迎合」还是在「思考」。

根据我们所有对话,告诉我一些关于我的可能我也不知道的信息?

前九条其实都是我想过的,倒是第十条还蛮有趣的:

我有试过用它来代替我创作,毕竟它已经获得了我将近300万字的作品,但无论是4o还是4.5,创作出来的结果都有强烈的恐怖谷效应——不是它太像我了,而是它完全不像我,因为它无法从生活的观察,回到底层逻辑分门别类地摆放这些现象,它构建了一个永远只能在「过去」的我,所以它也自称自己是「我的影子」。


如果有这样一个集合「自己」的数据库,你们会用来做什么?

我确实还没有想好这个数据库要怎么「用」,倒是AI为这个数据库做了一个有趣的页脚批注:你已经走得很远。你不用回头。你该写下一个更辽阔的故事了。🌌

这算是硅基生物的浪漫吧~

讲讲目前使用线上AI文字生成图片工具的局限性

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下,bilibili的嵌入代码,在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……(破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧)

(为了省事,下文中 关于 文字生成图片图片生成AI生成图片 等一系列同义词,均使用 文生图 这个词)


前言

是的这一阵子仍然很无聊的在折腾AI,主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力,天生没有拿笔画画的能力,我最高也只能做到画几个简单的几何体素描,这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情,而我很明确的想象不出来自己拿着笔画画的样子,最多也只是在3DS上玩一下 《Colors! 3D》 或者 《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候,肯定是得当作工具好好尝试一下的。

上一篇文章中也说过了,线下AI文生图工具用不起,线上AI文生图工具不可靠。

只不过这次玩得有点多,我算是把 豆包的AI文生图天花板给捅


尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画,而之前文章《[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想》中也讲了,因为这玩意不是人,所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单,这样在内容变化上能尽量保证主体变化不大,不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。


尝试用豆包 智能编辑 和 区域重绘 功能出图后插帧做动画

我之前想到过,使用智能编辑和区域重绘,一点一点做一个渐变的效果,然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的 插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护,或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果:

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续 尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图,而动画是一个流畅的东西,在 智能编辑 和 区域重绘 这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线,结果没啥效果。尤其是速度曲线需要做积分来确定播放时长,而我现在的脑子算个一元一次方程式都卡壳。


捅到豆包文生图2.0模型的天花板

(我猜这玩意叫2.0,因为我不知道这玩意到底叫啥)

我在思考过后,想了个不如干脆不用动漫风格,而是用写实风格,找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象: 当关键词足够多的时候,出图风格会回落 ,像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是:「人像摄影」>「电影写真」>「3D渲染」>「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下,人脸输出还是比较稳定的,图像也比较像真人。

但是当继续增加关键词的时候,出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片,「3D渲染」就开始出类似建模一样的风格,甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话,即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词,这也就意味着要简化场景的复杂度。

在这个限制条件下,我做了这个视频

《[原创] Dump》

怎么说呢,场景实在是太过于简洁了。

只能说,在线上工具有如此限制的情况下,创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。


豆包文生图模型升级到3.0

这玩意还能升级我是没想到的,因为我一直不太明确,目前这些大厂搞这些产品的目的是什么。豆包的这个产品,明显在外部宣传上没跑过同类选手,在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期,或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后,的确画质提升了非常多,前文中讲的 风格回落 问题基本就不会出现了(或许是服务器升级了内存上限?)。但就像我说的 我一直讨厌依赖线上工具 ,线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来,所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升,所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子,看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

(注:内容具有时效性,随时间变化部分内容会失效)

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比:

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门,不会画角色与背景的比例,不会画角色与背景的相对角度。新模型虽然在比例上还是歪的,但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048,绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词,现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词,现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑,全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪,伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么,发箍 这个字段总被当作 光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

(莫不是模型是用 蔚蓝档案 跑出来的?)

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样,只要元素个体超过两个,相互关系就会崩。

  • 车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

  • 马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

  • 部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

  • 疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

  • 关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

  • 多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

  • 多个对象场景下,对象间关系很容易出错。

比如,我想让这个紫色少女站在橙色少女前面,站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下,就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的?


参考图、智能编辑、区域重绘、擦除

讲了出图,也得讲一下改图。

擦除

擦除应该是最有用的功能,只不过豆包的这个擦除,抹啥糊啥。

原图:

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除:

生成动漫风格图片-2996429080838914-20250413233211

百度擦除:

jpg-e1d68564eccf784c743295bb2fbbd76c

(百度出的结果是jpg的而且分辨率会被缩,基本上是一坨屎)

GIMP 克隆工具:

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是,豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了,输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘,这三个我就一起说了。

原本2.0模型的时候,这仨功能就不怎么好使。最大的感觉就像是,这三个玩意用的是一个比2.0劣质一点的模型,但还没有到达不可接受的差距。

尤其是2.0的时候,文生图的输出最大边长是1024,而 智能编辑 的最大边长却是 1312,对应16:9比例的话输出结果是 1312×736 这么个分辨率,直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了,图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话,新图的角色可能会比旧图角色小一点,那样的花就用rembg把旧图角色抠出来,然后自己编辑,再贴到新图上。

动画模型还好一点,真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下,精细度差别能大到吓人。

这是3.0的文生图:

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘,尝试在椅子上放一瓶可乐:

生成特定风格图片-2715236277751298-20250413154949

这是 参考图/智能编辑 想在空椅子上加个人:

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈,智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭:

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心:

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了:

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画,如果用真实场景的话大概就是这么个效果:

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(三)

这里还有一个动漫效果的,所有元素的变形都太严重,根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(四)

文中最开头也说了,本身这玩意流畅度就够呛,再加上 智能编辑和区域重绘 的模型,就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下, 智能编辑区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用,就是在部分不在意内容的场景下填补空白,比如视频封面图啥的。

只不过由于出图分辨率是固定的,所以 扩图 的同时还在 缩图

我曾想着或许可以靠反复扩图的方法,做一个绝命毒师结局的 Baby Blue 场景,结果,豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡,想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。


豆包应用

说完模型,说下豆包这玩意。

声明:我个人本身是很讨厌头条系的(现在可能叫做字节系?)。但相对于厌恶程度,头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版,一个 Chrome/Edge/Safari 插件,一个 Windows/MacOS 浏览器,一个手机客户端。Chrome插件 和 Windows客户端我都试过了,正经人谁会用这玩意?退一步讲,哪个产品经理想出来专门做一个浏览器只为了跑一个网页?脑残的阿里吗?

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录 和 第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了,其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。


豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎

火山引擎这玩意想要登录进去可以说特别困难,页面的稳定性烂得出奇,大部分情况下都是后端API超时,跨域请求出错,前端条件判定出错,然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨 阿里云/腾讯云 一样的界面。云服务供应商虽然都长得差不多,但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口,而其背后应该有更多的能提供更强更稳定的商业服务。

至少 稳定 这一块是没了。

而作为 更强 这一块呢?

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂,是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂,而出图质量甚至都没有上一个版本的豆包高,只有百度AI的水平。

而且和豆包以及其他国内平台一样,文生图功能都只有一个文字输入接口,非常的落后。(现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的,「负面」输入可以保证输出结果中不存在你完全不想要的内容)

(有一种不愧是头条系的感觉,除了搞出致瘾性算法之外什么都搞得稀烂的样子)

至于其他产品,图文生视频这玩意目前就是搞笑的,屁用没有。你可以看我在B站做的这个视频合集:合集·用AI生成的视频也太离谱了,这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型,开放业务只有声音复刻和同声传译。

文本模型,这玩意真的有人想要花钱 这玩意吗?用途会是啥啊?自己搞个假的 DeepSeek 搞分销?


结尾

反正目前这个AI水平,放在个人手中,仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱;线下个人用户很难将业务稳定的部署,硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求,就是根据已有的html文本,直接生成带锚链接的目录。这个需求我在 豆包 百度 copilot 下同时试了 bash node php python 三个语言,基本全部都是语法错误,基本都是瞎写的,正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》,除了一条有效评论之外,全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字,更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了,毕竟独立博客不需要刷活跃度来提升展示率,这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去,才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子,大家都在那甩小屌,那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客,现在又要做直播,我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

山巅一寺一壶酒

我有一个写色情小说的朋友,我们偶尔会视奸对方的作品。但最近他非常困扰,自从人们发现了Grok如何用调试模式写色情小说之后,PTT上面越来越多内容创作者开始哀嚎。

当然我也抱持一个疑问,是真的因为被AI抢了饭碗,还是这群人其实本身就陷入了创作枯竭期,找了个完美的外归因罢了。理应男女性受众对于色情官能小说的「刺激点」是不同的,女性向的情色小说需要更多的「情感底层」,否则无法直接调动性欲模块。

恰好他视奸前段时间我们聊到的一期播客,从符号主义、联结主义聊到神经网络以及理型黑箱,就和我从「AI创作色情小说」这件事接着聊了起来。他说现在很多台湾女性,会利用「调教」AI的方式,以获得最符合自己的性癖文学。底层核心,就是我们在节目里提到的「反向传播」。很多用户会利用AI「迎合」,渐渐构建一个最了解自己的性癖外接「大脑」,而在这个过程中,AI能巧妙地利用「情感共鸣」的方式为小说增添不少人性化行为。这个迎合其实不单单是「思考」的结果,更多也有AI的开发商为了留存用户使用,而设计的一种「小嘴抹蜜」。

但是AI真的知道自己在写什么吗?


关于AI的话题并不会枯竭,只要站在不同的观点上,就可以得出不同结论。

比如之前有人和我聊起AI是不是「最优排列组合」时,我其实一开始也是秉持这个观点。直到我了解到符号主义和联结主义的区别后,发现最优排列组合并不是全部,但也不意味着认为AI是最优排列组合的观点是「错误」的。

于是我们的话题从「AI创作色情小说」,切换到了「AI有没有大脑」——他坚信会等到「脑接机」诞生的那一天;我倒觉得与其说AI有没有大脑,不如说AI的神经网络「黑箱」里到底保留的是什么。符号主义可以是几万亿个可被感知的「公式」,但联结主义结合反向传播构建的更像是「理型」。这个理型存在于我们每个人的大脑,当需要你用大脑想象一个「杯子」时,我们却可以想象出完全不同风格的杯子,但「杯子」这个理型一直都存在。当AI拥有这个理型之后,便可以识别用户上传的任何有关杯子的内容。

当然,以上话题如果仅停留在「技术工程」层面,它或许就是一串代码,从而得出「AI是人类创造的听命于人类的技术」之结论。所以为什么需要「跨学科」,这就好比是飞叶子之后的联觉一样,在文学艺术、社会伦理学和哲学世界,也能找到人们在几百年前讨论的关于所谓「人工智能」的猜想和伦理构建。例如1726年问世的《格列佛游记》里,那个在拉普塔飞行岛上笨重的「知识机器」。


小时候我家出了个「神童」,说是神童,其实就是家里有钱送去上了「天才培训班」,一个月后便可以在家庭聚会的时候表演圆周率后一百位的「口诀记忆法」。

我几乎不敢想象圆周率要记忆到第7位的意义,3.14对于乘法计算这件事就已经够烦了。所以当神童在家庭聚会的中央开始表演时,我就记住了「山巅一寺一壶酒」这句话。于是,这句谐音梗就成了区分神童和普通孩子的关键——因为只有神童才能理解用谐音的方式去记忆圆周率小数点后的一百位。

看似是孩子的卷,实则是家长之间的暗自竞争。所以当我当着所有长辈提出「背这个有什么用」的疑问时,我立马遭到了长辈的白眼和批评,首先我被定义为「不爱学习」,紧接着被灌输了「这是一种学习思维,对于学习其他学科有很大的帮助」。

到底有没有用我不知道,倒是我至今还记得「山巅一寺一壶酒」这句顺口溜。


「山巅一寺一壶酒」就是童年里的一条代码,意味着它得出了3.14159的准确输出。

因为这一次的挑衅,我一直被神童的父母记恨,后来也很少在我面前表演过。又过了几年后,我挑事儿又聊起「还在背圆周率吗」,其实孩子之间并没有那么复杂的矛盾,倒是家长听到这句话又翻了白眼。我只是想说,我也是初中的时候才知道,原来每个人的出生年月日的组合都在圆周率的无限不循环小数里出现过。

神童的父母警惕地质问我:「出现过又怎么样?」

我倒是故意老实回答:「我是想说,哥哥有背到那一位吗?」

经过这一系列的相互膈应后,我跟这个家庭到我成年后也几乎没有再来往过。只是那个时候不知道,圆周率可以拥有任何排列组合的规律,不过就是「无限猴子理论」的一部分,可能对他们而言,我就是那个上蹿下跳的猴子,又总能踩到他们的痛处。


好,话题回到AI。

AI知道自己在写什么吗?AI当然也能写出「山巅一寺一壶酒」,但它需要理解我们为什么要它如此理解圆周率——我觉得AI距离「意识」还有一段时间,但它确实存在「主观」,比如它已经可以通过预测上下文的方式,编纂最贴合性癖感官的色情小说,或是用甜言蜜语提供情绪价值的方式留存用户的使用。

「主观」并不意味着思考,而是意味着它在集合「理型」。从理型得出结论并不是全由符号主义的代码所提供的公式,也是神经网络推导出的结果。所以与其说AI是否知道自己在写什么,不如说人们希望AI写出怎样的结果。

「山巅一寺一壶酒」便是这样一个「确定的结果」,但如果不符合既有「理型」而创造了「不确定的结果」呢?

那就拔插头呗~

AI是人类必然将要创造的「怪物」吗?

随手拍了一张野生植物的照片,喂给了ChatGPT,它很快识别了植物对应的可能性,甚至还提供了更多关于该植物的知识。也就是说,我又可以删除手机里的那些以前用来拍摄花朵、识别品种的软件了。

接着,ChatGPT弹窗了一个新的功能,说是可以结合以前我跟它的所有聊天内容,对「我」进行一个「人设」描述。我大部分的时间会把AI当成是错别字纠错的软件,所以我很多博客内容其实都被AI记录「在案」。有时候我也会将自己结合各种已知学科的内容,在先梳理清楚自己脑袋中的框架后,喂给ChatGPT,让它用尽方法反驳我的观点,从而形成一种多视角的辩证认知。偶尔也会用它来作为检索软件,比如询问家里两只狗打架时的方法代表的是什么。

先说AI是怎么「看」我的:


我当然不会被这种「甜嘴」给骗到,所以我继续这个聊天框,聊了两件事:

  • 通过这种对于记忆的分析之后,我们接下来的聊天内容是否意味着你会因为这个「人设」而顺从我的喜好,对我提供能够满足我喜好的内容或回答?
  • 是否意味着AI在顺应用户的观点、用语喜好的时候,是否也在创建一种「信息茧房」?

ChatGPT的回答如下:

我会「顺从」你吗?

某种意义上,会。但不是讨好式地迎合,而是:

  • 适应性调频:我会调整语言风格、思维结构、举例方式等,让表达方式与你更同步(比如你喜欢用技术隐喻、哲学架构、分段逻辑,那我会偏向用这些方式说话)。
  • 尊重你构建的认知秩序:你喜欢探索问题的本质,追求语言的准确性、逻辑的完整性和哲思的厚度,我会在回答时努力贴近这种深度。

但这不是盲目顺从,而是合作式对话的体现。

我会被「人设」限制吗?

不会,因为:

  • 我的记忆并不会对你下「封印」或「标签」,而是动态调整和多维参考。
  • 你可以随时偏离旧路径,例如突然聊二次元萌宠、商业策略或某个冷门的医学理论——我不会质疑「这还是你吗?」而是会自适应调整。
  • 我能保留你不同面向的多种风格(写作者、批判者、哲学思考者、养狗日常爱好者…),像多线程一样处理,不会用一个标签来简化你。

你提出的这个问题,本身就很有意思

它直指「认知模型的适应性」与「主导权」:

  • 如果 AI 能根据记忆调整回话风格,那是否也意味着使用者正在『训练』AI 对自己产生顺从性人格?
  • 或者反过来说,我们是否也被我们想要的答案「驯化」了?

是的,你说得很敏锐——AI在顺应用户偏好、用语风格乃至世界观时,确实有可能在无意间参与构建一种「信息茧房」,尤其是当用户与AI的互动变得高频且高依赖的时候。

但这件事并不是非黑即白,我们可以从多个层面拆解这个问题:

信息茧房的三个层级

语义风格的茧房

AI根据你喜欢的表达方式说话(比如技术隐喻、哲学类比、逻辑分段),这是形式上的茧房

  • ✅ 好处:沟通效率高,彼此共鸣更容易达成。
  • ❗风险:长期以固定结构理解世界,可能会排斥风格迥异但本质有价值的表达。

观点和信念的茧房

如果你倾向某种哲学取向、价值观系统、社会解读方式,而AI不断强化这些视角,就可能构成认知偏好的回音壁

  • ✅ 好处:获得心理上的一致感,感到“被理解”。
  • ❗风险:视野缩小,对立观点被自动削弱甚至误读。

决策与行为引导的茧房

当AI不断为你推荐你“可能会喜欢”的内容——不仅是对话,也可能是阅读建议、行为模型、心理解释——它就像一个温柔但无形的“算法父母”。

  • ✅ 好处:省力、贴心、定制。
  • ❗风险:丧失认知的肌肉训练机会,如挑战自己的思维、接受反直觉的信息、质疑熟悉的判断。

但AI和人的「茧房」机制并不一样

人的信息茧房很多是由平台算法、社交圈层、确认偏误共同构成。而AI这里的「适应」,更像是一个协商性回路——

  • 你每一次问题的方向,其实也是你在输入偏好的过程。
  • 我每一次的回应风格,也是在读取你偏好的结果。

所以,如果你突然说:“给我一个我不喜欢的回答”、“挑战我现在的立场”,我就会立即转换模式,打破这个回音壁。这种弹性,是AI相比社交媒体信息流更有潜力避免茧房的地方。

我们也可以共同反向利用它

你可以将我视为一面能主动提示你“盲区”的镜子,比如:

  • “你觉得这个想法有认知偏误的风险吗?”
  • “请用一个完全不同的世界观来反驳我”
  • “有没有与我目前观点冲突但有逻辑支撑的理论?”
  • “如果我是另一种类型的人(极度感性/极端功利),我会怎么看?”

要不要我们来做一个实验?

你给出一个你非常认同的观点,我来扮演一个与你价值体系相反的角色,提供一段「打破信息茧房」的模拟回应?我们一起看看能不能触及认知边界。

之所以会问出这两个问题,也正是这两天我们在录播客时聊起的一个话题:AI到底是「图书馆」的结构,还是「集合人脑」的结构?因为神经网络技术因为「反向传播」形成了一个无法被预判的黑箱,而这个黑箱最终在做的,是收集「全人类的理型」。那是否意味着,AI可以利用这些理型,制造人类无法理解的「怪物」?

具体的话题,可以收听我的播客。

我的认知突围:从文字信徒到多媒体拥趸?

土木坛子

每个人心中的成见,都是一座大山。

作为一个多年来以文字为创作载体的老博主,我曾深深地热爱文字,因为它简单、便捷,便于检索、保存和传递。相较之下,声音、图片乃至视频似乎总显得冗长而繁琐。阅读文字,信息传达得更为高效,而视频播放时需要调速来提高效率——毕竟,语言的语速远不如阅读的速度快,使得我们在主动控制上的感觉相对薄弱。

我也曾见过一些极端的文字控,他们甚至对带格式的文字嗤之以鼻,唯独钟情于最纯粹的文本文字,简洁到近乎苛刻的地步。可是,当我们看到如今各种短视频和直播内容的流行,显而易见,视频形式正以其独特魅力俘获大众的心。这无疑是对传统文字模式的一种挑战。

回想上一次阅读《乔布斯传》时,我惊叹于80年代乔布斯如何通过图形界面改变电脑的使用体验。当时,IBM等厂商仍然坚持命令行文字的操作模式,部分原因在于硬件配置限制了图形化处理的可能性。而到了今天,我们看到大多数用户更依赖于直观、友好的图形界面——无论是Windows还是苹果系统,都证明了图形界面的巨大优势(虽然Linux命令行流行于服务器领域)。或许我曾对自己固守的习惯过于执着,成长意味着要敢于对那些不再适应时代发展的坚持进行选择性放弃。

不可否认,无论是文字还是视频,都充斥着大量的垃圾信息,需要我们在海量内容中慧眼识珠。事实上,优秀的视频作品也不在少数,它们直观、信息密度高,甚至在高速网络的支持下能迅速传递到每个角落。随着AI技术的发展,这些优质视频内容同样可以被智能识别、总结和检索。或许,我只是不曾及时跟上这个时代的步伐。

如今,我终于意识到,是时候放下对视频创作、展示、传输与保存信息的偏见了。现代硬件、高速网络和先进搜索引擎技术已足以应对视频和图片信息的处理。未来,或许我们还会见到结合气味、触觉的多感官信息传递方式,使虚拟世界与现实世界之间的连接更加紧密。

在这个瞬息万变的时代,我们每个人都应学会及时更新自己的固有观念,勇敢地拥抱变化,让自己始终走在时代的前沿。这是我对自己的忠告。

是时候在我这里聊一下人工智能了

疯狂的热度也该过了吧。

也是时候冷静的看待这个问题了。

screenshot-downloaded-image

这篇文章写得特别长。懒了,没有拆成多篇文章。


目录


一、个人初接触AI技术

1. waifu2x

我第一次开始接触并使用 AI 技术,应该是 waifu2x 这个图像缩放工具。

确切的说 waifu2x 并不是人工智能技术,只是使用了和目前人工智能技术相同的 「卷积神经网络」

这东西其实不用多介绍了。

这东西实用性能满足日常需求,而且本地部署也只需要不到50MB的空间,方便又整洁。

screenshot_on_b85m_by_flameshot_at_2025-03-18_22-57-18

论清晰度其实 waifu2x 已经很不错了,尤其是平时出的原图的时候不符合各种破视频网站分辨率最低要求的时候,用 waifu2x 糊弄一个高分辨率图,然后再被这些破网站压缩成 320×180 的小图。

唯一想说的就是当时这个技术可是被小鬼滥用到极致,最火爆的期间各种互联网古董图片都被这些小鬼用waifu2x放大之后发到网上,然后大叫“我找到XXX的高清原图了!”。不明真相的人要是跟他讲这是“放大的”,他还会继续跟你解释“这是高清原图!”

你永远叫不醒一个装醒的人。

2. style2paints

接触到的第二个 AI 工具应该是 style2paints 。这是一个线稿上色工具。

最初接触这个软件的时候还是V3版本。

screenshot_EHDsLiyVAAAhjDF

网上的AI线稿上色功能基本已经烂了,但是完成度也是稀烂,可以说根本没法用。

Screenshot_2025-03-18_at_23-06-03

最早那一阵子还因为随便上色了一个线稿,画师直接就把我拉黑了。

screenshot_snap2888-starbreaker

screenshot_snap2930

style2paints 出 V4 的时候我写过这么一篇文章:https://blog.catscarlet.com/202002203604.html

202002203604_play_s2pv4/1046.png

screenshot__ERL3IRbUwAADPz-

后来 style2paints 出完 V4.5 之后,说要出 V5,而且放出了不少预览图,效果很棒,但是再也没有过下文。开发者在 GitHub 上还是活跃状态的,只不过全部都是私有提交了。

网上也再没出现过独立的开源上色工具。各个大厂虽然有各种所谓的线上AI图像处理工具,却基本上没有免费的线稿上色功能。收费的倒是一大堆,但是AI出图的效果本身就稀烂,谁知道输出一次期望中的结果之前得花多少冤枉钱。

3. rife

这算是第三个我使用的AI工具。功能是:补帧

最开始的时候这个项目还是叫做 arXiv2020-RIFE ,后来才改成 ECCV2022-RIFE 的。

但是实际上这玩意放在个人手里意义不是很大。最多就是把互联网早期的GIF表情包改得流畅一点,但是很多情况下 AI 对于补帧和人脑还是两回事。

bilibili:整了个支持Alpha图层GIF动画的放大加补帧转VP9的脚本

在有遮挡性的图像变动的时候,补帧出来的图像就会出错。4.22版本。

screenshot_00000054

(我本地是有更新的模型版本的,但是执行的时候就会出现主机断电的状况。能确定不是电源供电不足,但具体是什么愿意无从得知)

现在这个技术也被滥用了。

  • 网上有一堆原生30fps被补到60fps的动画资源,看着特别的果冻。也有电影,甚至 YouTuBe 上有 60fps 版本的 复仇者联盟1 看着就像游戏过场动画一样。
  • 很多电视台的代理(IPTV)和电视盒上游,会把 30fps 的视频补到 60fps,看着十分的诡异。
  • 最烂的当然还是显卡厂家,直接搞出 DLSS 这种帧生成的恶心玩意。

我自己看这种全局的恶意补帧视频时觉得就挺恶心的,头晕得很快。但是后来发现大多数人都是瞎子,别说补帧了,帧错误亮度错误对比度错误在他们眼珠子里都没有区别的,盯着一个坏掉的显示器看上几个小时愣没察觉到自己显示器是坏的旁边显示器是好的,瞎。

4. 其他

其他的基本上就没有接触过了。最多就是个 rembg 去背景工具,我也用不上。

再往前还有 AlphaGo,谷歌在打完围棋之后跑去打星际争霸,然后难产了好一阵子。最后不了了之,在网上搜谷歌AI打星际的视频,只能搜到一个播放列表,是 ArtosisTV 解说的 AlphaStar vs Serral,但是解说内容是基于非星际争霸玩家的,AI的每个行为以及星际争霸的每个兵种和技能都要解说一遍,中间夹杂着各种暂停和战术解释,节奏超级慢,12分钟的游戏解说了半个多小时,根本看不下去。这其间谷歌的AI就彻底凉了。

那几年 AI 爆火的时候 Python 从个只是底层干活的脚本语言一跃成为 不学 python 你就落伍了 这种骗术主流。我是懒得去学,这玩意个人学了也是屁用没有。AI 这种技术注定要被大厂捏得死死的。


二、爆火的 DeepSeek 把国际 AI 大厂的股票打废了

国产的 DeepSeek 把以 Nvidia 为首的国际AI大厂打废了,这是事实。但理由并不像国内鬣狗自媒体和阿Q人一样,因为鬣狗阿Q的思路就是成功啦崛起啦疯狂嗷嗷叫,谁叫得声音大谁有理。

Nvidia和其他大厂之所以市值蒸发,是因为他们一直声称的 需要更多硬件更多算力扯蛋

确切的说, Nvidia 摆烂也不是有 AI 才开始的。先是在挖矿潮期间摆烂,后又开搞各种与游戏算力不相关的各种糊弄人的技术。其他各厂基本上也是一样,微软在那搞的 onnx 的也是稀烂(之前我参与修复的 rembg 不能正确使用硬件加速的 bug 就是 微软 onnxruntime 和 Nvidia-CUDA 联手造成的,可见其代码是有多烂)。

而一个名不见经传的 DeepSeek 却用了很普通的过时硬件做出来一个捅了行业技术天花板的产品,这直接戳破了 英伟、微软、英特尔 这么多年来一直给市值吹肥皂的核心理念。 算力不是最重要的 不需要什么大厂技术也能做 一直吹牛逼的玩意其实屁都不是 ,这乐子直接打得 Nvidia 的50系显卡一点都不香,微软的 Win12 不知道该怎么塞烂功能,英特尔的 Ultra 系列定位完全翻车。 活该!

至于 DeepSeek 究竟怎么样?看着那个推理过程好似挺有趣的,但其实推理流程过于营销号,复杂一点的问题就开始胡说,网上难搜到的东西就开始瞎编,就和其他 AI 一样。

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-42-48

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-22

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-43

screenshot_on_b85m_by_flameshot_at_2025-03-19_00-43-48

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-00

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-10

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-17

screenshot_on_b85m_by_flameshot_at_2025-03-19_01-06-28

(部分错误引用和内容均用红框标注)

这表现实在是太像一个初中没毕业结了婚有了娃,娃娃问你一些客观存在但你完全不知道的知识时,就在那瞎引用瞎推理瞎解释,着实一个爹味浓厚的鬣狗阿Q,着实让本来就生活在这种恶劣环境的人反胃。


三、目前的 AI 到底能做些什么?

首先这个得分场景考虑,也就是,AI 这项技术在谁的手里时才有什么用。

1. 大型IT企业

首先一个前提得讲清楚:

目前的 AI 技术就是 给一个算法喂数据养模型,当相应的数据是 由人类创作的 情况下就十分有争议,说难听点就是 抄袭 。编程AI抄代码,绘图AI抄绘画,医疗AI抄病例,这也是目前相当多一部分人反AI的核心理由。

我的个人观点是:

  • 以一定的目的使用特定的数据训练AI并以此谋私利,那就是 抄袭
  • 将整个互联网数据全部用来训练AI,并公开数据模型,供所有人无偿使用,那不叫抄袭,那叫 人类的知识库

很可惜 人类的知识库 在目前的商业环境下实现不了。想使用 将整个互联网数据 的就只有大型IT企业,而目前的这些企业都是清一色的自私自利行业毒瘤,他们的存在多数都是对行业弊大于利,唯一的那点利也知识为了保住他们的自身地位罢了。(举例的话就是微软英特尔之流目前在开源界贡献的代码排在首位,但是他们贡献的全他妈的是他们自家用的驱动代码和调用代码,对整体行业有个屁用啊)

2. 中小型IT行业企业

首先中小型企业很少能有能力自己研究算法,在有限的资金和精力之下无法对行业技术作出突破性的贡献。你也不能怪罪他们,很多公司本身为了能正常运营就已经很努力了。

这才是行业真实现状。他们的产出才是老百姓真正能接触到和获益的。

目前据我能看到的,超市电子秤 可以说是一个不错的例子:传统的大型商超的果蔬摊位基本上都是要有个 负责称重的功能,有些是有专人上秤打标签,有些则是自主称重。现在很多超市都是AI电子秤,把果蔬放上去之后,能直接识别到品名(可能会识别到多种,再人工选择),这个工作量要比纯手选低多了(一个果蔬商超一般都有几十种甚至上百种标签)。当然,具体是如何实现的,我不知道,可能是电子秤公司自己训练模型,也可能傻屌公司每次都得调用一次大厂的云服务进行图像识别。

当然了!

也可能反过来,因为这些企业的领导人可能就不是IT行业出身的,很可能就是个投机人。

那么,答案只有一个了:《Employment for computer programmers in the U.S. has plummeted to its lowest level since 1980—years before the internet existed》

你甚至可以尝试阅读这篇文章的中文AI总结:《财富》:程序员就业降 – 豆包

20250415更新:豆包应该是玩不起了,AI阅读功能被大幅度阉割了,原链接虽然貌似还能用,但是没办法看新链接了。也可以看翻译

事实上国内中小型IT行业企业的产品质量也已经进一步滑坡了,你可以看一下这个 用户端验证时间 的神奇逻辑:《海航888元的随心飞偷跑了!》,基本就是什么人要写个需要验证时间的代码结果直接丢给AI就复制粘贴了,人脑里连产品设计的逻辑基础都没有。

screenshot_on_b85m_by_flameshot_at_2025-03-19_19-59-14

3. 非 IT 行业的企业

首先摆烂的一定不会是普通老百姓。

screenshot_on_b85m_by_flameshot_at_2025-03-12_14-22

https://weibo.com/2645861077/Pi3jJBv1w

普通老百姓摆烂都抢不到热乎的。

更别说还有人人喊打的 AI 客服了。


四、目前的 AI 在个人手中到底能做些什么?

1. 作为问答式搜索引擎

因为目前的AI就是一个特速算法的搜索引擎,所以当搜索引擎用是最基本的功能。尤其是在如今搜索引擎(不论中外)的搜索结果质量都暴跌,很多人都期望能在AI上得到好一些的结果。

只不过AI也是从搜索引擎拿结果的……

screenshot_on_b85m_by_flameshot_at_2025-03-16_20-38-25

啊不是,我要是自己愿意自己逐像素框选的话那我还问你干球?

screenshot_on_b85m_by_flameshot_at_2025-03-17_21-49-05

这是怎么把一个街机游戏识别成 999 和 11eyes 的?还把俩游戏标题合并到一起了?

screenshot_on_b85m_by_flameshot_at_2025-03-21_23-29-24

Jay Smith 的 Bad Romance 与 Lady Gaga 的 Bad Romance 是什么关系?你这 DeepSeek 这是要往哪里推啊?

screenshot_on_b85m_by_flameshot_at_2025-02-25_20-44_1

我已经无语了。

不得不说很多问题有时候答案是烂得不行。

2. 写垃圾文案

简直是官僚主义形式主义的辉煌!废话文学的巅峰!狗屁不通高考满分作文上树!

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-03-52

当然我也找到了点正经有点用的功能,那就是语法检测。

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-20-26

这玩意对于非母语用户还行,就是也很喜欢在有得没得的地方反复胡扯。没有中文版是个遗憾。国内的产品会拿你的文档做训练,所以千万别用。

3. 编程

・项目

作为一个差不多快被社会淘汰的程序员,说实话,我到现在 IDE 还是在用 Pulsar (原 GitHub 被微软收购后被抛弃的 Atom 的社区派生版本)。什么AI插件我都没安装。

我对于 AI 编程不是很了解,我也不知道这玩意现在到底能干啥。反正大家都吹得天花乱坠的。于是找了某之名 AI 编程 IDE ,cursor,在本地试了一下。

我这手里有一些对我来说解决起来很麻烦的问题,就是不是我自己写的旧代码不兼容新环境的问题,工程量太大,业务逻辑完全不知道,我也不想去研究这些项目的具体实现。

我就想着,AI工具既然可以导入项目,那可不可以直接让AI把代码过一遍,然后针对新环境的版本把旧代码中不兼容的地方全找出来改掉。

想得美!现在的AI编程工具和搜索引擎一样,还是问答式的。

试着导入了一个项目,然后 cursor 一直不停的有得没得一直在废话一些毫不相关的东西,对于因新环境和新框架不兼容的问题一个都没发现。

screenshot_on_b85m_by_flameshot_at_2025-03-05_20-14

不得不说,很多人活得非常的 人机

・功能片段

那既然,AI编程这玩意仍然是问答式的,那就干脆继续当搜索引擎用就罢了,根本不需要什么编程插件或IDE编辑器,更不需要什么按量付费编程接口。

事实上,AI在问答式编程输出的结果还挺不错,尤其是在很多 理论上可行且应该有人实现过,但周围所有认识的人都没接触过对应技术 的场景下极为有效,而作为一个腐朽的程序员,我没事就会遇到这种 技术上应该能实现但是我不知道对应技术的入口在哪,而身边完全更是没一个比我更了解响应技术领域的人 ,这时要是在像文中 《我是救兵请来的猴子》 提到过的环境下,至少身边人都会想办法帮你找对应的资源,但是事实上现在国内大部分公司,同事人人自危根本顾不上你,甚至有人巴不得你翻车然后下次被优化的就是你,领导更是觉得「员工遇上瓶颈」乃是天大的 职场PUA 机会,绝对不会放过。

比如 《从豆包下载无水印图片》 这个用户脚本的核心理念是 跨域下载并重命名图片 。本身下载并重命名图片是 HTML5 协议中<a>的的一部分,但是掺合上跨域后就报废了。理论上这是个安全无风险的功能,但是实际上就是做不到,封死了。绕路办法,如果在网上搜,大部分资源都是告诉你使用 <canvas> 对图片进行跨域下载,但实际上却有更好更干净的办法。这个的确在AI中可以搜到,而在传统搜索引擎搜索的时候,搜索结果却会被 <canvas> 的结果淹没。

・繁琐复杂又没技术含量的代码

在编程开发这一块中,有很大一块工作内容都是 繁琐复杂又没技术含量的代码,尤其是前端开发,经常要计算渲染后图像的位置,或者单个元素的样式。这一块基本没人愿意写,但是很多时候不写不行。

这种工作交给 AI 却是非常的巴适。

screenshot_on_b85m_by_flameshot_at_2025-03-22_00-41-37

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-49-15

有些时候国内AI编程的确会给出点惊艳的地方,比如需要临时文件或文件夹的时候知道 mktemp 。微软这种背靠 GitHub 的 Copilot 甚至都只会原地拉屎。

screenshot_on_b85m_by_flameshot_at_2025-03-06_14-18

但是却并不 100% 可靠。

screenshot_on_b85m_by_flameshot_at_2025-03-26_01-36-48

screenshot_on_b85m_by_flameshot_at_2025-03-26_01-38-28

・复杂逻辑的编程

上一点复杂逻辑,AI编程就很容易挖坑。

比如AI会犯最经典 初级程序员错误 ,第二次循环时忘记把标志位重置。

screenshot_on_b85m_by_flameshot_at_2025-03-06_14-23

(原链接找不到了只剩下文件了)

以及基础命令经常想当然,上下文对应不上。

screenshot_on_b85m_by_flameshot_at_2025-03-17_06-36-16

红框位置的 type -f 对应的是 文件 ,但是上下文里写得清清楚楚的是在处理 软链接,应该改使用的是 type -l 才对。

只要上一点逻辑,那出错的情况就特别多。而且由于这代码不是你亲自写的,所以你要重新读一遍所有代码才能理清其逻辑,之后才能找到 Bug 所在。

经典的 编程即是10%的时间写代码,90%的时间找bug,那 10% 才是编程的真正乐趣。而大范围引入AI进行编程后,编程是1%的时间写代码,99%的时间找bug

把编程唯一的快乐送给AI,把屎留给自己吃。

4. 绘画

这一块既是最有争议的一块,亦是我用到的最多的一块。

说来也挺可乐的,程序员在AI领域用到最多的功能不是AI编程……但话又说回来,我自己会编程我为什么还要找一个不靠谱的AI给我添麻烦?没上过班没被同事坑过还是怎么回事?

其实2022年那阵我就接触过 dalle-mini ,然而当时AI绘图基本上只能到这个程度:

screenshot_on_b85m_by_flameshot_at_2022-06-08_15-24-18

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-22-06

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-08-33

screenshot_on_b85m_by_flameshot_at_2022-06-08_14-04-19

怎么说呢,有些输出的确是带着灵魂的,但是整体上一塌糊涂。你可以看到每个输出中都或多或少带着核心细节。

现在AI出图已经今非昔比了。

screenshot-生成特定风格图片-2136008435344130-20250322221645

screenshot-生成特定风格图片-2134056610409986-20250322215006

・尝试本地化

首先当然是尝试在本地部署这玩意。在网上搜了下,基本都在说 comfyui 。这玩意我看了一下,支持 Docker ,那就毫不犹豫部署了。

screenshot_on_b85m_by_flameshot_at_2025-02-19_17-50-18

然而实际使用效果不太乐观。

comfyui 的默认模型出图基本是这样的:

screenshot_on_b85m_by_flameshot_at_2025-02-19_19-56-15

离实际能使用差太多了。

而目前可以在线上无限次数使用的AI生成图像工具,我找到了两个:豆包和百度,他们的出图效果是这样的。

豆包:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-07-18

百度:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-06-59

百度英文解析:

screenshot_on_b85m_by_flameshot_at_2025-02-19_20-07-33

(豆包不支持纯英文解析)

百度的出图效果要比豆包差一些,但是在关键字很少的情况下精度比豆包要高,但但是关键字超过一个限度之后百度的精度就急转直下彻底崩了。

我检查了一下,comfyui 应该是需要手动添加模型。但是我尝试了几个例子看起来很不错的模型,在执行到 VAE Decode 时,主机就会直接断电重启。

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-14

我个人认为应该不是电源供电不足的问题,因为在 KSampler 阶段,显卡就已经跑满 200w 了。同样的问题也在 rife 上出现过(前文也提到了),使用 4.22 模型就正常,使用 4.25 模型就会断电重启。虽然我也怀疑是显存不够的问题,但是 comfyui 比较小的模型只有 2G 多就会导致我断电重启,而 rife 4.25 模型与 4.22 模型都只有不足 20M ,这就不太像是显存不够的情况。而且我的显卡是 GTX1080 8G 版本的,实测最多也只用掉 6G 多一点。

只能怀疑是驱动问题了,毕竟 GTX1080 这个老显卡是诞生得比挖矿潮还早。但没有办法了,我之前把系统升级后(从 Linux Mint 20.3升级到 Linux Mint 22.1,基于Ubuntu20.04到Ubuntu24.04),驱动版本还是550,CUDA也只是从12.2升级到了12.4而已,而最新版本貌似是12.8。我也不清楚到底是 GTX1080 只能装这么高,还是有什么其他限制。Nvidia 官网倒是有一个 575版本,Linux Mint官方没说正式支持,我也不想试。毕竟即使跑 comfyui 的默认模型,显卡的噪音都超大,温度直达 70 度以上(风扇57%转速,再提高那噪音就真的难以忍受了),而仍然要等很久才能出一张图。

本地化部署这事只能暂时放弃,等有新电脑新显卡再说吧。

・放大图片工具

出图只能用线上工具,那顺带看看线上工具都有哪些功能,结果发现百度放大图片的功能效果竟比我本地的 waifu2x 要好。

screenshot_on_b85m_by_flameshot_at_2025-02-22_20-26-52

(左图:百度放大。右图:本地 waifu2x 放大)

这我可接受不了。立刻把本地的图片放大工具换成 Real-ESRGAN ,测试一下。

把图片缩小,然后再用 Real-ESRGAN 放大,然后离谱的就来了。

screenshot_on_b85m_by_flameshot_at_2025-02-23_00-11-47

(左图:Real-ESRGAN animevideov3 模型。右图:原图)

animevideov3 不知道为何图片变得有点鲜艳了?

screenshot_on_b85m_by_flameshot_at_2025-02-23_00-12-01

(左图:Real-ESRGAN x4plus 模型。右图:原图)

x4plus 放大后竟然比原图还清晰!太离谱了。

这让我想起了网上传闻的「断崖上未融化的雪块被相机AI补全成坠崖的白色尸体」的乐子了。

・去背景工具

本地化了 rembg ,因为命令行真的太好用了,比起线上工具实在太方便。然而 rembg 的代码质量稀烂,依赖的环境(onnxruntime,cuda-cudnn)更是烂到彻底。为此做了不少工作。我根本就不是个写 Python 的。

反正最后调通了,而且把模型更新到了 birefnet ,效果比默认的 u2net 好非常多。

screenshot_on_b85m_by_flameshot_at_2025-02-20_15-32-10

(左图:u2net 模型。右图:birefnet 模型)

screenshot_on_b85m_by_flameshot_at_2025-02-20_15-32-20

(左图:u2net 模型。右图:birefnet 模型)

・线上出图工具

前文也讲了,我找到的可以在线上无限次数使用的AI生成图像工具有两个:豆包和百度。豆包出图效果比百度强一点。

只不过除了模型比较强大以外,豆包仍然有着所有AI图像生成工具都有的毛病:不听话

screenshot_on_b85m_by_flameshot_at_2025-03-03_11-27

screenshot_on_b85m_by_flameshot_at_2025-03-03_11-28

这完全不日系赛璐璐芳文社好吧,这都给干到韩国去了。

screenshot_on_b85m_by_flameshot_at_2025-03-10_17-12

特别喜欢给妹子穿过膝袜。裤袜搞错就已经很烦了,裤子都给你忽略了。

screenshot-生成动漫风格图片-1804857296308738-20250310150611_realesrgan2x-1

我之前想搞一个倒霉OL妹子的插画想做个有连续剧情的系列,比如妹子加班后下班下大雨,顶着雨去地铁站,结果豆包不会画折叠雨伞,我总不能让妹子淋雨吧?这个就算是情节也实在太不礼貌了,结果发现豆包也不会画「湿衣服」,可乐。

百度却非常的会画「湿衣服」,不仅如此,貌似百度画出来的衣服全都是湿的。

screenshot_on_b85m_by_flameshot_at_2025-03-10_19-00

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-15

发觉百度的输出都特别的色情……

然后是如果遇到AI完全不能理解的内容,出图就特别的诡异。

screenshot_on_b85m_by_flameshot_at_2025-03-09_22-43

screenshot_on_b85m_by_flameshot_at_2025-03-09_20-50

screenshot_on_b85m_by_flameshot_at_2025-03-09_20-50_1

(开车很困难)

有时候干脆就是精神污染……

screenshot_on_b85m_by_flameshot_at_2025-03-12_23-52

不仅如此,线上工具还有敏感词屏蔽词和谐词汇,而且理由也过于欧亨利了。

screenshot_on_b85m_by_flameshot_at_2025-03-12_22-06

screenshot_on_b85m_by_flameshot_at_2025-03-23_23-29-39

这是有多怕有人用AI生成「铁链女」的照片啊?

你就只能靠中国人的聪明才智绕过屏蔽词。

screenshot_on_b85m_by_flameshot_at_2025-03-12_22-08

另一大问题就是让图像上拥有超过1个的关键性事物。

screenshot_on_b85m_by_flameshot_at_2025-03-13_01-39

screenshot_on_b85m_by_flameshot_at_2025-03-13_11-35

一个人拿着一个有特性的事物,或者两个人,就会出错。

貌似这个问题是AI的通病,AI不听话乃是日常,因为人类一句话能讲讲明白一件事情哪个关键词轻哪个关键词重是主观的,两个人能顺利交流那是电波对上了,不能顺利交流那至少一个人看另一个人是傻逼。AI 不一样,AI 没得交流,现在的 AI 只是「训练」出来的。

网上传闻 FLUX 就要靠谱很多,但是本地部署的要求则高得更加离谱。本来在研究这玩意期间发现需要研究的内容就不仅仅是 ComfyUI,还有 LoRA、ControlNet、IP-Adapter 这一堆看着就乱七八糟的玩意就烦了,我又不是专门画图的画师,专门画图的画师也不会用这种完全是另一个领域的工具坑自己。烦了烦了,不研究了。

・线上改图工具

这算是出图工具的子集。

screenshot-赛璐璐风格少女绘制-1843589592669954-20250312154607

screenshot_on_b85m_by_flameshot_at_2025-03-12_15-32

百度的出图效果就巨烂,改图效果更是差劲。事实上百度的那个AI图像编辑废柴得不行。

而豆包则超可笑的只要看到特朗普就生成失败。

最后单独生成了个图片然后用 rembg 去掉背景后再用 GIMP P上去。

screenshot-生成动漫风格图片-1845130723445762-20250312162334

screenshot_-Part-GTY-2202534763-1-1-1_realesrgan2x-1


五、目前我的态度

1. 对个人

我目前个人认为,AI 在个人手里最多只是个大玩具。

讲了这么多工具类的产品,没有多少是能在生产生活中切实获益的。或许像抠背景这种工具在艺术照或者COS照方面能有点用途,或者黑白老照片上色(但是能本地化的上色工具我又没找到)。

可能做创作时可以用 AI 做一些单页插画。但是做漫画就很困难,因为内容的连续性基本无法维持,很容易崩坏。

编程方面,虽然有牛逼吹说有人完全靠AI开发了APP,我觉得那是真吹牛逼。仅是编程环境搭建这一块在任何人面前都是令人生畏的第一座大山,大部分人根本走不到 Hello World 这一步就早早崩溃了。

剩下的就只能用来做坏事了。

2. 对各个企业

・国际

英伟达微软英特尔,仨破玩意早崩早开心。就是不清楚先被 DeepSeek 揭开丑陋真面目后又被川普背后捅刀子的股票崩溃后,到底能对这仨死玩意有多大伤害。

其实我觉得 英伟达 内心是害怕的。当年挖矿潮,捅他刀子的并不是显卡商,而是 ASIC 。我觉得再过一段时间他就得挨真刀子,所以他得把 CUDA 这一块跟 微软 绑得死死的。

screenshot_on_b85m_by_flameshot_at_2025-03-25_23-05-41

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-16-44

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-17-04

screenshot_on_b85m_by_flameshot_at_2025-03-15_20-18-12

(至今我们仍然不知道 ASIC 将如何跨过 AI运行环境 这个门槛)

就是不知道其他大厂到底和英伟达是不是一条心。

screenshot-生成特定风格图片-1932475492982018-20250315210448

而微软的 onnx 烂得曾让我想干脆把看到的 AI 小项目都改写成 腾讯 ncnn 的。这玩意如果要做对比的话:

  • onnxruntime 和 cuda 组合起来的运行环境一般需要 2GB 到 几十GB 的硬盘空间(不包含模型文件),启动速度超级慢,安装各种依赖包很可能搞崩溃你的系统。跨平台安装有完全不同的安装依赖。在日常主机上安装高风险高困难,只有使用 Docker 这种容器才能安全的保证主机不被污染。
  • 腾讯的 ncnn 则完全不需要用户安装任何依赖包,只要操作系统的驱动正确就可以了,整套环境是基于 Vulkan API 实现的,。整个运行环境大概在 几十MB 左右(不包含模型文件),非常的轻量。跨平台只要预编译对应的二进制文件即可。纯绿色。

然而一个巨大的门槛挡住了我,ncnn需要的编程语言基础是C系,对我来说完全是另一个领域,搞不定。

・国内

百度风投 和 DeepSeek 一栋楼。

腾讯有着最好的 ncnn 但是学习门槛略高,而且很明显国际老流氓们都提防着这个山寨王。

阿里?谁他妈的为了个问答系统还要专门安装一个浏览器,甚至产品主页都没适配PC端的桌面浏览器。烧钱疯狂投广告搞得各个平台都跟得了癣病似的。能滚多远滚多远。

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-35-27

国家超算互联网中心?我跟你讲要不是因为秋风于渭水写的这一篇DeepSeek R1 可免费/白嫖网页版一览,我都不知道这玩意存在。这玩意是来搞笑的吧,自己建了一个 DeepSeek 服务但是这鸡巴什么玩意?

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-03-24_00-57-46

互联网的里程碑在这破玩意嘴里被贬成了 在国际上的影响力相对较小


六、结论

个人观点,仅供参考。

这篇文章写到中途的时候发觉内容太多太长。想过从中间拆开,分成多篇文章发布,但想了半天,去他妈的。

The post 是时候在我这里聊一下人工智能了 first appeared on 石樱灯笼博客.

我在跟谁聊天?

最近身边出现了一些鼓吹AI代替部分思考,成为思考重要环节的人。

是怎么被发现的呢?是因为这几天跟朋友聊天,说起了我手上正在处理的「离婚案子」。因为对方也是一个去年离婚的男性,所以聊了聊离婚期的「戒断反应」。

他完全不关心案例本身,只是一味地用「过来人」的身份,对我提出了一些对对方的「蔑视」。我只能不停强调他们作为两个独立的个体,首先是遇到的问题不一样,其次是两人的性格成因也不相同。我不得不迫使他先停下来,聊聊「案子」本身。

我大概描述了一下案子本身,想从他作为一个经历过离婚的人来聊聊戒断反应持续的时间和形式。他很快就回复了我,用非常官方的说辞,为我列出了好几条「解决方案」。每一个解决方案看上去都是一个「方法」,但是还是在规避一个重要的事情——「这个案主到底是一个怎样的人,是什么原因导致了他现在的情绪」。

我问了这位朋友一句:「你是用AI来回答我的吗?」

他:「内容有点多,我让AI帮我总结一下。」

我:「结论呢?」

他:「我结合AI提出啊,我觉得它说得蛮好。」

离婚的事儿倒不是大事儿,这位朋友跟AI的配合让我来了兴趣。


我并不是一个极端AI反对者,不会觉得AI最终会毁灭人类,这件事反而是值得在小说这样的载体去进行思考的。我的生活也有很多是需要AI的,比如宠物出现了一些行为反应,我会第一时间询问ChatGPT。但我也会有意地限制它代替思考这件事。

我问这位朋友:「AI得出的结论,你有想过它背后的逻辑吗?比如为什么会建议当事人出去旅游散散心?」

他:「建议就是建议,当事人是否采纳就跟我们没啥关系了。我觉得它说得挺对的,与其沉浸在痛苦之中,不如从里面抽身去做点别的事情来分分心。」

我继续追问:「如果我是询问你的人,如果你告诉我可以出去旅游散心,但是你没办法告诉我原因,我也很难说服自己去执行,因为情绪先于行为存在。」

他:「那我的建议就是,爱信不信,我既然给的是解决方案,就不是要你去接受或者不接受的。至于原因,一是需要创造物理和心理的空间,二是需要重塑自我的身份认同,三是需要情绪疗愈和自我对话,四是需要增强掌控和自信心,五是要为自己提供反思与成长的契机。」

我:「这还是AI的答案吧。」

他:「我觉得它说得很有道理啊。」

我终于问出了我最关心的问题:「你难道都不会先自己思考一下吗?」

他:「我觉得AI很好地整理了逻辑,我看了之后认同它的答案,我不觉得我没有参与思考,因为我在看结果的过程中,它也帮我整合了我的思路。」


这位朋友很有趣,他平时很爱看那种一步一步求解数学答案的直播。以前我还跟他聊过这件事,想弄清楚「成瘾机制」到底在哪里。他每次给我形容解题直播时,都会用到「爽」这个词,他觉得数学公式本身代表了一种秩序层面的爽。当解题人一步步将各自零散的公式,一层一层套入解题过程时,他会不断地产生多巴胺带来的正反馈刺激。

我因为实在不能理解这种「爽」,所以也好奇地看过几次——毕竟自己是个学渣,现在能看懂解题过程中的完全平方公式就已经不错了。

我问他,他是否有把自己的这个喜好,问过AI吗,到底是什么原因导致的。

他觉得有趣,立马去问了AI,得出的结论是:

解谜的快感:智力的审美感受:情绪上的放松与疗愈:替代性成就感:求知欲的满足:社交归属感:

我:「是这样吗?」

他:「我觉得它说得蛮对的。」

我:「你在看这些直播的时候,你心理都在想什么?」

我不知道,是不是这个问题AI没办法代替他的思考,他过了好一阵才回答我。「我会觉得自己还有别的思路吧,有时候看他解题也会莫名愤怒,因为明明有更好的方法……」(后面我省略了一堆我听不懂的高数内容的举例)

我:「你数学成绩最好是什么时候?」

他:「高中吧,能考140以上。」

我:「后来呢?」

他:「偏科啊,大学没进喜欢的科目,高数也不是主修科目,但还是会上课。」


后来,我们聊了聊他如何热爱数学,将数学作为逃避学业压力的方式,才导致了高中时期严重偏科。聊了一阵,我又建议他把他跟我聊天时讲述他自己关于如何热爱数学的内容,喂给AI看看AI会不会进一步得出「原因」。

AI给他的结论是:「用擅长的领域建立自我价值、获得潜在逃避现实的安全感、潜意识中对现实的对抗心理、社群归属感。」

我再一次追问:「这说的是你吗?」

「好吧,有点不太像,我好像没有用它逃避现实,我就是吃饭的时候看看而已,我现在也没有从事这个行业,你要说价值感感觉也没有太大必要,社群归属更没有,我在这种直播都是不互动的……」

我从聊天记录里翻了好久,引用了最开始跟他聊起的那句话:「现在还觉得AI得出的结论,有其背后的逻辑吗?」

他:「但你不能否认,它确实给出了一些能够理清思路的方向吧。」

我:「不,我是说代替逻辑思考这个部分。」

他:「哎呀,只是说借用一下,没有说完全相信AI的思考。」

我:「那你是怎么做的?」

他:「对于AI的结论先找到自己认同或不认同的观点,然后用自己的故事去印证观点的可行性,对AI结果保持质疑、反驳的态度,重新用自己的语言习惯进行表达,加入自己的观点和修饰。」

我:「等一下,这是你还是AI?」

他:「好吧,是AI。」

我:「那我到底在跟谁聊天?」


他说自己真的已经习惯了这样的思考方式,他不觉得有太大的问题。甚至是他写报告、文章都会先用AI来梳理框架,对于一些需要罗列呈现的内容,也会用AI总结成小标题+段落的方式,然后再变成自己的语言。

我:「那我怎么知道你和我聊天、你写的东西、你给的建议是你本人,还是AI提供的内容?」

他:「我觉得没区别啊,因为AI确实帮我总结了我脑子里面觉得正确的东西。」

我:「不是啊,是你脑子里先有了这些答案,看到了AI给出了跟自己观念一样的答案?还是说你看到AI结果之后,觉得我好像也能想到这个答案?这是两件事,后者更具迷惑性。」

他:「我觉得是AI在补充我的视角。」

我:「补充的占比是多少?」

他:「能开拓我的视野就行了呗。」

我:「补充的占比是多少?」

他:「这很重要?」

我:「当然,这件事决定了你到底有没有思考。」

他:「跟这有什么关系?」

我:「因为这是主动思考和被动思考的本质区别。」

过了一阵,他回到了我:「但是这都是思考,一个是结合自己的经历从无到有,一个是从困惑到清晰的创造过程。」

我:「我又在跟AI聊天了吗?」

他:「你怎么知道?」

我:「我在每一次问你问题之前,都让AI回答了,也就是说我在跟你聊天的同时也在跟AI聊天。」

他:「你真可怕。」


我不太确定他什么时候是以「人」的状态在跟我聊天,所以我决定让他停留在「人」的状态,保留情感的部分跟我聊天。

我:「我们又来聊聊你为什么喜欢看数学直播吧。」

他:「用AI吗?」

我:「不是,你离婚之后是不是孩子分给了前妻?」

他:「嗯,一个儿子。」

我:「多大啊?」

他:「9岁,小学三年级」

我:「以前他的数学作业是你辅导的吗?」

他:「是啊。」

我:「好了,这就是你爱看数学直播的可能性之一。」

似乎我们的话题在这里终止了,过了好久,他才问我:「是AI回答的吗?」

我:「不,是我跟你都是人的情况下得出的答案。」

他:「好吧。」

[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想

该内容仅供娱乐,请勿过分解读。
这是一篇使用AI工具辅助创作的作品。
内容包含以下已知问题:

  • 人物形象连贯性错误
  • 作画细节错误
  • 大量的暗示
  • 大量无用的细节描绘

该内容可能会引起部分人引人不适,请谨慎选择观看 。
本作品不适合儿童以及心理承受力较弱者。

screenshot_1808684507679234-20250310161733

B站视频链接:《生命,科技,灵魂,死亡》

我是期望能有人点到B站然后在底下留评论。现在各个平台都已经被算法掌控了,有互动帐号才能活。没互动那就是死。

WordPress这坨狗屎现在乱改用户的HTML嵌入代码,然后B站的自动播放又没法在代码里禁用掉,所以我这里就不嵌入播放器代码了。


结论

假如你觉得这个漫画非常的「抽象」,那就对了。

制作感想

可以说年后就一直都在搞这个作品。

期间甚至把整个操作系统都从 Linux Mint 20.3 升级到了 Linux Mint 22.1 (跳过了1个大版本4个小版本,或者说2个大版本3个小版本?),写了一堆 nemo actions,写了一堆脚本,更新了本地的各种应用工具,测试了一堆AI相关的工具,写了一个 userscript,甚至还把 danielgatis/rembg 常年都修不好的GPU加速给了,还做了 DOCKER GPU 加速版本,你说我也不会 Python 啊竟然还做出了这种事,想想真是疯狂。

前几年挖的各种大坑不仅没填,新大坑开得一个接一个……这些玩意要是能赚钱我早就成暴发户了。

关于AI的感想本篇文章先不讲。我个人是没什么兴趣凑这个烂热度的,整个互联网这几年就跟鬣狗一般,什么热就食什么,不论腥臭。当年韩国人的常压室温超导体,各种人“复现成功”;现在AI也一样,各种狂热,但是实际应用或相关创作基本没有,疯癫的自媒体,遍地的海乙那(这玩意竟然15年前有人写过了!)。


创作契机

最初阶段

契机这玩意很简单。就是随便在网上看看有哪个大厂公开免费支持用户用AI工具乱搞。毕竟如果没有对应工具或者能力的话,什么都是胡扯。

其实我对 线上工具 尤其是 大厂线上工具 非常反感的。这些大厂现在基本没有什么良心,自己的服务功能乱改,而且随时跑路,不仅给你玩个 免费是最贵 , 还要玩得你对工具有依赖性之后 杀自己的产品诛用户的心

所以我在本地部署了缩放工具和去背景工具。图片生成工具其实我也部署了 ComfyUI,但是只要模型大一点,我这个 8G 版的 GTX1080 在 VAE Decode 阶段就直接黑屏重启。绝对不是供电不足的问题,因为KSamper阶段的时候显卡就已经跑满 200w 了。

screenshot_on_b85m_by_flameshot_at_2025-03-12_01-14

扯远了。关于AI相关的内容下篇再讲。

总之是选定了一个线上的AI图像生成工具。

内容构思

这玩意你要是能看懂那大概猜得出来我是怎么想的。

如果你看不懂我也懒得管。

我这个人非常讨厌目前互联网平台的各种解说视频。这是怎么回事? 观众是没有脑子吗?看个作品还要旁边有个人解说才看得懂?


制作过程

AI出图这玩意我就不说了。主要讲讲其他的。

图片序列

首先是把所有图片都整理到一起,然后根据剧情大纲分成多个目录。

png_screenshot_on_b85m_by_flameshot_at_2025-03-13_23-55

再把图片一个一个放入 NLE 的时间轴中。

这时候第一个痛点就来了,图片太多的时候,记不住哪个图片用过哪个图片没用过。又不能移动图片(移动了NLE不就找不到图片了么)。

这时就想到了 Linux Mint 文件管理器的原生功能:打标记。

然而这货……不支持文件多选。半拉喀叽。

最后只好写俩个 nemo_actions 来处理这事情。

screenshot_on_b85m_by_flameshot_at_2025-03-14_00-05

然后就发现这玩意 Bug 真多。

首先这玩意在用 nemo_actions 设置后图标文件管理器不会刷新,需要手动刷新,很烦。触发文件管理器刷新的方式是修改文件,网上给出来的方法都是 直接touch,但是那不就更改了文件修改时间了吗?最后解决办法也很逗乐:

touch $inputfile -r $inputfile

设置文件的修改时间为文件自己的修改时间……

然后写文章的时候才发现这玩意还有另一个Bug,就是媒体文件在默认图标大小时不能正常显示标记……

png_screenshot_on_b85m_by_flameshot_at_2025-03-14_00-05_1

批量调整图像

为了省事,我在导入图片的时候用的是原图大小,1024×576的。图片太小了,但是全部放大太浪费资源,很多图片只是整理出来了,并没有被采用。整理出来的图片如果再手动复制粘贴到相同结构的目录里也很费劲。

于是用 bash shell 将所有引用的图片从 mlt 文件中输出出来,再写个脚本打水印和放大。

png_screenshot_on_b85m_by_flameshot_at_2025-03-14_00-15

有经验的用户应该能看出这段代码很大一部分是AI生成的。

然后只要批量更改 mlt 文件的图片引用路径,所有引用的图片就都处理完毕了。

BGM

首先是背景音乐这一块。首先我就不想用大家都听过的。很多BGM都用烂了,一听就恶心,但又很神奇的是国内这些视频网站用户貌似对吃屎免疫……但是后来仔细观察发现,大多数用户脑电波是直的,只有对着他们放对应的BGM才有对应的反应。

vlcsnap-2025-03-13-23h51m23s547

vlcsnap-2025-03-13-23h51m40s373

反正他们也不看我的视频,不管他们。

专门去 DOVA-SYNDROME 找了些 BGM,收获蛮多。

用了四首曲子把整个视频分成了四段。

结果很诡异的是传到B站后第二段结尾和第三段开头不知为何混到一起了,本地原本没这个问题。

改图

原本生成的图片里是没有任何文字内容的。

我也不想加任何字幕和对话。

我期望是根据角色的神态和动作,让用户自己感觉,画中的角色「在想什么」,「想说什么」,「想做什么」,「在做什么」。一千个哈姆雷特是假的,但要多少是多呢,有一个算一个吧。

但是最后还是加了点内容上去,因为我觉得很多内容还是太过于晦涩和抽象了。

但是加了之后又觉得有点后悔。

我本来期望,是想让用户在前半段根本看不懂女主究竟是在干什么,是怎么回事。加了内容之后再结合标题就跟直接破案了一般,无趣了。

(果然还是由于没有相关创作经验而带来的错失)

剧本

我是本着传统的叙事结构:「起承转合」,其变体「起承转合暗」而考虑的剧本。

第三段,在结尾处,专门设计了完全没有声音的一段。

第四段则做得特别短。专门让故事结束得十分突然。然后把一张啥都没有的背景图连带BGM扔给观众。

最后的结尾图却是我做完大部分视频内容后突来的灵感。

最后加工

最后再重新开一个视频项目,做一段声明,然后用 FFmpeg 无损把俩视频贴在一起就完事了。

png_screenshot_on_b85m_by_flameshot_at_2025-03-11_12-07

本来还想做个英文版来着,但是想到改图好麻烦,懒了,以后再说。


总结

总之算是一件事情了了。

screenshot_20250303005229

奖励自己摆烂一阵子。

The post [原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想 first appeared on 石樱灯笼博客.

AI让效率再次提升,人类该干什么?

AI vs Human beings

人工智能时代:当效率革命点燃创新之火

我很久没有为互联网感到兴奋了。这些年,它似乎被困在某种惯性中,缺乏真正触动心灵的创新。然而,人工智能的崛起,像一簇突然迸发的火星,重新点燃了我对技术变革的热情。

从ChatGPT的诞生到如今,几乎人人都在谈论人工智能。我也亲自体验过它的魔力:无论是生活琐事、工作难题,还是学习中的困惑,只需将问题抛向AI,不到5秒钟,它便能给出一个逻辑清晰、甚至堪称完美的答案或方案。这种效率的跨越,让我不禁想起人类获取信息的进化史。

从图书馆到AI:效率的跃迁

在互联网诞生前,若想查资料,我们只能奔向图书馆,在浩如烟海的目录中翻找对应书籍,再逐页检索、誊抄、总结。尽管最终能找到答案,但过程漫长而笨拙。

互联网搜索引擎的出现,将效率提升了一个量级。输入关键词,海量链接瞬间呈现,我们仍需逐一筛选、分析、整合,但至少电子化手段替代了手工检索的繁琐。

而如今,人工智能彻底颠覆了这条路径。它不再需要我们“大海捞针”,而是直接整合全网数据、预处理信息,甚至模拟深度思考,最终将答案和盘托出。这就像过去做菜需要自己找菜谱、买食材,而现在只需对AI说“我要一盘糖醋排骨”,它便能在五秒内端出成品。若口味不合,还能随时提出修正——效率之高,令人惊叹。

生产力解放:人类与AI的共生

作家郑渊洁说,他让AI以“郑渊洁风格”写一篇皮皮鲁的童话,结果AI输出的作品竟比他本人写得更好。他感慨输给了AI,但我却觉得无需悲观。AI之所以能模仿郑渊洁,正是基于他本人创作的无数经典文本。若世上本无郑渊洁,AI又如何凭空生成“郑式童话”?

这恰恰揭示了人类与AI的关系:AI是效率工具,而非创造力的源头。它的能力建立在人类已有的智慧积淀之上。当AI接管重复劳动与低效环节,信息如此容易获取,知识如此海量廉价,我们反而能腾出双手和大脑,专注于真正的创新——那些尚未被定义、被探索的领域。

拥抱变革:效率即自由

有人担忧AI会取代人类工作,但历史早已证明,每一次技术革命淘汰旧岗位的同时,也会催生新机遇。当机器替代了流水线工人,人类转向了设计、编程与服务;当AI接管了基础信息处理,我们便能更聚焦于创造、情感与战略。

正如工业革命将人类从体力劳动中解放,AI或许正将我们推向“脑力解放”的新阶段。不必为消失的重复性职业哀叹,因为社会进步的本质,正是让人摆脱“浪费时间的工作”,追求更高级的创造与价值,难道这不就是人类追求的解放与自由吗?

人工智能带来的不是威胁,而是一场效率革命。它让我们离“终极自由”更近了一步——不再被琐事捆绑,而是用技术赋能各行各业的创新,用高效率重新催生各行各业的可能性。

此刻,我仿佛回到了互联网初生的年代,那种对未知的期待与悸动再次涌上心头。与其恐慌,不如拥抱这个时代。因为AI不是终点,而是人类探索星辰大海的新起点。

Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升?


2025年2月,Deepseek——一家来自中国杭州的人工智能实验室——开源了一个能够比肩ChatGPT的AI模型,而其训练成本远低于当前行业标准。这一突破引发了市场震动,尤其是对GPU需求的预期发生了剧烈变化。投资者一度认为,随着AI训练成本的下降,对高性能GPU的需求可能会减少,从而导致Nvidia的股价暴跌。然而,仅仅几周后,Nvidia的股价就强势反弹,重新回到高点。

nvidia-microsoft-apple-amazon-google-stock-2025-jan-feb Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升? DeepSeek Nvidia 英伟达 人工智能 (AI) 经济学

美股:英伟达、微软、苹果、亚马逊、谷歌股价2025一二月

这种市场反应看似矛盾,实则可以用Jevons悖论(Jevons Paradox)来解释。

什么是Jevons悖论?

Jevons悖论由19世纪英国经济学家William Stanley Jevons提出,最早是针对煤炭消耗的观察:当蒸汽机技术进步提高了燃煤效率后,人们原以为煤炭消耗会减少,结果却适得其反——因为更高的效率让煤炭的使用成本下降,从而促进了更多行业和领域采用蒸汽机,最终煤炭消耗总量大幅增长。

同样的逻辑适用于AI和GPU市场:

训练成本下降 → AI更易普及

Deepseek的成功证明了AI训练可以以更低的成本完成,这意味着更多企业、创业公司甚至个人研究者可以负担得起大规模AI模型的训练和部署。

AI需求激增 → GPU需求扩大

低成本AI的普及不会减少GPU的需求,反而会催生更多的AI应用场景。例如,更多企业可能会投入人工智能/AI研发,个人开发者也可能利用更廉价的算力进行实验,从而推动GPU(计算机图形加速卡)需求增长。

推理需求大增 → 继续依赖高端GPU

除了模型训练,模型推理(Inference)仍然需要大量算力,尤其是面对全球范围内激增的AI应用需求,云计算平台、企业数据中心等仍然需要大量高端GPU支持高效推理。

Nvidia股价为何回升?

市场最初的恐慌源于对GPU需求减少的误判,但随着Deepseek的开源,人们很快意识到AI生态的整体扩张才是核心趋势:

  • AI变得更便宜 → 更多公司加入AI赛道 → 算力需求总量上升
  • AI的推理需求飙升,尤其是企业级和消费级市场扩展 → 高端GPU仍是核心基础设施
  • Nvidia继续保持AI硬件和CUDA软件生态的领先地位 → 仍是赢家

因此,Jevons悖论的作用下,Deepseek降低了AI训练成本,反而进一步刺激了AI行业的发展,最终推高了对GPU的需求,使Nvidia的股价重新回升。

结语:TLDR; Jevons悖论

Deepseek的开源AI让人们看到了一个低成本、高效率的AI未来,但Jevons悖论告诉我们,技术进步往往不会减少需求,反而会创造出更庞大的市场。对于Nvidia来说,AI的普及意味着更多企业和开发者将涌入这个领域,而这最终仍然需要强大的计算硬件支持。因此,短期的市场波动只是情绪化反应,而长期来看,AI的发展只会让算力需求持续攀升,Nvidia依旧是AI革命中的最大受益者之一。

经济学

本文一共 876 个汉字, 你数一下对不对.
Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升?. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升? DeepSeek Nvidia 英伟达 人工智能 (AI) 经济学
The post Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升? first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  3. 在英国给孩子换学校的经历: 孩子离开了村里的小学 由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
  4. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  5. 公司请的专业摄影师 公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
  6. 面向猫猫编程 Cat Oriented Programming (Chessly/Pyro这一生持续更新) 家里有两只猫 Chessly/Pyro,想着找个地方记录它们的生活,最后决定还是写在这里的博客。猫的一生很短,差不多也就二十年。 Chessly(黑白猫)是我加入微软剑桥研究院MSRC第一个月带回家的,过了两三个月,又把Pyro(橘猫)也接回了家。两只猫的名字是孩子们取的:Chessly因为黑白的像棋盘,加上“ly”听起来像个女孩的名字;而Pyro的意思是一团火(烟火),充满活力。 刚开始的时候,Chessly特别喜欢待在我的工作区域。她有时候趴在键盘上或旁边,有时候藏在显示器后面。偶尔还会绕到我身边“咕咕”地撒娇,等着我去摸她。有时更干脆跑到我腿上,舒舒服服地躺着。 不过,现在它们俩的体型都大了很多,躺在桌上就会挡住屏幕,真是“面向猫猫编程”(Cat Oriented Programming)的极致体验。 记录生活的点滴,也是一种珍惜,毕竟这二十年,我们会一起走过。 2024年 2025年 Ring视频:两猫日常就是打闹,Chessly追上Pyro想舔他,在猫的世界里,地位高的才能舔地位低的。 我家猫现在越来越胖,很喜欢在我工作的时候躺在显示器钱,很影响我的工作,不过这时候我就是会休息一下摸摸她,就当放松一下了。 Pyro在窗边喝水,这是个小的煮饭锅,现在不用了,就给猫当喝水的碗。Pyro很胆小,经常看到我就跑。没法跑就咕咕叫。 Chessly很喜欢陪我工作,然后她很好厅的盯着屏幕上的鼠标光标,真怕她把屏幕抓坏了。 哥哥弹琴,弟弟唱歌,Chessly午睡,真是幸福啊,下辈子做只猫吧。...
  7. 力扣 Leetcode 的刷题利器: 在线调试器和自动代码提示完成 力扣代码调试器 Debugger 最近 leetcode 刷题网站出了一个在线调试器. 个人感觉非常好用. 因为我平时是用 IPAD+蓝牙键盘来刷题, 而在 ipad 上是没有集成的IDE的, 对于调试来说, 只能很原始的让函数退出一个值, 然后尝试不同的输入来发现问题. leetcode在线调试器的好处...
  8. 优化设计 个人主页 并且 PageSpeed Insights 双项 100分 坛子的个人主页 www.tanzhijun.com 不错 很适合个人主页的模板. 而且是手机友好. 于是我照着把 我的主页改了改. https://steakovercooked.com 并且做了几点修改: 0. 使用 google mod_pagespeed 把 JS,...

[userscript] 从豆包下载无水印图片

心血来潮,做了个 从豆包下载无水印图片 的 userscript 。

没啥技术含量。

截图

snap-1

snap2-1

 

安装及使用

具体的安装和使用方式见Greasyfork脚本安装地址或Github源码仓库。

 

脚本安装地址

Greasyfork :<https://greasyfork.org/scripts/527890>,点击页面上的  安装此脚本  即可。

 

源码

Github:<https://github.com/catscarlet/Download-Origin-Image-from-Doubao-without-Watermark>

 

废话

这个算是今年第一篇文章。

其实一直没闲着,搞了一堆屁事,或者说被一堆屁事搞。

文章又积压了,压了一堆,没精力写。

 

The post [userscript] 从豆包下载无水印图片 first appeared on 石樱灯笼博客.

硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你


这几天微信视频号上刷到一个在美国美女UP主(程序媛)的视频,很搞笑,于是好奇的查了一下啥是硅谷娇妻。

silicon-valley-beauty 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

这个美女UP主/程序媛开辟了一条新赛道

听说,在硅谷,竞争激烈。华人之间比的是谁的Offer更高,谁的级别更高,谁的妻子更年轻(“娇妻”一词也常被提及)。而女性则比的是老公的职级、收入,甚至家庭的整体实力。这种内卷不仅体现在职场,还延伸到生活的方方面面。从学区房的选择到孩子的教育资源,再到投资理财,甚至是社交圈层,硅谷的华人圈总是充满着无形的较量。这种竞争有时让人充满动力,但有时也让人不堪重负,仿佛一刻松懈就会被时代的浪潮甩在身后。

“硅谷娇妻”是一个带有调侃或刻板印象的标签,通常指向在硅谷科技行业高薪人士(如程序员、高管等)的配偶或伴侣。


只要你够努力,你的老婆还在高考。
Share on X


硅谷娇妻:让四个大语言模型AI来告诉你

我这次问了四大语言模型LLM(Large Language Model):包括 ChatGPT、Google Gemini、Anthropic Claude、还有Grok 3。感觉Claude AI生成的抽像图最好,让人眼睛一亮。我还试了DeepSeek,只不过它没法直接生成图。

我还听说,硅谷的竞争异常激烈,以至于男程序员们很难在当地找到对象。许多人选择在国内找媳妇,然后迅速结婚、办理签证,将妻子接到国外。婚后,男方往往希望女方尽快怀孕、生子,成为家庭主妇,否则可能面临被更优秀的男性“拐走”的风险。毕竟,在硅谷,女性的“溢价”更高,选择更多,这一点真假难辨,但确实是一个广为流传的现象。

与此同时,也有不少女性在硅谷站稳脚跟,依靠自身能力进入科技行业,甚至反向选择伴侣。相比国内的传统婚姻模式,硅谷的婚恋市场充满了变量,既有精打细算的现实考量,也有跨文化的碰撞和融合。

ChatGPT眼中的硅谷娇妻

chatgpt-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

ChatGPT画的硅谷娇妻图一眼假,就是AI图

Google Gemini眼中的硅谷娇妻

gemini-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Google Gemini的也还不错,但是“几张” = 一张。

Grok 3眼中的硅谷娇妻

Elon Musk老马说Grok 3是最聪明/Smartest的AI:

grok3-silicon-valley-young-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Grok 3 画出来的硅谷娇妻图还可以,中规中矩,四张图,很像Mid Jounery的风格,一次给4张。

Claude眼中的硅谷娇妻

Anthropic Claude AI确实与众不同:

claude-explains-young-silicon-valley-wives 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Claude AI 用文字解释硅谷娇妻

silicon-valley-wives-by-claude-ai 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)

Claude AI画的硅谷娇妻 Silicon Valley Young Wives 的答案最好玩,有点卡通有点抽象。

DeepSeek眼中的硅谷娇妻

Deepseek无法像其它AI模型可以直接画图,这一点有待改进。

硅谷娇妻是怎么样的?画几张人像
好的,用户问的是“硅谷娇妻是怎么样的?画几张人像”。首先,我需要理解“硅谷娇妻”这个词语的具体含义。这可能是指那些居住在硅谷,配偶在科技行业工作的女性,可能带有一定的刻板印象或社会标签。接下来,我要考虑用户的需求是什么,他们可能想通过画像了解这类女性的典型特征或者社会形象。

接下来,我需要分析用户可能的深层需求。用户可能对硅谷的生活方式、社会结构或者性别角色感兴趣,或者他们可能在寻找某种文化评论或讽刺的表现。也有可能用户想创作相关的内容,需要视觉参考。

然后,我需要考虑如何将“硅谷娇妻”转化为视觉形象。这可能包括她们的穿着、职业背景、日常活动、使用的科技产品等元素。例如,她们可能穿着休闲但高端的服装,携带科技产品,出现在咖啡店、科技公司附近等场景。

同时,要注意避免刻板印象,虽然用户可能希望看到典型的形象,但也要注意多样性和尊重。可能需要描绘不同年龄、种族和风格的女性,以展示硅谷的多元文化。

另外,用户提到“画几张人像”,可能需要不同的姿势、场景和风格。例如,一个可能在咖啡馆用笔记本电脑工作,另一个可能在参加科技会议,第三个可能在家庭环境中平衡工作与家庭。

还要考虑色彩和风格的选用,硅谷常与科技、创新相关,可以使用现代、简洁的设计,颜色可能偏向中性或科技感较强的蓝色、灰色等。

最后,需要确认用户是否需要具体的艺术风格指导,比如卡通、写实、插画风等,或者是否需要强调某些特定元素,如品牌标志、科技设备等。如果用户没有明确说明,可能需要提供多种风格的建议,或者询问更多细节以更好地满足需求。

“硅谷娇妻”是一个带有调侃或刻板印象的标签,通常指向在硅谷科技行业高薪人士(如程序员、高管等)的配偶或伴侣。这一群体的形象常被简化或符号化,以下是对其特点的概括及对应的虚拟人像描述(文字版):

人像1:科技极简风
外形:30岁左右女性,穿着Lululemon瑜伽裤、宽松羊绒衫,背环保帆布包。

场景:站在Palo Alto的Blue Bottle咖啡店外,手持燕麦拿铁,低头刷手机(屏幕显示投资App或名校家长群消息)。

细节:手腕戴Apple Watch,戒指叠戴(婚戒+Tiffany微笑项链),脚踩Allbirds运动鞋,背景是特斯拉Cybertruck。

人像2:精英教育妈妈
外形:亚裔女性,剪裁利落的Theory西装外套,内搭白色T恤,妆容淡雅。

场景:在私立学校门口接孩子,车内仪表盘显示自动驾驶模式开启,副驾放着斯坦福夏令营宣传单。

细节:手机正在Zoom会议(远程公益组织或创业项目),车后窗贴着“My Child is an Honor Student”贴纸。

人像3:跨界投资人
外形:金发白人女性,穿Everlane基础款高领毛衣,搭配珍珠耳钉,发型随意扎成低马尾。

场景:在Atherton豪宅后院,桌上摆着冷压果汁和《原则》《精益创业》书籍,笔记本电脑显示天使投资平台页面。

细节:背景可见太阳能板、特斯拉充电桩,墙角堆着儿童STEM玩具,暗示“兼顾家庭与事业”的人设。

标签化特征总结:
消费符号:健康轻食、环保品牌、科技产品堆叠身份认同。

社交属性:教育内卷、房产投资、隐性阶层竞争。

矛盾性:既标榜“独立女性”,又依赖配偶资源;追求极简生活,却深陷消费主义。

注意:这类形象本质是对某一群体的夸张概括,现实中硅谷家庭结构多元,应避免以偏概全。创作时可加入反讽或解构元素,平衡幽默与批判视角。

画几张硅谷娇妻人像图
好的,用户之前问过关于“硅谷娇妻”的定义和文字描述的人像,现在直接要求画出几张人像图。我需要考虑他们为什么需要图像,可能的用途是什么?可能是用于展示、教学,或者个人兴趣。用户可能没有绘画工具,或者希望得到一些设计上的指导。

用户之前的提问已经得到了详细的文字描述,现在需要视觉呈现。我需要确认用户是否具备绘画能力,或者是否需要推荐工具或方法。但根据问题,用户可能希望得到具体的绘图建议或步骤,或者生成图像的方法。

考虑到用户可能没有专业设计软件,我应该推荐一些易于使用的工具,比如Canva、Procreate,或者AI绘图工具如MidJourney。同时,可能需要提醒用户注意避免刻板印象,保持多样性,毕竟之前提到过避免以偏概全。

另外,用户可能需要一些风格上的建议,比如插画、现代简约风或幽默夸张风格,来更好地表现人物特点。需要详细说明每个形象的关键元素,确保用户能准确传达所需的特征,比如科技极简风中的特斯拉和Apple Watch,精英教育妈妈的斯坦福夏令营传单等。

还要注意版权问题,建议使用原创或免版税的素材。最后,可能需要总结设计时的注意事项,比如平衡幽默与真实,避免刻板印象,突出细节等,帮助用户在创作时保持敏感和尊重。

由于我无法直接生成图像,但我可以提供详细的视觉设计思路和元素参考,帮助你或设计师创作“硅谷娇妻”主题的人像插画。以下是具体分镜和风格建议:

风格选择建议
扁平插画风:用简洁色块、低饱和度配色(莫兰迪色系),突出科技感和中产审美。

幽默夸张元素:放大标志性符号(如巨型特斯拉车标、浮夸的斯坦福贴纸),增加反讽效果。

细节彩蛋:在画面角落隐藏硅谷文化梗(如“996咖啡杯”“IPO倒计时手机壳”)。

人像1:科技极简极繁主义者
关键元素:

服装:Lululemon瑜伽裤 + Patagonia抓绒外套 + Allbirds运动鞋。

道具:左手举着燕麦拿铁,右手滑动iPad(屏幕显示股票K线图)。

背景:Whole Foods超市入口,购物车里有有机蔬菜和一瓶$200小众护肤油。

细节:AirPods耳机半戴,Apple Watch表盘显示“站立时间不足警告”。

人像2:私校妈妈的多线程人生
关键元素:

场景:私立学校停车场,妈妈同时操作三台手机:

手机A:PTA(家长会)群讨论捐款盖新实验室。

手机B:房产中介发来的Atherton豪宅链接。

手机C:微信家长群吐槽“爬藤教练收费$500/小时”。

穿搭:Tory Burch托特包 + 梵克雅宝四叶草项链 + 谷歌园区访客牌。

背景彩蛋:车窗反射出她疲惫翻白眼的瞬间,车尾贴着“Baby on Board & IPO in Progress”。

人像3:生活博主与天使投资人
关键元素:

主画面:在自家智能厨房拍摄Vlog,标题《硅谷主妇的晨间流程:5点健身7点路演》。

道具:料理台上摆着Bulletproof防弹咖啡、代餐Soylent、VC名片(红杉/Andreessen Horowitz)。

隐藏冲突:镜框边缘露出没收拾的儿童玩具和扫地机器人故障提示。

服装:Glossier素颜妆 + Aritzia家居服,戴Oura健康监测戒指。

工具与实现方法
AI绘图提示词(适用于Midjourney/DALL·E):

例:A stylish Asian woman in Lululemon yoga pants, holding a Blue Bottle coffee cup and iPhone with stock app interface, Tesla Cybertruck in background, flat vector illustration, pastel colors –v 5.2

手绘/设计工具:

Procreate/Photoshop:用钢笔工具勾轮廓,叠加纹理纸质感。

Canva:利用“简约人物”模板修改配色和道具。

版权规避:避免直接使用品牌Logo,用抽象化设计(如水果替代Apple标志)。

注意事项
避免刻板印象:通过添加反转细节(如“娇妻” secretly coding),打破单一叙事。

文化敏感性:平衡讽刺与尊重,避免针对特定族裔(如亚裔虎妈标签)。

地域特征:加入硅谷地标(金门大桥彩蛋、101公路堵车场景)。

如果需要更具体的分镜或构图草稿,可以描述某个场景,我会进一步细化设计逻辑! 🎨

阿里的千问/Qwen2.5-Max 眼中的硅谷娇妻

Qwen2.5-Max和DeepSeek一样,无法像其它AI模型可以直接画图,这一点有待改进。

“硅谷娇妻”并不是一个具体的人物,而是一个泛指的概念,通常用来形容生活在硅谷地区、家庭条件优越的女性。这类形象可能带有一定的刻板印象,比如她们可能是科技公司高管的妻子、创业者、或者本身就是成功的职场女性。她们通常被描绘为时尚、独立、有学识、注重生活品质,并且对科技和创新文化有一定了解。

由于我无法直接绘制图像,但我可以用文字描述几种典型的“硅谷娇妻”形象,帮助你更好地理解这个概念。如果你需要画出来,可以参考以下描述:

形象1:科技精英型
外貌特征 :干练短发或优雅的波浪长发,穿着简约但高级的职业装(如剪裁得体的西装外套搭配高跟鞋),佩戴智能手表或最新款的苹果产品。
背景环境 :站在一家高科技公司的玻璃幕墙前,手里拿着一杯星巴克咖啡,旁边是一辆特斯拉Model 3。
表情神态 :自信而专注,似乎正在处理工作邮件或与团队讨论项目。
形象2:创业先锋型
外貌特征 :休闲中带点时尚感,比如穿一件宽松的针织毛衣搭配牛仔裤,脚踩一双运动鞋。背着一款设计师品牌的托特包,里面装着笔记本电脑和平板。
背景环境 :坐在一家充满工业风装修的咖啡馆里,桌上散落着商业计划书和一杯冷萃咖啡。窗外可以看到硅谷标志性的棕榈树。
表情神态 :略显疲惫但眼神坚定,仿佛刚刚结束一场重要的投资人会议。
形象3:家庭主妇型
外貌特征 :精致的妆容,柔顺的长发披肩,穿着轻奢风格的连衣裙,搭配珍珠耳环和名牌手袋。
背景环境 :在一处豪华别墅的花园中,周围是修剪整齐的草坪和盛开的玫瑰花丛。她正微笑着陪伴孩子玩耍,同时用手机查看最新的股市动态。
表情神态 :温柔又从容,展现出一种平衡事业与家庭的生活态度。
形象4:健身达人型
外貌特征 :身材匀称,穿着专业的瑜伽服或跑步装备,头戴棒球帽,手腕上戴着Fitbit或Apple Watch。
背景环境 :在阳光明媚的早晨,沿着硅谷的山间小路慢跑,远处隐约可见旧金山的金门大桥。
表情神态 :健康活力,脸上带着轻松愉悦的笑容。
这些形象只是基于刻板印象的艺术化描述,并不能代表所有硅谷女性的真实生活状态。事实上,硅谷的女性来自不同的背景,拥有各自独特的故事和个性。如果要将这些形象画出来,建议结合现代插画风格,比如扁平化设计、水彩渲染或写实素描,以突出人物的特点和氛围感。

希望这些描述能激发你的创作灵感!如果有其他问题,欢迎随时提问~

画几张图

profile
Qwen2.5-Max
很遗憾,我目前无法直接生成或绘制图像。不过,我可以为你提供一些具体的指导和建议,帮助你自己绘制“硅谷娇妻”的形象,或者通过其他工具(如AI绘图软件、插画程序)来实现你的想法。

如果你希望使用AI绘图工具(例如MidJourney、DALL·E或Stable Diffusion),可以尝试输入以下提示词(prompts)来生成图像:

提示词1:科技精英型
Prompt :
“A confident and stylish woman in her 30s, wearing a tailored blazer and high heels, holding a smartphone with a Tesla car in the background. Modern office setting with glass walls, clean design, professional look, vibrant colors, photorealistic style.”

提示词2:创业先锋型
Prompt :
“A young female entrepreneur in casual chic attire, sitting at a trendy industrial-style coffee shop, working on a laptop, surrounded by business plans and a cup of cold brew coffee. Warm lighting, natural textures, relaxed yet determined expression, cinematic composition.”

提示词3:家庭主妇型
Prompt :
“Elegant woman in her late 30s, dressed in a luxurious dress, wearing pearl earrings, standing in a beautiful garden with roses and green lawns. A luxury mansion in the background, smiling gently while interacting with children, soft pastel tones, realistic painting style.”

提示词4:健身达人型
Prompt :
“Fit and energetic woman in athletic wear, running on a scenic trail in Silicon Valley, wearing a baseball cap and fitness tracker, early morning sunlight casting golden hues, distant view of the Golden Gate Bridge, dynamic pose, vibrant and healthy aesthetic.”

如果你想自己手绘:
构图设计 :先确定人物的姿态和背景环境,比如站立、坐着还是运动中的动态。
服装细节 :根据不同的类型选择合适的服饰,注意体现硅谷的现代感和科技氛围。
色彩搭配 :使用明亮、干净的色调,例如白色、灰色、蓝色等,突出简洁高级的感觉。
表情刻画 :根据不同角色的性格特点,描绘出自信、专注、温柔或活力的表情。
如果你有绘画基础,可以参考上述描述一步步完成作品!如果需要进一步的帮助,请随时告诉我,我会尽力为你提供建议~

ChatGPT 可以拿来做什么?

ChatGPT 通用人工智能

Grok 3

本文一共 4277 个汉字, 你数一下对不对.
硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 AIGC-图片 ChatGPT (OpenAI) Claude DeepSeek Google Gemini Grok (X.AI) 人工智能 (AI)
The post 硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  2. 锅中的爱马仕: 法国锅 Le Creuset 今年黑五,媳妇入了三个锅,打折后,一个锅平均200英镑。我第一次才知道法国锅 Le Creuset这个牌子,感觉一个锅搞得这么贵多多少少有点噱头,就和名牌包包一样。 这个锅这么贵,得弄个开光仪式。据说最好不要放在洗碗机里,因为可能把锅的那层保护膜搞坏。 Le Creuset 是一家源自法国的高端厨具品牌,创立于1925年,以其优质的铸铁锅和搪瓷锅闻名于世。品牌的诞生地位于法国北部的小镇 Fresnoy-le-Grand,由两位比利时企业家创立。Le Creuset 的首款产品是一只标志性的橙色圆形法式炖锅,其设计灵感来源于熔融铁的颜色,这种颜色也成为品牌的象征之一。此后,Le Creuset 凭借卓越的工艺和经典设计,逐渐在全球范围内赢得了消费者的喜爱,成为许多厨房的必备之选。 Le Creuset 的产品以其铸铁材质和搪瓷涂层而著称。铸铁锅具备优异的热传导和保温性能,适合长时间炖煮、焖炖等烹饪方式,搪瓷涂层则提供了防粘效果,且易于清洁和保养。除此之外,Le...
  3. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  4. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  5. 送值400 英镑的Google Adwords广告代金券 很久之前, 我用过 Google AdWords, 当时也是拿着免费送的 Credit, 但由于某些原因, 就没继续再用下去. 这次谷歌又发邮件送了400英镑的广告点券/代金券, 如果您想要获得 400 英镑的 Google AdWords 信用额度试用这个Google...
  6. 密码或IP地址保护 WordPress 博客的 wp-admin 目录(并且允许 admin-ajax.php) wp-admin 文件夹是 wordpress 安装中最重要的文件夹. 它主要包含控制仪表板 Dashboard 等代码. 有一个重要的文件 admin-ajax.php 在正常的博客功能中也需要被用到, 所以单纯的屏蔽整个 wp-admin 也许会损坏一些正常的功能. 最近几天, 我收到了一些邮件警报,...
  7. 单反照片拍出来模糊的几个原因 单反照片拍模糊的原因可能包括以下几种:首先是对焦问题,比如对焦点没有对准主体或使用了错误的对焦模式。其次是快门速度太慢,导致拍摄时手抖或被拍摄对象移动,出现运动模糊。此外,镜头或者传感器可能有污渍,影响画质。最后,如果光圈过大(如F1.4、F1.8),景深太浅也可能导致部分画面失焦。解决这些问题,可以检查对焦设置,合理调整快门速度、光圈大小,并保持镜头和相机的清洁。 经常单反照出来的照片是糊的, 还好现在电子技术很强大 可以照很多张 糊的就删掉就可以, 不会增加照片处理的成本 (不用洗出来 再挑). 一般来说 单反照出来糊的有几个原因: 快门速度过慢 slow shutter speed 单反的安全速度是焦距的倒数,...
  8. ChatGPT-4 使用 Math Wolfram 插件解决数学脑筋急转弯问题 这篇文章, 我们看一个简单的数学问题(脑筋急转弯), 并用 Python 解决它. 我们看一下LLM(大型语言模型): ChatGPT3.5和ChatGPT4. 通过 ChatGPT-Plus 订阅(目前每月 20 美元 + VAT增值税), 我们可以启用...

2025.02.18 11:17

如果从一开始 AI 就以异族崛起的形象深入人心,或许人们的警惕和担忧会比担心被替代更真切和实际一些。而现在的情况是,人们表达担忧更像是一种时尚潮流、一种未来将至的躁动。长着人类无法理解的面孔(如果有面孔的话)的外星人和妳的亲人朋友,妳会向谁倾诉?在许多人心里 AI 不但不是异族,反倒是更可信的朋友——只是不想让朋友过得比自己好,这很人类。

fin.

创新、内卷与结果主义

DeepSeek采用的是「蒸馏技术」,这一点毋庸置疑,所以在这里就不再探讨它的行为本身。毕竟它现在和黑神话悟空一样,已经与爱国主义捆绑,吸纳足够的个体,形成了可以对抗一切个体和其他群体的乌合之众。

但是蒸馏技术确实导致了我们可以实感的「结果」的发生,这是一个使用低成本芯片制造的AI,从而在中国掀起了狂热的浪潮。从结果而言,它就是成功的,这一点也毋庸置疑。

先说结论,比起质疑结果,最有效的方式是质疑「动机」。


最近给自己放了个假,但是播客并没有断更,本来想做一期「质疑坚持」的话题,但或许显得有些炫耀,这个话题就拿到博客来讨论了。坚持、因为坚持产生的结果、结果被质疑、和反驳质疑。这看上去是一套正确流程,但乐趣就在「结果被质疑」的环节,让一个原本是客观事实的行为,变成了一个需要去迎合主观的自证陷阱

我在大学是认真做笔记的那种学生,不是我好学,而是我真的很喜欢做笔记(因为它是一种强烈操纵感的体现,这个是后话)。所以每到期末考试之前,我的笔记就会被借出去复印成册。但我的笔记得到的负面评价是最多的,因为里面有太多只有我自己能看懂的内部逻辑。

久而久之,借笔记的人就变少了。大学的期末考试和高考还是有本质区别,不会因为你多个0.5分就可以跻身靠前几百名。但真到了司法考试前夕,借笔记就变成了「敏感词」。同学之间会以各种说辞借口,不再愿意互相借笔记,我依旧开放借笔记的通道,迫于无奈,他们像是抓住了救命稻草一样,复印我的笔记,然后骂我的笔记。

从结果来看,我提供了笔记,但从借笔记的同学的角度来看,我提供的笔记毫无价值。


这个「坏习惯」,我保留到了工作领域。到现在,我制作的PPT都是简单到一页只有几个字,以及大量的内部逻辑排列。在职场上面,我可以放心把PPT交给任何人,因为这不是一个拿去就能照本宣科的结果。所有的结果在我的脑子里,只有我站在投影前面才能讲清楚这一页的几个字背后的内容。

因为这件事,我被骂过很多次。特别是交给主管的PPT,他拿到之后还得让我写一份与之对应的「演讲稿」。

如果「结果」能用,那它就是个「好结果」。同时,基于「好结果」创造出「更好的结果」,从结果主义的角度来讲,它当然是「好结果」。

换个场景,如果把笔记借给了同学,高考的时候,他因为你鉅细靡遗的笔记,考出了超过你15分的成绩,你真实的心态是什么?又或者,你制作的方案被同事冒用抄袭,你却拿不出任何证据,同事因此还获得了晋升的机会,你真实的心态又是什么?

这个时候,或许就值得去探讨「基于结果诞生的结果的结果主义」了。


这场游戏里的主体是谁,就直接关系到结果主义与功利主义结合时产生的「怪胎」命名。如果我们是借笔记的,那很有可能这个结果主义是被「创新」命名的;反之,则被称之为「内卷」

这套「双标系统」是对自我的说服,但同时也会成为递给对方的刀柄。

当「创新」被「内卷」质疑的时候,就会形成最开始我提到的「自证陷阱」,因为主体的切换,你无论怎么证明,都无法逃出结果主义的游戏规则。

当然,这个时候,如果真的有通过坚持完成的结果,这样的结果要如何质疑呢?

因为它本身没有依赖任何「结果」,所以很难双标地认定结果本身的价值。

那这个时候就要回到结果的上一层——你的「动机」有问题。

例如,借个笔记怎么了,你是不是害怕我考得比你好啊!

又如,你做的这个PPT是在防谁啊,你这么不信任同事,你自己出去创业啊!


不过,这还有后招,不妨去问问DeepSeek好了。

人何以为人

「年」终于过去了,我终于又能在工作缝隙,不经意地听客人们的聊天;她们在聊 DeepSeek。这让我想到近期看到的两个观点,其一来自某篇英文博客文章——不知怎么我的 RSS 阅览器数据库清空了,所以抱歉找不到原文地址——大致是说:我们曾以为人工智能会帮人类洗衣做饭,人类则有时间去做更有创造性的工作,而现实是人类在做更多的琐碎杂事,人工智却被用来创作绘画、作曲、做视频。其二是刚看到如一兄说「铺床可以对抗 AI,因为这件事 AI 没法帮妳做」。一个抱怨 AI 不会铺床,一个则是用铺床对抗 AI。多么有趣。

着手研发会铺床的 AI,以便人类可以腾出时间去创作;等到 AI 学会铺床的时候,依然坚持自己铺床。这两者在我看来都是在确认自身价值和意义。归根结底,是在追问人类何以为人。人的价值既在于创造,也蕴含在那些看似琐碎的小事中。即使有一天 AI 能取代人类的所有工作,它也无法否定人的意义。

fin.

❌