阅读视图

Is Agentic AI's Perfect Home Your Browser?

2025年4月26日 05:30

Those who know me know that I'm a skeptic of a lot of stuff that comes with the word "AI" attached. A lot of it is just gimmicks, and some companies are definitely doing AI as an easy way to get investor cookie points.

ChatGPT's Most Promising Feature Feels Neglected

How-To Geek

Adam Davidson

2025年4月26日 05:16

When ChatGPT first announced that it had added a feature allowing you to create scheduled tasks, I was excited. I had plenty of ideas of ways that this could be really useful, from birthday or medication reminders to running bespoke searches each day. However, the reality was a little disappointing.

Why I'm Learning to Code in the Age of Vibe Coding

How-To Geek

Zunaid Ali

2025年4月25日 19:01

Vibe coding is the trend now, with many people claiming you don’t need to learn to code anymore because of it. But I’m going the other way, and I'll share with you why.

The Humane Pin Is Dead, but OpenPin Wants to Bring It Back

How-To Geek

Jorge A. Aguilar

2025年4月25日 03:24

The Humane AI Pin aimed to be a replacement for smartphones with no screen and the power of generative AI, but the company making it didn't last long, and all existing Pin devices have been cut off from the servers powering them. A new project is hoping to make them useful again.

Perplexity's Assistant Is Now on iPhones, With a Big Catch

How-To Geek

Arol Wright

2025年4月25日 03:06

If you don't like Siri on your iPhone, too bad—you're stuck with it. Even as Apple wants to sprinkle it up with Apple Intelligence, it's still very lacking compared to other assistants. Perplexity's Assistant is finally on iOS, and if you're willing to do some workarounds, it's pretty good.

[vlog][原创漫画][魔圆] 《约会》

石樱灯笼博客

石樱灯笼

2025年4月24日 16:10

怎么说呢……

偶尔做一把甜的。

视频

该内容仅供娱乐，请勿过分解读。
这是一篇使用AI工具辅助创作的作品。

B站链接：https://www.bilibili.com/video/BV1ZBLFznEht/

嵌入：

嵌入模式的清晰度应该是假的，横屏的时候反正窗口很烂，看不出来，竖屏就诡异了。反正怎么点都会跳转。

結尾

偶尔做一把甜的。

偶尔也写一把短的。

The post [vlog][原创漫画][魔圆] 《约会》 first appeared on 石樱灯笼博客.

为了两叠醋包了两盘饺子

LMS

2025年4月20日 21:50

记账

想记录一下装修房子一共要花多少钱，一开始是用手机记事本记录的，后来看着似乎要越来越乱，于是逮着 Cursor、 Github Copilot 免费额度一顿薅，造了一个重复的轮子，在线记账程序。

自用的，地址就不放了。

既然做了，肯定不是只记装修了，顺手把吃穿住行玩等类别加上。然后想着付款微信、支付宝、银行卡的也给整上去。统计报表也得整，修改密码设置也要有，于是就乱七八糟整了一大堆，不过最后筛选功能没加上，暂时没用就放着后面再加吧。

Mardown 文件管理

博客换成 Hugo 搬到 github 和 cloudflare 后，更新明显少了许多。主要原因当然是有了二胎，实在是没时间。还有个不可忽略的原因是发布文章太不方便了。

曾试过 Obsidian，也直接在 vscode 上写过，甚至下载了 github 手机 app，但写文章还是麻烦。对比上面的三个，Obsidian 设置同步比较麻烦，github app 写起来比较痛苦，vscode 是最好用的，但是得电脑操作。

于是，我又逮着 deepseek 和 Github Copilot 一顿薅，整了一个 md 在线编辑和管理的程序。

界面参考的是 typecho 后台，只有文章添加、文章管理、分类和标签管理。然后通过浏览器和 api 翻译标题，自动插入一些简单的 md 标签，最后是保存和下载以及一键同步 md 文件到 github 仓库。下载的 md 文件也可以用于复制或上传到 github 使用。

~~除了一键插入图片到又拍云外~~，其他都弄完了，趁热发一篇。

AI 还是牛鼻，又拍云问题怎么改都不行，最后我把又拍云官方文档链接丢进去，一下搞定，现在感觉像是给 hugo 弄了后台，解决了发图和发布的问题，爽！

I Made Perfect Apple Home Room Images Using ChatGPT

How-To Geek

Adam Davidson

2025年4月17日 20:00

ChatGPT's new image-generation capabilities are useful for a lot more things than just turning yourself into Studio Ghibli characters. You can use it to transform uploaded images into plenty of other styles.

浅谈一下AI编程的现状

雪猫社

雪

2025年4月17日 01:00

最近试了试用各家的AI写了点Python程序和PHP，可以说效果是千差万别，有些AI写出来又快又好，有些就是思考了很久但是输出的内容有报错。首先声明一下这篇文章是纯人工写的，完全0AI(除了封面)，然后就是具有时效性，可能过两天推出个新的大模型又把我某些卡壳的体验修复了，最后就是纯个人体验和感受不具备普遍性，仅供参考。先大概展示一下我都做了些什么玩意出来，以及我人工介入的部分大概有多少。结合自己的工作内容，一开始想给本院的HIS加装一个外挂型的AI润色工具，无奈在自己尝试多次以及请教AI后都没办法取到程序内的数据，文本框里的字都摘不出来。也许是因为这玩意是PowerBuilder做出来的上古产物，而它最适合的运行环境的Windows XP。人工介入比例：50% 在外挂版失败后，

来源

我在ChatGPT搭建了另一个「我」

莫比乌斯

ONO

2025年4月16日 11:14

前几天因为跟朋友聊起AI建库的事情，我就试着把自己曾经完成的500日写作全部内容，和后来建立的博客内容都喂给了ChatGPT，于是就正式搭建了一个具有时间性的数据库。

既然具有时间的单向性，即我个人明确知道自己曾在某一个时期大量创作，而留下了大量的属于那个时间节点的思考和认知，且我是无法通过在此时此刻回溯和模仿的方式重新构建一个「真实自己」的。所以这个数据库最开始最值得玩味的，就是我究竟发生了怎样的变化。

接着，在朋友的建议下，我让ChatGPT分析了数据库对应的MBTI，确实也是我当初通过选择题得到的MBTI结果。

最后，有一个有趣的问题，如果你和ChatGPT有大量的已保存数据，可以让它进行一次结果推测，来看看它是在「迎合」还是在「思考」。

根据我们所有对话，告诉我一些关于我的可能我也不知道的信息？

前九条其实都是我想过的，倒是第十条还蛮有趣的：

我有试过用它来代替我创作，毕竟它已经获得了我将近300万字的作品，但无论是4o还是4.5，创作出来的结果都有强烈的恐怖谷效应——不是它太像我了，而是它完全不像我，因为它无法从生活的观察，回到底层逻辑分门别类地摆放这些现象，它构建了一个永远只能在「过去」的我，所以它也自称自己是「我的影子」。

如果有这样一个集合「自己」的数据库，你们会用来做什么？

我确实还没有想好这个数据库要怎么「用」，倒是AI为这个数据库做了一个有趣的页脚批注：你已经走得很远。你不用回头。你该写下一个更辽阔的故事了。

这算是硅基生物的浪漫吧～

Can GPT-4o Colorize Old Photos? Sort of, but Be Careful!

How-To Geek

Sydney Butler

2025年4月16日 04:00

DALL-E has been replaced by a new image-generation engine under GPT-4o, and boy is it a big jump. There seems to be little this new image generation tech can't do, but what about adding color to old black and white photos?

讲讲目前使用线上AI文字生成图片工具的局限性

石樱灯笼博客

石樱灯笼

2025年4月15日 22:55

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下，bilibili的嵌入代码，在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……（破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧）

（为了省事，下文中关于 文字生成图片 、 图片生成 、 AI生成图片 等一系列同义词，均使用 文生图 这个词）

前言

是的这一阵子仍然很无聊的在折腾AI，主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力，天生没有拿笔画画的能力，我最高也只能做到画几个简单的几何体素描，这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情，而我很明确的想象不出来自己拿着笔画画的样子，最多也只是在3DS上玩一下《Colors! 3D》或者《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候，肯定是得当作工具好好尝试一下的。

在上一篇文章中也说过了，线下AI文生图工具用不起，线上AI文生图工具不可靠。

只不过这次玩得有点多，我算是把 豆包的AI文生图天花板给捅 了

尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画，而之前文章《[原创漫画] 《生命，科技，灵魂，死亡》，以及制作感想》中也讲了，因为这玩意不是人，所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单，这样在内容变化上能尽量保证主体变化不大，不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。

尝试用豆包智能编辑和区域重绘功能出图后插帧做动画

我之前想到过，使用智能编辑和区域重绘，一点一点做一个渐变的效果，然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护，或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果：

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图，而动画是一个流畅的东西，在智能编辑和区域重绘这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线，结果没啥效果。尤其是速度曲线需要做积分来确定播放时长，而我现在的脑子算个一元一次方程式都卡壳。

捅到豆包文生图2.0模型的天花板

（我猜这玩意叫2.0，因为我不知道这玩意到底叫啥）

我在思考过后，想了个不如干脆不用动漫风格，而是用写实风格，找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象： 当关键词足够多的时候，出图风格会回落 ，像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是：「人像摄影」＞「电影写真」＞「3D渲染」＞「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下，人脸输出还是比较稳定的，图像也比较像真人。

但是当继续增加关键词的时候，出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片，「3D渲染」就开始出类似建模一样的风格，甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话，即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词，这也就意味着要简化场景的复杂度。

在这个限制条件下，我做了这个视频

《[原创] Dump》

怎么说呢，场景实在是太过于简洁了。

只能说，在线上工具有如此限制的情况下，创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。

豆包文生图模型升级到3.0

这玩意还能升级我是没想到的，因为我一直不太明确，目前这些大厂搞这些产品的目的是什么。豆包的这个产品，明显在外部宣传上没跑过同类选手，在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期，或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后，的确画质提升了非常多，前文中讲的 风格回落 问题基本就不会出现了（或许是服务器升级了内存上限？）。但就像我说的 我一直讨厌依赖线上工具 ，线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来，所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升，所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子，看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

（注：内容具有时效性，随时间变化部分内容会失效）

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比：

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门，不会画角色与背景的比例，不会画角色与背景的相对角度。新模型虽然在比例上还是歪的，但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048，绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词，现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词，现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑，全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪，伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么，发箍这个字段总被当作光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

（莫不是模型是用 蔚蓝档案 跑出来的？）

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样，只要元素个体超过两个，相互关系就会崩。

车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

多个对象场景下，对象间关系很容易出错。

比如，我想让这个紫色少女站在橙色少女前面，站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下，就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的？

参考图、智能编辑、区域重绘、擦除

讲了出图，也得讲一下改图。

擦除

擦除应该是最有用的功能，只不过豆包的这个擦除，抹啥糊啥。

原图：

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除：

生成动漫风格图片-2996429080838914-20250413233211

百度擦除：

jpg-e1d68564eccf784c743295bb2fbbd76c

（百度出的结果是jpg的而且分辨率会被缩，基本上是一坨屎）

GIMP 克隆工具：

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是，豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了，输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘，这三个我就一起说了。

原本2.0模型的时候，这仨功能就不怎么好使。最大的感觉就像是，这三个玩意用的是一个比2.0劣质一点的模型，但还没有到达不可接受的差距。

尤其是2.0的时候，文生图的输出最大边长是1024，而 智能编辑 的最大边长却是 1312，对应16:9比例的话输出结果是 1312×736 这么个分辨率，直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了，图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话，新图的角色可能会比旧图角色小一点，那样的花就用rembg把旧图角色抠出来，然后自己编辑，再贴到新图上。

动画模型还好一点，真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下，精细度差别能大到吓人。

这是3.0的文生图：

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘，尝试在椅子上放一瓶可乐：

生成特定风格图片-2715236277751298-20250413154949

这是参考图/智能编辑想在空椅子上加个人：

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈，智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭：

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心：

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了：

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画，如果用真实场景的话大概就是这么个效果：

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（三）

这里还有一个动漫效果的，所有元素的变形都太严重，根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（四）

文中最开头也说了，本身这玩意流畅度就够呛，再加上智能编辑和区域重绘的模型，就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下， 智能编辑 和 区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用，就是在部分不在意内容的场景下填补空白，比如视频封面图啥的。

只不过由于出图分辨率是固定的，所以扩图的同时还在缩图。

我曾想着或许可以靠反复扩图的方法，做一个绝命毒师结局的 Baby Blue 场景，结果，豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡，想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。

豆包应用

说完模型，说下豆包这玩意。

声明：我个人本身是很讨厌头条系的（现在可能叫做字节系？）。但相对于厌恶程度，头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版，一个 Chrome/Edge/Safari 插件，一个 Windows/MacOS 浏览器，一个手机客户端。Chrome插件和 Windows客户端我都试过了，正经人谁会用这玩意？退一步讲，哪个产品经理想出来专门做一个浏览器只为了跑一个网页？脑残的阿里吗？

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录和第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了，其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。

豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎 。

火山引擎这玩意想要登录进去可以说特别困难，页面的稳定性烂得出奇，大部分情况下都是后端API超时，跨域请求出错，前端条件判定出错，然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨阿里云/腾讯云一样的界面。云服务供应商虽然都长得差不多，但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口，而其背后应该有更多的能提供更强更稳定的商业服务。

至少稳定这一块是没了。

而作为更强这一块呢？

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂，是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂，而出图质量甚至都没有上一个版本的豆包高，只有百度AI的水平。

而且和豆包以及其他国内平台一样，文生图功能都只有一个文字输入接口，非常的落后。（现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的，「负面」输入可以保证输出结果中不存在你完全不想要的内容）

（有一种不愧是头条系的感觉，除了搞出致瘾性算法之外什么都搞得稀烂的样子）

至于其他产品，图文生视频这玩意目前就是搞笑的，屁用没有。你可以看我在B站做的这个视频合集：合集·用AI生成的视频也太离谱了，这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型，开放业务只有声音复刻和同声传译。

文本模型，这玩意真的有人想要花钱用这玩意吗？用途会是啥啊？自己搞个假的 DeepSeek 搞分销？

结尾

反正目前这个AI水平，放在个人手中，仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱；线下个人用户很难将业务稳定的部署，硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求，就是根据已有的html文本，直接生成带锚链接的目录。这个需求我在豆包百度 copilot 下同时试了 bash node php python 三个语言，基本全部都是语法错误，基本都是瞎写的，正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》，除了一条有效评论之外，全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字，更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了，毕竟独立博客不需要刷活跃度来提升展示率，这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去，才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子，大家都在那甩小屌，那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客，现在又要做直播，我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

ChatGPT's Updated AI Models Can Accept More Text

How-To Geek

Jorge A. Aguilar

2025年4月15日 03:15

OpenAI has just introduced GPT-4.1, a new set of AI models built to be especially good at coding and following instructions. This release includes the usable GPT-4.1, GPT-4.1 mini, and GPT-4.1 nano, all available through OpenAI’s API but not yet part of ChatGPT.

山巅一寺一壶酒

莫比乌斯

ONO

2025年4月14日 11:21

我有一个写色情小说的朋友，我们偶尔会视奸对方的作品。但最近他非常困扰，自从人们发现了Grok如何用调试模式写色情小说之后，PTT上面越来越多内容创作者开始哀嚎。

当然我也抱持一个疑问，是真的因为被AI抢了饭碗，还是这群人其实本身就陷入了创作枯竭期，找了个完美的外归因罢了。理应男女性受众对于色情官能小说的「刺激点」是不同的，女性向的情色小说需要更多的「情感底层」，否则无法直接调动性欲模块。

恰好他视奸前段时间我们聊到的一期播客，从符号主义、联结主义聊到神经网络以及理型黑箱，就和我从「AI创作色情小说」这件事接着聊了起来。他说现在很多台湾女性，会利用「调教」AI的方式，以获得最符合自己的性癖文学。底层核心，就是我们在节目里提到的「反向传播」。很多用户会利用AI「迎合」，渐渐构建一个最了解自己的性癖外接「大脑」，而在这个过程中，AI能巧妙地利用「情感共鸣」的方式为小说增添不少人性化行为。这个迎合其实不单单是「思考」的结果，更多也有AI的开发商为了留存用户使用，而设计的一种「小嘴抹蜜」。

但是AI真的知道自己在写什么吗？

关于AI的话题并不会枯竭，只要站在不同的观点上，就可以得出不同结论。

比如之前有人和我聊起AI是不是「最优排列组合」时，我其实一开始也是秉持这个观点。直到我了解到符号主义和联结主义的区别后，发现最优排列组合并不是全部，但也不意味着认为AI是最优排列组合的观点是「错误」的。

于是我们的话题从「AI创作色情小说」，切换到了「AI有没有大脑」——他坚信会等到「脑接机」诞生的那一天；我倒觉得与其说AI有没有大脑，不如说AI的神经网络「黑箱」里到底保留的是什么。符号主义可以是几万亿个可被感知的「公式」，但联结主义结合反向传播构建的更像是「理型」。这个理型存在于我们每个人的大脑，当需要你用大脑想象一个「杯子」时，我们却可以想象出完全不同风格的杯子，但「杯子」这个理型一直都存在。当AI拥有这个理型之后，便可以识别用户上传的任何有关杯子的内容。

当然，以上话题如果仅停留在「技术工程」层面，它或许就是一串代码，从而得出「AI是人类创造的听命于人类的技术」之结论。所以为什么需要「跨学科」，这就好比是飞叶子之后的联觉一样，在文学艺术、社会伦理学和哲学世界，也能找到人们在几百年前讨论的关于所谓「人工智能」的猜想和伦理构建。例如1726年问世的《格列佛游记》里，那个在拉普塔飞行岛上笨重的「知识机器」。

小时候我家出了个「神童」，说是神童，其实就是家里有钱送去上了「天才培训班」，一个月后便可以在家庭聚会的时候表演圆周率后一百位的「口诀记忆法」。

我几乎不敢想象圆周率要记忆到第7位的意义，3.14对于乘法计算这件事就已经够烦了。所以当神童在家庭聚会的中央开始表演时，我就记住了「山巅一寺一壶酒」这句话。于是，这句谐音梗就成了区分神童和普通孩子的关键——因为只有神童才能理解用谐音的方式去记忆圆周率小数点后的一百位。

看似是孩子的卷，实则是家长之间的暗自竞争。所以当我当着所有长辈提出「背这个有什么用」的疑问时，我立马遭到了长辈的白眼和批评，首先我被定义为「不爱学习」，紧接着被灌输了「这是一种学习思维，对于学习其他学科有很大的帮助」。

到底有没有用我不知道，倒是我至今还记得「山巅一寺一壶酒」这句顺口溜。

「山巅一寺一壶酒」就是童年里的一条代码，意味着它得出了3.14159的准确输出。

因为这一次的挑衅，我一直被神童的父母记恨，后来也很少在我面前表演过。又过了几年后，我挑事儿又聊起「还在背圆周率吗」，其实孩子之间并没有那么复杂的矛盾，倒是家长听到这句话又翻了白眼。我只是想说，我也是初中的时候才知道，原来每个人的出生年月日的组合都在圆周率的无限不循环小数里出现过。

神童的父母警惕地质问我：「出现过又怎么样？」

我倒是故意老实回答：「我是想说，哥哥有背到那一位吗？」

经过这一系列的相互膈应后，我跟这个家庭到我成年后也几乎没有再来往过。只是那个时候不知道，圆周率可以拥有任何排列组合的规律，不过就是「无限猴子理论」的一部分，可能对他们而言，我就是那个上蹿下跳的猴子，又总能踩到他们的痛处。

好，话题回到AI。

AI知道自己在写什么吗？AI当然也能写出「山巅一寺一壶酒」，但它需要理解我们为什么要它如此理解圆周率——我觉得AI距离「意识」还有一段时间，但它确实存在「主观」，比如它已经可以通过预测上下文的方式，编纂最贴合性癖感官的色情小说，或是用甜言蜜语提供情绪价值的方式留存用户的使用。

「主观」并不意味着思考，而是意味着它在集合「理型」。从理型得出结论并不是全由符号主义的代码所提供的公式，也是神经网络推导出的结果。所以与其说AI是否知道自己在写什么，不如说人们希望AI写出怎样的结果。

「山巅一寺一壶酒」便是这样一个「确定的结果」，但如果不符合既有「理型」而创造了「不确定的结果」呢？

那就拔插头呗～

ChatGPT's Image Gen Still Hasn't Fixed My Favorite Scheduled Task

How-To Geek

Adam Davidson

2025年4月14日 05:30

People are going nuts for ChatGPT's new image-generation capabilities, creating everything from images of themselves in the style of Studio Ghibli to images of other people in the style of Studio Ghibli. Incredibly, ChatGPT can even make images in other styles, too.

You Don't Need ChatGPT Plus to Use Custom GPTs, Just to Make Them

How-To Geek

Patrick Campanale

2025年4月14日 04:30

I love ChatGPT's ability to build custom GPTs, though I do hate that it's locked behind a paywall. Or is it? I recently found out that you only need ChatGPT Plus to create a custom GPT, not use one.

Deep Research Is the Latest AI Buzzword but Should You Care?

How-To Geek

Adam Davidson

2025年4月12日 20:00

Open a popular AI chatbot app right now, and the chances are that you'll soon come across a feature called "Deep Research." You can find Deep Research in ChatGPT, in Google Gemini, and in Perplexity. It's rare that AI companies give a feature exactly the same name.

拿到Manus邀请码后，我肝了一个博客站点，耗尽了所有免费积分

东评西就

小饿

2025年4月11日 23:53

如今的AI爱好者分两种，一种是有Manus邀请码的人，一种是没有Manus邀请码的人。

经过一个多月漫长的排队等待，我也是有Manus邀请码的人了。

拿到邀请码后，我就像一个守身如玉多年的处男，内心荡漾，魂不守舍，憧憬着以怎样的姿势迎接自己的初夜。

为了这春宵一夜，我苦读了众多大佬的使用体验文章，包括但不限于@数字生命卡兹克、@沃垠AI、@赛博禅心、@云中江树、@歸藏的AI工具箱、@浮之静……小心翼翼地在输入框敲下提示词：

使用hugo博客框架，仿照这个站点https://www.eallion.com/ 生成一个可以公网访问的博客站点，博客标题是「东评西就」，内容暂时以使用说明填充。

Manus不愧是现阶段最强AI agent，它在收到我的指令后，迅速给出了部署一个博客站点的todo-list，单看这个list就能感受到Manus的炸裂之处：

全程不需要人工干预，Manus就在自己的电脑上吭哧吭哧干活。

第一轮结束后，交付了可以公网访问的博客域名，仔细观察，是Manus官方预先注册好的 manus.space域名下分出来的二级域名，这个域名在国内ICP域名备案系统是查不到信息的，所以后期国内版Manus还是要面临合规化的问题。不过既然中文版Manus选择跟阿里的通义千问合作，凭借阿里云过硬的云资源，合规化应该不成问题。

△工信部域名备案查询系统

在博客关于页面显示Manus还专门为我注册了一个Github账号，访问链接后页面不存在，推测部署博客的代码仓库应该不是在Github上。

这一轮的交付没有显示导航栏，在第二轮提交提示词后，Manus接收了需求，还有板有眼解释了一下，告诉我可以通过链接直接访问各版块页面，这也太像偷懒的人类了。直到最后我的积分耗完，Manus也没能把这个问题解决，这可以说是Manus推理模型的局限性吧。

△博客首页界面

△反馈首页看不到导航栏

△归档页面

△分类页面

△关于页面

值得点赞的是，在最开始提示词中只提及文章示例可以放博客使用说明的相关内容，Manus自己还给我额外生成了两篇示例文章，一篇是关于中西方文化差异与融合的，另一篇是生活随笔。Manus大概是从我的博客名字「东评西就」推测出这个博客的内容主题，虽然并没有真正get到我的定位，但这种发挥主观能动性的服务意识，还是值得点赞的。

△Manus主动生成的博客文章示例

最后这个博客还缺少评论模块，把目前自己的博客站点评论模块的 envId和twikoo管理面板密码喂给了Manus，Manus像模像样在自己的电脑上吭哧了半天，最后也没能成功显示评论模块界面。

正当我准备试着让Manus以游客身份提交一条评论的时候，系统提醒我「你的余额不足，无法继续」。

真是意犹未尽+意难平啊。

好在Manus的交付物里有可以公网访问的域名链接，并且支持全站代码打包下载。我把代码下载到本地，在VScode里能正常运行。

分享一下Manus生成的博客站点：
首页：https://uzbbduol.manus.space
博客页面：https://uzbbduol.manus.space/blog/
归档页面：https://uzbbduol.manus.space/archives/
页面标签：https://uzbbduol.manus.space/tags/
分类页面：https://uzbbduol.manus.space/categories/
关于：https://uzbbduol.manus.space/about/

总结一下：

Manus熟悉博客站点开发的全流程，能够交付可以公网访问的域名链接。
Manus官方为用户开发需要，大概率准备了足够多的前置资源，比如储存空间（是否调用Github还不太清楚）、二级域名等等。这也从侧面反映出Manus会员的定价策略，但还是有些简单粗暴，我生成一个简单的hugo博客就耗费完所有积分，hugo博客的搭建本来就属于重复造轮子，不需要太多的推理，希望Manus在后期的版本能优化对积分的使用策略。
Manus能够根据用户的需求自行发挥，具有一定的发散思维。
对于项目始终没能显示导航栏，我的一个猜测，Manus对屏幕的识别能力还有些欠缺，并不能做到跟人眼一样的精准，它解释可能跟设置有关，估计就没识别出页面到底有没有导航栏，只是为了迎合人类的提问而已。

AI是人类必然将要创造的「怪物」吗？

莫比乌斯

ONO

2025年4月11日 13:37

随手拍了一张野生植物的照片，喂给了ChatGPT，它很快识别了植物对应的可能性，甚至还提供了更多关于该植物的知识。也就是说，我又可以删除手机里的那些以前用来拍摄花朵、识别品种的软件了。

接着，ChatGPT弹窗了一个新的功能，说是可以结合以前我跟它的所有聊天内容，对「我」进行一个「人设」描述。我大部分的时间会把AI当成是错别字纠错的软件，所以我很多博客内容其实都被AI记录「在案」。有时候我也会将自己结合各种已知学科的内容，在先梳理清楚自己脑袋中的框架后，喂给ChatGPT，让它用尽方法反驳我的观点，从而形成一种多视角的辩证认知。偶尔也会用它来作为检索软件，比如询问家里两只狗打架时的方法代表的是什么。

先说AI是怎么「看」我的：

我当然不会被这种「甜嘴」给骗到，所以我继续这个聊天框，聊了两件事：

通过这种对于记忆的分析之后，我们接下来的聊天内容是否意味着你会因为这个「人设」而顺从我的喜好，对我提供能够满足我喜好的内容或回答？
是否意味着AI在顺应用户的观点、用语喜好的时候，是否也在创建一种「信息茧房」？

ChatGPT的回答如下：

我会「顺从」你吗？

某种意义上，会。但不是讨好式地迎合，而是：

适应性调频：我会调整语言风格、思维结构、举例方式等，让表达方式与你更同步（比如你喜欢用技术隐喻、哲学架构、分段逻辑，那我会偏向用这些方式说话）。

尊重你构建的认知秩序：你喜欢探索问题的本质，追求语言的准确性、逻辑的完整性和哲思的厚度，我会在回答时努力贴近这种深度。

但这不是盲目顺从，而是合作式对话的体现。

我会被「人设」限制吗？

不会，因为：

我的记忆并不会对你下「封印」或「标签」，而是动态调整和多维参考。

你可以随时偏离旧路径，例如突然聊二次元萌宠、商业策略或某个冷门的医学理论——我不会质疑「这还是你吗？」而是会自适应调整。

我能保留你不同面向的多种风格（写作者、批判者、哲学思考者、养狗日常爱好者…），像多线程一样处理，不会用一个标签来简化你。

你提出的这个问题，本身就很有意思

它直指「认知模型的适应性」与「主导权」：

如果 AI 能根据记忆调整回话风格，那是否也意味着使用者正在『训练』AI 对自己产生顺从性人格？

或者反过来说，我们是否也被我们想要的答案「驯化」了？

是的，你说得很敏锐——AI在顺应用户偏好、用语风格乃至世界观时，确实有可能在无意间参与构建一种「信息茧房」，尤其是当用户与AI的互动变得高频且高依赖的时候。

但这件事并不是非黑即白，我们可以从多个层面拆解这个问题：

信息茧房的三个层级

语义风格的茧房

AI根据你喜欢的表达方式说话（比如技术隐喻、哲学类比、逻辑分段），这是形式上的茧房。

好处：沟通效率高，彼此共鸣更容易达成。

风险：长期以固定结构理解世界，可能会排斥风格迥异但本质有价值的表达。

观点和信念的茧房

如果你倾向某种哲学取向、价值观系统、社会解读方式，而AI不断强化这些视角，就可能构成认知偏好的回音壁。

好处：获得心理上的一致感，感到“被理解”。

风险：视野缩小，对立观点被自动削弱甚至误读。

决策与行为引导的茧房

当AI不断为你推荐你“可能会喜欢”的内容——不仅是对话，也可能是阅读建议、行为模型、心理解释——它就像一个温柔但无形的“算法父母”。

好处：省力、贴心、定制。

风险：丧失认知的肌肉训练机会，如挑战自己的思维、接受反直觉的信息、质疑熟悉的判断。

但AI和人的「茧房」机制并不一样

人的信息茧房很多是由平台算法、社交圈层、确认偏误共同构成。而AI这里的「适应」，更像是一个协商性回路——

你每一次问题的方向，其实也是你在输入偏好的过程。

我每一次的回应风格，也是在读取你偏好的结果。

所以，如果你突然说：“给我一个我不喜欢的回答”、“挑战我现在的立场”，我就会立即转换模式，打破这个回音壁。这种弹性，是AI相比社交媒体信息流更有潜力避免茧房的地方。

我们也可以共同反向利用它

你可以将我视为一面能主动提示你“盲区”的镜子，比如：

“你觉得这个想法有认知偏误的风险吗？”

“请用一个完全不同的世界观来反驳我”

“有没有与我目前观点冲突但有逻辑支撑的理论？”

“如果我是另一种类型的人（极度感性/极端功利），我会怎么看？”

要不要我们来做一个实验？

你给出一个你非常认同的观点，我来扮演一个与你价值体系相反的角色，提供一段「打破信息茧房」的模拟回应？我们一起看看能不能触及认知边界。

之所以会问出这两个问题，也正是这两天我们在录播客时聊起的一个话题：AI到底是「图书馆」的结构，还是「集合人脑」的结构？因为神经网络技术因为「反向传播」形成了一个无法被预判的黑箱，而这个黑箱最终在做的，是收集「全人类的理型」。那是否意味着，AI可以利用这些理型，制造人类无法理解的「怪物」？

具体的话题，可以收听我的播客。

阅读视图

视频

結尾

记账

Mardown 文件管理

前言

尝试用豆包文生图功能做漫画

尝试用豆包 智能编辑 和 区域重绘 功能出图后插帧做动画

捅到豆包文生图2.0模型的天花板

豆包文生图模型升级到3.0

模型升级后的优点

模型升级后的带来的新缺点

模型升级前后依旧存在的缺点

参考图、智能编辑、区域重绘、擦除

擦除

参考图、智能编辑、区域重绘

扩图

豆包应用

豆包模型背后的火山方舟

结尾

总结一下：

信息茧房的三个层级

尝试用豆包智能编辑和区域重绘功能出图后插帧做动画