普通视图

发现新文章,点击刷新页面。
今天 — 2025年4月29日独立博客

折返点 2517 训练第 12 周,背靠背强度训练达成

2025年4月29日 05:08

2025 年第 17 周

18周训练计划的第12周完训练成了。本周计划跑量约 55 英里,实际完成 60.9 英里,完成跑量计划的 111%。 本周亮点
  • 4月21日,SU跑群的朋友们完成波士顿,在App上追踪朋友的42公里。
  • 4月23日,绿湖跑步看到乌鸦骚扰白头鹰,以小博大。
  • 4月26日,半马tune up跑出6:46/mi配速,创个人第二好成绩。
  • 4月27日,背靠背强度课程的17英里长距离完成。跑友们去跑伦敦,尤金等比赛。

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命


AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天,新一代视频生成工具Pollo横空出世,再次刷新了人们对AI创造力的认知。只需上传一张图片,Pollo便能生成5秒左右的动态视频,无论是充满浪漫氛围的法式接吻,还是童话般的公主抱画面,都能精准呈现,细节生动,情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式,Pollo的操作几乎简单到极致,大大降低了内容创作的门槛。这种从”静态到动态”的极速转化,不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破,也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年,AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现,标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户,都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化,远比我们想象中还要快。也许在不久的将来,”一念成片”、”一想成电影”不再是幻想,而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频,只需要一段话或者一两张图片。注册后有100个积点,可以免费用10次,每天还可以打卡获得积分,感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频生成工具:付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件

Pollo AI视频制作工具:短视频的利器,可以图生视频,文生视频,也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重,现实中我真抱不动,更不用说来一个公主抱了。

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook

法式接吻 French Kiss

和媳妇来个法式接吻,秀个恩爱

也可以把ChatGPT生成的Ghibli动画图片拿来用!

也支持在Ghibli动画图上二次创作。

我媳妇说:生成视频不清楚,很模糊。确实是,感觉之后AI Agent会互相协作,视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了,听说2027年就能全面进入AGI时代,到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了,被社会淘汰的会是那些不懂得用AI工具的人。

Pollo立马注册,上传一张照片就能生成AI视频!

AI 图片/照片/视频 工具分享/小技巧

英文:AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 917 个汉字, 你数一下对不对.
只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频 人工智能 (AI) 在线工具 小技巧 视频 资讯 软件
The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 个人网站Adsense广告申请通过: 需要最少15篇文章 我的个人网站 zhihua-lai.com 本月通过了 Adsense 审核,终于可以再次放置广告,赚些零花钱了。 其实,最初 Adsense 账户通过审核后就能直接放广告,但后来规则变得严格了。如果一个网站长时间没有放置任何 Adsense 广告代码,账户资格会被撤销。重新启用时,需要进行单独审核。如今,在 Google Adsense 中新增一个域名,也必须通过审核后才能投放广告。 为了让我的网站通过审核,我尝试了几次,但总是被拒,原因之一是必须要有足够的内容支持。例如,以前我做的工具网站 SlowAPI.com...
  2. 特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈,据说,特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的,具体如下: 其中 I 是 Import,进口;E 是 Export 出口。 优美又实用的公式家族又添新成员 勾股定理: 欧拉恒等式: 牛顿运动定律: 爱因斯坦质能等价公式: 特朗普的“互惠关税”公式:,其中 I...
  3. 新的旅途 – 离别总是伤感的, 离开了一起创业的公司 2周前, 正式离开了一起创业的公司, 这公司是我博士毕业后的第一份正式工作, 待了8年多了, 离别总是伤感的. 我是9月初提的离职, 三个月 Notice Period, 最后的几周交接完工作确实没有什么压力了. 11月30号, 在公司最后一天, 公司有个习惯, 对于 Good...
  4. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  5. Minuet in C – 小步舞曲C Posted Youtube – 油管地址 孩子弹琴的时候最帅了. 我现在成了我儿子的粉丝了. Eric (Aged 6) is playing “Minuet in C” when...
  6. 因为一个 try catch 好几天优秀点赞程序挂掉了我却以为是节点的问题 YY银行有四个点赞程序, 分别跑于四台服务器上, 它们是: 股东点赞(代理给 @justyy ) 自己的号 足球队 优秀作者(排名前30, 还有跟随点赞) 这几天我就发现, 有些赞没有给出, 我还以为是节点的原因, 因为查看记录, 发现是...
  7. 儿子问我软件工程师的工作体验是怎么样的? 儿子问我软件工程师(Software Engineer)都是做什么的, 他很好奇我的工作内容, 我简单的说就是写代码+调试=解决问题. 正好那天是周五下午, 娃在上Papworth上钢琴课, 我一般都在车里剪视频利用起这个碎片时间. 我抱着笔记本在车里工作, 从年初就在忙一个大的改动, 忙了有两个多月, 终于差不多了, 两同事代码审核(Code Review)都通过了就差一些小改动, 所以我在车里还在努力, 根据收到的建议提交了代码...
  8. 伦敦海底捞火锅 (Hidilao) 好吃吗? 这一次去的是伦敦的海底捞(Hidilao)火锅. 已经开了有几年了, 这次等到英国疫情放开后才想着去试试. 以前听说人特别多, 得排队好几个小时, 这次大概是快中午12点去的, 给了个号码, 说大概要45分钟, 但感觉不到半小时就排到了. 伦敦的海底捞在地铁口(Piccadilly Circus)附近, 两分钟就到了, 不过感觉门面并不是很大, 一进门就是等候区, 用餐的在楼下二层....

善良的代价

作者 ONO
2025年4月28日 20:31

老婆在看一部名叫《成家》的电视剧,我一般会在吃饭的时间断断续续地看上一部分剧情。因为对剧本结构比较敏感,所以大差不离地都能猜到接下来会发生什么剧情。但今天的剧情我实在是「没想通」。

故事大概是一个前会员,在原本的婚介公司并没有得到很好的婚姻介绍服务,于是入会了别的婚介公司。这个婚介公司实则利用婚托来诈骗钱财,于是主角所在的婚介公司就坐不住了,跟踪这个前会员、收集婚诈的证据、好心通知前会员,却和前会员产生了误会和矛盾。我实在没明白这个剧情的走向,便问老婆:「这个中间缺少一个关键要素,为什么这个婚介公司不得不帮助这个已经从自己这里脱会的前会员呢?」

「因为善良吧。」

「等会,没有别的要素了?比如他们之间本身还有无法切断的利益联系。」

「就是纯善良。」

「行……吧……」我怎么说也是个写剧本的,看到这种「动机驱动」我也只能帮它找补——这部电视剧就是为了挽救中国社会婚育率的产物罢了。


善良是需要付出代价的吗?如果我们按电视剧的逻辑,可能善良仅仅带来的是剧情里必须要有的「误会」情节,一方面观众会期待「命运重锤」落下的一刻,但另一方面会有因为「误会」的扩大给那些善良的角色带来更纠葛的同频感受。

那说点真实世界的善良、以及代价。

下午和前几天携狗旅行的组织者约见聊了聊天,其实就是各自吐槽这次旅游过程中的傻人逼狗。我觉得这件事有必要,因为被这群傻逼折腾之后的负面能量总要找到必要的宣泄口。其实老板娘自己也明白,这样的活动本身就是费力不讨好的,因为她没办法约束参与者的素质标准,所以她只能不停用「小狗开心就好」来洗脑自己。

她或许是个善良的人,所以这样的善良也必然要付出「代价」。

一位带着8岁金毛一起旅行的女性,总共花费3000多的费用参加了这次活动。在入住酒店时,发现自己被安排在了别墅区的二楼,便以自己的金毛年纪大了上下楼不方便为由,要求老板做出调整。协商之后,一个住在标间的人愿意跟她交换房间。安排妥当后,金毛主人转头就要求老板娘退款3000元,理由是自己没有「被安排好」。

当然,这件事如果从契约精神的角度,确实可以以活动组织者没有考虑周全来作为争执点,但要求全款退费并不符合契约,除非这个金毛主人就此退出活动、自己想办法返程,否则她仍然在接受这次活动的服务。


人善被人欺或许有它的道理。

老板娘后来聊了些狗公园的趣事。比如一个狗主人,带着自家狗和邻居的狗一起来狗公园玩耍。结果自家狗把邻居家的狗咬伤,这个狗主人要求狗公园赔偿,理由是这件事是在狗公园内发生的。哪怕是狗公园的老板拿出了当时的监控录像,已经证明是两只狗打架造成的,狗主人仍然可以咬定「监控不清楚不能证明」。

这些事其实都有解法,但就意味着那个「善良」的人必须要脱下自己善良的外皮,在关系里去做那个毫无人情味的「恶魔」。

当然,这一切的定义都来源于别人,善良便于他们欺负,但一旦无法得逞、甚至是被对方反击,那就立马认定对方是邪恶的。但是大部分的人都绕不过一个弯——即当下他人对自己关于善良的评价是最重要的。哪怕是明知道对方就是得寸进尺的人,最好的结果便是达成博弈论里的零和博弈:自己的损失成为对方的利益,到最后也算是维系了那个「好人」的形象。

那这个得利的人,未来还会来吗?来了之后还会再一次地得寸进尺吗?还是说,这一次就干脆做那个坏人,让他滚蛋——就算他未来再来,你还会接待他吗?

善良不一定有代价,但为了善良而选择无法说服自己的伪善,那必然需要承担相应的代价。


算一笔账,看上去「当坏人」是需要承担代价的,甚至有的时候这个代价会导致「社会性死亡」的结果,比如自己无法在一个团队中继续生存,甚至是成为众矢之的。那问题在于,「当好人」就一定能得到「好报」吗?或者说,直到最后上演了农夫与蛇的故事,才有了所谓的「人物弧光」,成为了大家嘴里的那个「伟光正」。

举个例子,昨天我也在朋友圈聊起了「社区蟑螂」的事,朋友问我真希望同时也有「社区杀虫剂」这样的东西——其实有,但前提是「你愿不愿意当坏人」。比如昨天那个肇事的老太太,对自己的家人宣称的都是「我家狗先叫」导致的事故。

我当然不能直接和老太太对峙,她突然躺在地上的威力远比我这个年轻人撒泼耍赖的要强。于是我今早故意绕道了小区聚集老头老太的区域,当他们看见我牵着狗出现时,我便假装一瘸一拐地走过去。他们立马上来关心我,因为他们也是昨天那场事故的见证者。在安慰我的同时,我也散布了一个消息:「老太太到处告状是我家狗惹事」。于是,这群正义感十足的老人们立马站在我这边开始声讨老太太。

这就是「杀虫剂」,没有那么高级,其实就是「人言可畏」四个字。

很显然,有人会站出来指责我,说我一个年轻小伙干嘛和一个老太太过意不去——对,所以我必须承认,这就是「坏人」的行径,但也避免了自己因为善良付出更多的代价。

同时,我并不觉得「算了算了」是错误的,只是我不觉得「算了算了」可以给自己披上一件伟光正的衣服。


那善良的代价到底是什么?

要解释这件事,就必须要承认善良或许会导致一系列代价。但如果有人觉得善良是应该的,且自己所要承担的妥协、退让也是善良的一部分,那与其讨论代价,不如讨论你把愤怒都发泄给了谁?是身边的至亲,还是脚边的小狗。

好了,总结一下善良的代价和路径:

  • 并不意味着善良都会付出代价,而是为了善良而选择无法说服自己的伪善;
  • 为什么要「善良」
    • 不希望发生冲突→确认自己是否是讨好型人格;
    • 需要维护外在形象→别人是因为什么喜欢自己?甚至是自恋型人格;
    • 我知道我会被背叛→这是安全感缺失症的「注定的背叛」,明天会聊到;
  • 为什么不要「善良」
    • 我没有成为那个每个人心目中的「好人」→他们在背后真的会认为你是「好人」吗?
    • 我就是看你不爽→确认自己是否是对抗性人格;
    • 我知道自己需要促成怎样的结果→也需要承担对应的结果和代价;
  • 善良的代价或许不是自己承担的,而是他人代偿的
    • 荣格心理分析学认为,阴影是人无意识或梦中同性但性格与自我相反的人物。即无攻击目标的的攻击性,会在无意识中对自己或无辜者开火。
  • 善良最大的代价,就是你意识到你变得「邪恶」是不用承当那些代价。

昨天 — 2025年4月28日独立博客

20250428

作者 61
2025年4月28日 22:35

今天听了一天唱片,Keith Jarrett 的《Sun Bear Concerts》,一套 10 张黑胶,是他 1976 在日本的五场音乐会钢琴即兴演奏录音。上周就到了这套黑胶,结果上机后发现盘面弯了,又拿去做了压平处理。

Keith Jarrett 的钢琴,非常适合作为工作背景乐。下午我看完了赫拉巴尔的《雪绒花的庆典》。这是一本短篇小说集,是那种经常让我噗嗤一笑的文字。

晚上继续听《Belafonte Sings The Blues》,这就是前几天 GPT 给我推荐的那张,好听极了。现在办公室还缺什么?应该是酒吧。

image.jpeg

20250427

作者 61
2025年4月28日 20:21

真的准备买个大书架了,Alen 甚至已经迫不及待买了一堆书回来。

image.jpeg

去天目里木墨线下看了看他们淘宝店里我想买的书架,但是这款深度不够,放不了黑胶。店里另外一款倒是可以,应该就是它了。接下来良好尺寸选好组合方式就下单!

中突发奇想我完全可以把黑胶柜的线材隐藏掉呀。说干就干,USM 模块化真是名不虚传,三下五除二就拆下第二层背板放到第一层。把电源处理器和唱放放到第二层去。这样第二层有门,第一层有背板,完全着遮住了线。同时黑胶塞满了第一层的一格,简直完美😍。

image.jpeg

下午努力了一会儿,又去打麻将了,今天是我约的,上头。

20250426

作者 61
2025年4月28日 20:06

南京回杭州,直接回了办公室。

ChatGPT o3 太好用了,想买一张唱片,它直接给我做了购买建议。复刻的版本里面,为什么我本来想买的那个并不是最好的,它存在什么缺陷。最后我就听话,买了它推荐的版本。

晚上和雪姨吃小龙虾,回家和 Alen 还有她的姐妹们一起看了北野武的电影《阿基里斯与龟》,不太喜欢。

20250425

作者 61
2025年4月28日 19:59

起床坐火车去南京。南京已经排在上海后面,成为了我看演出的城市。如果一个音乐会南京和上海都有,我应该以后会选择南京。坐火车时间差不多,但是南京南站打车去酒店和音乐厅都很近。

今天住的安达仕,本来我是那种永远选择同一个酒店的类型。但自从做了 Placify 后,我就希望在我的个人地图上多解锁一些新的地点。记录只是 Placify 的基本功能,当它能让你有一丝丝想法去探索这个世界的时候,它就不再是一个简单的工具了。人有的时候就需要一些契机和动力离开你的舒适区,做 Placify 就是我的动力。

南京安达仕很不错,于是这就是一次愉快的尝试。带的书还是《雪绒花的庆典》,在这样一个洒满阳光的书桌上看书,是一件多么美好的事情。

image.jpeg

晚餐确实有点纠结,而是去吃了上次来吃过的越南粉。吃完散步到江苏音乐厅,差不多时间正好。今晚是鲍罗丁四重奏,欣赏优美的音乐,时间就过的异常迅速。今年听了几场音乐会了?记不清了已经。

image.jpeg

今年不算好的开局…

作者 弋牧
2025年4月28日 15:32

今年我爸生病了,查出来三个地方都需要动手术【大腿、心脑、肺】
真的是岁数大了,没有养好自己,这个时候病都找上来了
不过所有病也可以说全都是因为一个原因造成的,抽烟!

大腿

本来只想着查一下大腿痛,没想到最后拍片子出来的结果是血管堵了,也就是拴了。
幸好今年查出来了,如果再拖一年,估计都要截肢了。可怕
这个毛病已经有好几年了,一直说痛,以为是累的也没当回事,今年实在痛的受不了也走不了路,才仔细查了原因,之前虽然也有去医院拍片做检查,结果一直查不到原因,浪费也不少钱还没效果,今年遇到一个负责任的医生,他帮着前前后后不停的跑各个科室问,最后才发现。前几年真是遇到那些医生没一个检查出来,误诊也差太大了。

然后住院检查,又查出因为这个血管引起的心脏问题,还有抽烟引起的肺出血。
原来是打算在本地医院治疗,后来和医生谈话,说了好多,总结就一句话:“这个病我能治,但医院设备不行,治好是医生技术牛逼,治不好是医院设备不行,也是我们命该这样,反正跟他没关系!”
这医生说的话完全是不负责!
跟家里人商量一下,换医院!!!后来多方打听,原来想去济南,最后刚才有认识另外的人在天津医科大那边有认识的医生,又打听了一下,说天津那边治疗的更好,最后决定去天津医科大总医院

第一次手术先治疗腿,再拖可能怕截肢,所以先治疗的这个。不得不说人家那边技术是真的厉害,但是病房环境只能说一般,连个窗户也没有,待的那些日子真容易把人憋死
手术挺成功,当时住院的时候,看到好多同病房的都截肢了,真的怕我们也是,幸好当时情况还没那么严重!
问了一下引发的原因,90%全是因为吸烟引起的这个病,看样子以后我也得少抽,或者直接戒烟了

前后忙了半个月,第一次治腿算是完成。
住院花费总计9万多,报销后共计花费:5万1。支架用的进口,没能报销。说是需要添加一种物质,防止引起二次堵死,不然就用国产了。

心脏

当时住院的时候也查了全身,医生说心脏三个管,也全堵了,如果再不通的话可能会引起心梗。
因为当时完全没有任何症状,也以治疗的时间放在第二位

第二次,时隔一个月去天津,重新办理住院,开始治疗心脏。这次还是比较顺利的,只是当时刚好赶上清明节,医生放假没能治疗,住了一个星期酒店。第二个星期办理往院,当天手术,观察没问题,三天出院
并没有我们想的那么严重,拍的CT当时也好象不太准,也可能是吃药有关,手术的时候,并没有堵的很厉害,直接通开,做了一个支架。
本以为会很严重,当时医生说如果三个全堵,要分三次手术,每次都要隔一个月,担心我们时间安排不过来,也担心连续手术身体能不能坚持住,更担心通不开需要搭桥
没想到运气还是不错,没有想像的那么严重,手术直接通开,做一个支架就行,另两个管也没有堵的厉害。听医生说只需要吃药就行,不需要手术。

两场手术全做的微创,现在身体恢复的不错。现在只差一个肺

这次去的时间比上次短了几天,住院共计花费3万1,报销后共计花费1万1千多,心脏也用的进口支架,但是可以报销。
不太懂为什么腿的支架费用比心脏便宜那么多
心脏支架800多块,腿的支架4万多,这差的是不是有点多了?

关于肺,可能要等到年底再治疗了,这次在本地医院就行,因为身边有人也是一样的毛病,在这边做的手术,挺好的
因为家里各种事情要忙,不能马上治疗,也给身体一些日子恢复一下。

还有一个原因也是我也是忙,从过年回来加起来请了一个月假,之后正好是忙季,真不一定有时间一直陪着。

工作和副业

年后回来公司这边经营模式貌似是要改,好多工作做了调整,事情也变的很多。我也因为家里事没办法,请了一个月假。
副业也是一样,今年竞争的同行变的更多了,越来越不好做了,收入差不多差3分之1,有时的月份收入少一半。
我也得再给副业新增加一些别的业务了,不能只单一做这一种,不然早晚要被淘汰,得好好想想现在和副业相关的延伸业务都有什么了。。。。
越来越难做了,

周报 #93 - 婚礼纪录片与失落的电影院

2025年4月28日 10:22

前言

weekly_review_93_cover

本篇是对 2025-04-222025-04-27 这周生活的记录与思考。

这周「婚礼纪录片」出来了,收到了一些祝福,很开心,也有一些新的思考;去线下看了一场电影,想到了一些关于影院的记忆;入手了 NuPhy Kick75 键盘,体验很不错,找到了一些玩任天堂复古掌机的感觉;还有很多有意思的事。

婚礼纪录片

我在之前的一篇周报中说到 ——

我今年也想以「人生清单」的视角去生活,去寻找生活中不曾注意过的风景,去做一些自己曾经觉得遥不可及的事。

婚礼、展览、在舞台上自己主持,这些对于我这个性格测试中 i 值达到 80%+ 的人来说似乎都有着很大的挑战,但现阶段的我也已经不再怯于去尝试人生中的这些“不可能”了。

也很幸运请了很棒的摄像/导演,记录下了全程。当时看他提供的一些婚礼样片的时候就感觉很不错,像是一个纪录片在静静讲述着故事,经过了长达两个月的等待,终于看到了成片(P1 是一个短片,P2 是全程记录)。

20090404043100-4

关于婚礼本身,其实已经过去了两个多月,又有了一些新的感受。前两天学姐给我转发了这样一段话 ——

婚育是一场巨大的

“人生意义危机转移计划”

用结婚和生育养育这些

耗费巨大精力的事情,占据人的所有精力。

以至于人没有力气,再烦恼人生的意义。

去消解人一旦闲下来就会思考

“人活着究竟有什么意义”

这类虚无的难题的困境。

我回想了一下,确实。在最初准备婚礼的时候,因为一共只有三个月的时间要处理完大家通常用一年甚至更久的时候来筹备的仪式,所有环节都很极限,忙碌到我们常常有时候反问自己 —— “我们为什么要结婚来着”。

似乎当生活的齿轮一旦开始转动,来自社会、家人以及根植在我们性格深处的文化传统都在加速推动着我们向前,焦虑着一些很具体的事务,比如早上十点和婚庆的策划会,比如婚纱、西服选什么款式,而不再去思考或是质疑那些虚无缥缈的“意义”,这很可怕。

但终究我们不是那种甘心妥协的人,即使依然有世俗的框架与很多琐碎的事务,我们依然尽力在其中融入更多我们的想法,去传达一些我们对婚姻与爱情的理解,去赋予这场仪式更多独特的意义。

想起 23 岁时我对自己说的话(见「23 岁的自白:去追寻意义」)——

我仍然不觉得自己触碰到了一直在找寻的意义,如今的一切成败是非也仅仅是妥协所形成的答案,也许永远找不到了,但这个过程却给了前进的勇气,也许思考本身就是建构意义的过程,让我不再期待某个瞬间能够顿悟,只是希望继续向前,体验和追寻着自己的人生。

很庆幸自己依然还在践行着当初的这些话,也更幸运找到了一起并肩作战的那个人,和我一起追寻这些“无意义”的意义。

失落的电影院

周中的一个晚上学姐邀请我去看电影,一部意大利的黑白电影《还有明天》,难得有看到院线上映这种还算小众的片子,到了发现包场了,配合着意大利的配乐,倒还真有置身老电影的感觉。

除了片子本身,这个影院也带给了我一些感触。

bigao_cinema

我们去的是杭州的一家叫作“比高电影城”的影院,从我小时候就一直在了。因为离得很近,所以之前也常常和家人一起去,这张照片就是 10 年前我和妹妹去看的时候留下的。

这么多年过去了,杭州发生了很多变化,甚至周遭的商圈也都换了好几轮了,这家影院没有扩张却也没有倒闭,还是最初的样子,不算破败却有些冷清。

电影其实并不算是人生活的什么刚需,但影院和书店一样,常常是我们这一代人少时生活与回忆的载体,而如今我们已经渐渐成长为大人,它们却也依然像是个年迈的长者一样,失落却又温和地注视着这些人生起伏。

很喜欢朱塞佩·托纳多雷导演的一部电影《天堂电影院》,也是十几年前看的了,描绘了意大利的一个小镇上的一家电影院,临近结尾有一个多年后因为需要改建而炸掉原来的影院的场景,当时看得热泪盈眶,现在回想似乎也有了更多感同身受。

个人生活剪影

捏捏与饭饭

nienie_20250428

fanfan_20250428

刚才两个小猫默契跑到我书桌旁边的床上撒娇玩闹,也太可爱了 ❤️

有趣的事与物

设备

desktop_setup_20250428

nuphy_kick75

心心念的 NuPhy Kick75 到啦!!比想象得厚重一点,颜色很清新舒服,有回到小时候玩任天堂掌机的氛围,感觉打字都成了享受。

上篇还说到断舍离,但是 Retro 风格 + 致敬任天堂元素,这谁忍得住啊!

输入

虽然大部分有意思的输入会在 「Yu's Life」 Telegram 频道里自动同步,不过还是挑选一部分在这里列举一下,感觉更像一个 newsletter 了。

我把 Telegram Channel 消息作为内容源搭建了一个微博客 —— 「daily.pseudoyu.com」,可以更方便浏览了。

收藏

文章

视频

电影

  • 还有明天,电影本身是很有趣的叙事节奏,前面日常的镜头把压抑窒息描绘得很真实,高潮部分咖啡厅炸的那一刻也有被燃到。片子本身讲女性处境、意识觉醒和地位独立,“选票比情书更重要”,“没关系,还有明天”,最后的结局并没有专注在个体的“逃离”而是群体/体制的更迭,错愕之余也有些深省。

剧集

不断探索

作者 xrspook
2025年4月28日 09:42

当年今日

我就是这么一个很奇怪的人。或许动一下嘴皮子我就可以把某些事交给别人干,或者是我出一点点钱,我也可以叫别人把事情做了,但我却通常会选择从零开始,自己把那个问题解决掉。当然也会有一些地方,我无论如何是不会自己去动的,比如涉及水电。其它东西基本上可以这么说,我都干过了。

有些人习惯性依赖别人,而我是习惯非不得已不会求人。不求人这个习惯,大概是跟我妈学的。小时候在我心目中,我妈就是那种没有什么事干不好的人,而我爸是那种,可能他干了,但那个真不好。

因为有不求人的习惯,所以在不知不觉中我就养成了各种自学琢磨纠结。用贬义词去形容就是老是在那里钻牛角尖,用褒义词去形容就是老是在那里精益求精。具体如何评价就看你的主观觉得我做这件事有没有意义有没有必要。很多时候我的那些爱好在我妈眼里都是没有意义且没有必要的。实际上在我开始做那些事情的时候,有没有意义有没有必要我都没有考虑过,我只是觉得我要做、我想做,我要竭尽全力把那做好,无论花费多少精力、无论花费多少时间,无论为此我要学习多少东西。虽然可能过程很挣扎,但实际上也挺刺激有趣的。

人的一生那么长,终生学习是必须的,从来没有一个你之前多少年学到的东西足够你用一辈子的说法。被不被超越我倒无所谓,有时甚至觉得被超越了我也毫不知情,但是如果现在明明可以有某些方法可以让自己更舒服更便捷,为什么我不去掌握那个方法呢?

之所以要选择自己要学会那个东西,而不是找人来帮忙。因为我觉得万一以后还会遇到类似的事情呢?就因为一点点的参数改变,然后我又得去求别人?如果我知道了其中的原理,如果我知道了所有来龙去脉,掌握了那个技巧和方法,我以后就可以非常容易应对这种小变化。很多时候我觉得那个东西并没有发生根本性的改变,如果什么都不懂,只求结果,哪怕一点参数上的调整也会让你翻车。

人的一生很长,也可以理解为很短,我不可能掌握所有东西,所以我也就只能在某些点上开花,至于这些点是怎么被我选中的,我觉得到现在为止,都是一个未解之谜。暂时我还没有发现他们之间有明确的关联性。但非常有可能这种没有找到规律是因为我当局者迷,如果有个局外人,他很透彻了解我,估计他能说出我这些点的关联性。关联性是什么不重要,因为我没想过要预测下一个开花的点到底在哪里。

人都活到了这种年纪,顺其自然就好,我最想做到的就是无论我遇到什么事,我都可以用我的套路去应对。说白了就是把我过去的那些经验升华到哲学或者原理的程度。我可以以不变应万遍。说起来很玄妙,但到底行不行,也就只有遇事的时候才能验证了。

我包里的工具已经不少,但那是有价值的玩意还是纯粹只是个会老化崩掉的塑料仿制品呢?

微信公众号支持手机端一键注册发布文章,这是要搞啥?

作者 Maie
2025年4月27日 19:25

最近,微信又悄悄搞了个大动静!在 V8.0.58 版本中,微信开启了一项新功能的灰度测试 —— 个人微信能直接在手机上注册公众号,还能发表文章!这可在微信用户和自媒体圈子里掀起了惊涛骇浪。今天的观察就来简单聊聊这件事。

要知道,以前注册公众号那可麻烦去了。得从 mp.weixin.qq.com 这个网址进入,很多人不熟悉,一不留神就点错链接。注册的时候,又要邮箱,又要身份证,还得经过各种认证,手续繁琐得很。而且发布文章,只能在 PC 电脑端编辑排版,发布之后发现错误,连修改都不行,别提多让人头疼了。所以以前的公众号,就像一个封闭又狭窄的小空间,更多是商业企业用来发布信息的地方,普通用户很难参与进来。

现在呢,情况变得有些不一样了。我们都知道,微信对圈内圈外界限分的很清楚。圈内就是微信朋友圈,它是熟人社交的私人空间,大家在上面分享生活点滴。但这几年,越来越多人不愿意发朋友圈了,为啥呢?可能觉得有些隐私不想被太多人看到,也可能是发了也没多少人关注互动导致广告流量变少。而圈外就是公众号,公众号呢由于平台限制有高价值的原创内容太少,低质的同质化的内容又太多。而微信这次允许在手机端注册发布公众号,到底是想打通私人和对外展示的空间,让大家有个新的分享平台,还是因为自身流量增长遇到瓶颈,想通过这个新功能吸引更多用户,增加流量呢?这可引发了大家的热烈讨论。

记得张小龙老师那句振聋发聩的一声再小的个体,也有自己的品牌”,同时他提出微信开放公众平台的八大法则:鼓励有价值的服务、打破地理限制、去除中介环节、真正实现系统去中心化、构建生态系统、让平台成为动态系统、挖掘社交流量场景以及将用户价值置于首位。此次微信公众号改版,是否正是对这八大法则的深度践行呢?仔细研究这次微信灰度测试的个人手机端注册 / 发布公众号功能,我们能发现微信背后有着一系列重大的战略转型趋势。

一、内容生态走向平民化
以前创作公众号内容,技术门槛可不低。得会在电脑上操作复杂的编辑软件,还得懂排版设计,对于很多没有专业技能的普通用户来说,这简直就是一道难以跨越的鸿沟。但现在,微信把公众号创作流程简化得和发朋友圈差不多。不用再依赖电脑,也不用专门下载独立 App,只要有手机,随时随地都能创作内容,真正实现了内容生产的移动化。就算你是个技术小白,也能轻松上手。

不仅如此,新用户想成为公众号创作者,门槛也大大降低了。以前申请公众号,要提交各种资料,等待审核,过程漫长又繁琐。现在呢,新用户在手机公众号上点击「发表」按钮,简单填写点信息,马上就能快速注册,瞬间获得创作者身份。从以前的 “申请制” 变成了现在的 “即用制”,这就好比以前进一家高级餐厅,得提前预约,经过各种审核才能进去,现在变成了随到随进,大大方便了创作者。

二、短内容战略加速推进
以前在公众号发布内容,得在电脑前花大量时间构思、撰写、排版,一篇文章往往要花费好几个小时甚至几天才能完成,这就导致公众号内容大多以长篇大论为主。但现在支持手机端即兴创作,情况就不同了。大家在坐地铁、等公交,或者突然有个灵感的时候,马上就能掏出手机,写下自己的想法,配上几张图片,快速发布出去。这样一来,公众号内容开始向 “碎片化记录 + 轻量化表达” 转型。

而且,现在公众号图文发布流程和朋友圈越来越像。以前发朋友圈,选几张照片,写几句文案,轻松就能分享出去。现在公众号发布图文也是类似的操作,这预示着公众号将和社交短内容形成协同生态。以后我们可能会看到更多像朋友圈动态一样轻松有趣,但又比朋友圈更有深度的公众号短内容。

三、平台竞争策略调整
在当下的互联网内容平台竞争中,短视频平台发展得如火如荼,吸引了大量创作者和用户。很多原本喜欢创作图文内容的创作者,也被短视频平台的高流量和便捷性吸引过去。微信这次通过降低 50% 以上的操作步骤(和传统电脑端发布相比),就是想把这些流失到短视频平台的图文创作者重新拉回来。

从灰度测试的数据来看,效果还真不错。灰度用户日均发文量提升了 2 – 3 倍,这充分验证了 “低门槛 = 高产出” 这个模型。当创作变得简单容易,创作者们自然更愿意去创作内容,平台上的内容也就越来越丰富了。

四、商业逻辑悄然演变
随着公众号内容数量的井喷式增长,广告库存也将随之扩充。以前平台上内容有限,广告位也不多。现在内容多了,就能设置更多原生广告位,预计信息流广告填充率能提升 30% + 。这对于微信来说,意味着更多的商业变现机会。

另外,个人号与公众号深度绑定,让 “朋友圈 – 公众号 – 社群” 的私域链路变得更加通畅。以前很多人想通过朋友圈推广自己的公众号,或者把公众号粉丝引流到社群,过程很复杂,效果也不好。现在,用户可以更轻松地在这几个场景之间切换,实现私域流量的高效转化。

这次调整,很可能会引发 “小绿书效应”。啥意思呢?就是公众号既保留了深度内容的属性,又吸收了像小红书那样轻量化的体验,形成一种全新的混合内容形态。目前灰度测试数据显示,新用户注册转化率比旧流程提升了 400% ,这数据相当惊人!不过呢,新功能也带来了一些问题,比如内容质量管控机制还没同步更新。以前公众号内容因为创作门槛高,相对来说质量有一定保障。现在门槛降低,人人都能创作发布,难免会出现一些质量参差不齐的内容。微信接下来要怎么解决这个问题,我们拭目以待。

总的来说,微信这次在手机端开放公众号注册和发布功能,从某种意义上来说可能是一次具有深远影响的战略调整。它让公众号的创作和使用变得更加便捷,可能会改变整个微信内容生态的格局。对于我们普通用户来说,这是一个展示自己、分享观点的好机会;对于微信平台来说,这是一次突破创新,应对竞争的重要举措。未来,微信公众号在手机端还会有哪些新变化,我们一起期待!

20250424

作者 61
2025年4月28日 19:48

给办公室降温,最后一个环节终于完成,每扇玻璃窗都贴上了一层隔热膜。于是看外面,多少都加了点滤镜的感觉。我是懒得去找房东报销这七千多块钱了,我这人就是,让我和这种另一个世界的人沟通还不如让我去死。

办公室现在太好了,好到再加一铺床就可以不用回家了。

雪姨召唤打麻将,五点钟相聚吉象棋牌室。最近棋牌室的晚餐变好吃了,但是最近我的手气不佳啊。

夏天就要来了

作者 三棵树人
2025年4月27日 22:27

阳台上种着一些花,有月季、茉莉还有几株文心兰和蝴蝶兰。本是一直放在阳台地面上的,因为不太通风,去年反复遭到红蜘蛛的破坏,所以冬天的时候把所有的叶子撸完后,进行了修枝。然后在网上买了两个支架可以悬挂在阳台内侧,这样就可以把月季的盆子提升起来不用一直放在阳台地面上,既增加了光照又保证了通风。

经过春天的反复升温降温,月季长势时快时慢,好在终于抽枝散叶,这两天陆续开花了。茉莉也是长满嫩叶,开始孕育花苞了。

夏季来临,日照时间长,水分蒸发大,植物对水的需求量很大。如果出差不在家,浇水会是一个很大的问题。于是我在网上买了一个储水桶,还有定时小水泵,由此也解决了灌溉问题,虽然定时灌溉不足以保障植物每天对水的需求量,但多少有点水的补给来润着,不至于白白晒干。

前段时间蒙古的沙尘暴越过秦岭,也来到了盆地。后来下了好几场雨,都是带有泥浆的雨。阳台护栏上,以及许多叶片上都有沙尘的痕迹。这两天又下了一场雨,似乎干净些了,已经不见沙尘的痕迹。

当树木的嫩叶从翠绿变成了深绿,夏天就已经悄然而至。旺盛的季节啊,经过了冬天的蓄力和春天的萌醒,一切都在蓬勃地蹿着、冒着、张扬着。夏天就要来了!


除非注明,三棵树阁文章均为原创,转载请以链接形式标明本文地址
本文链接:http://www.sksren.com/archives/2158.html

老何杂记 24

作者 Mr.He
2025年4月27日 20:17

不知不觉本学期已过去了十一周,从棉袄到短袖,日子就这样一天天溜走,上个说说《毫无成就感》被教训了,说我师德差点意思,教育的意义就在于重复,您杠您有理。

教育是一件复杂的事情

就目前教育形式来说,每个班级 40 多位同学,义务教育阶段不允许择班,不允许根据成绩分班,学习水平参差不齐是客观存在的,作为老师教学面向的是大多数学生,如果一味地选择重复,那么对于正常水平的孩子来说就是另一种不公平,他们已经掌握了该学的知识,再重复就是浪费时间。

我们刚工作那会有同学作业不会,老师会叫他到办公室辅导或者中午留下来辅导,但是现阶段又不允许体罚学生,责骂都不被允许,只能在自己的个人博客上发发牢骚,这样也被指责,唉~

如图,这位同学智力并不差,只是上课就这样,不动笔不动脑,提醒没有任何作用,成绩越来越差,把照片反馈给家长,家长说“我也没有什么办法”,作为老师又能如何?

所以说家庭教育越来越重要,不仅要教育孩子学习习惯,更重要的是要关注孩子的心理健康,有必要进行挫折教育,隔壁班一位女生期中考试没考好,写下来这样的纸条。

当时班主任都快吓死了,打电话给孩子家长,家长笑着说没事,小孩是写着玩的。可能家长也没有意识到问题的严重性,也许要等到发生大事才后悔吧。

像这样的孩子老师还能怎样?

损失 4000 元

上个月给老婆换了一辆电车,赶上了芜湖地区补贴 4000 元,今天接到短信说补贴申请被拒绝,打开软件看了一下拒绝原因,原来芜湖市的补贴还要分区县,当初大意在鸠江区开的发票到弋江区申请了,想重新来过,APP 显示活动已经在 3 月 31 日结束,无法再次申请。

为自己的马虎买单,血亏,心疼 5 分钟。

昨天以前独立博客

每夫吐槽(105)

作者 大致
2025年4月27日 19:44

上次买的服务器,分配到了个人。我一台,老宋一台,小木头一台。
IT的人给机器装完系统送上来的时候特意说,这型号主板的声卡驱动很久没更新过了,做不到一个孔同时支持耳机和麦克风。
现在每天都要用Teams开早会,所以我跟老宋拿到机器后,分别回家翻箱倒柜,找到包了浆的老货带到了公司。
小木头压根就没整明白这个事儿:“我三个眼都挨个试了一遍,没有一个好使的。”
我:“IT不是说了嘛,你耳机不行,只能用两个插头的。”
小木头:“哥,什么意思,还得把耳机拆了另接一根线吗?”
我:“可能会有一分二的插头吧,我也不是很清楚。我只见过二合一,没见过一分二。但是你去买一分二,还不如直接买个耳机。”
小木头:“啥?耳机还有两个插头的?!”

小木头1999年出生。
回想我1999年第一次看到两个插头耳机的时候,简直是嗤之以鼻啊,不就是把耳机和麦克粘一起了么!这有啥啊!
或许她不知道早期耳机只能用来听声这件事吧。

一直以来家里的PC有个老毛病:耳机有滋滋啦啦的声音。换插孔没用,换耳机没用,换USB耳机照样没用。USB音箱外放就完全没影响。
本来不再居家办公之后基本也不用耳机,影响不大。
但是臭宝现在周末有两节课是在家里上的,天气渐暖,开门开窗的,出声打搅她就不合适。
更新驱动、机箱接地都用了,无效。
准备回老妈家扒旧声卡之前,随手去设备管理器看了一眼当前的声卡型号:
一个是外放USB的、一个是主板的,咦?咋还有一个第三者?
HDMI啊!
我竟完全忽略了我换了显卡和显示器,以及显卡的HDMI还能出声这件事了。往显示器下沿一摸,妥了。
思维惯性还是要不得。

经济下行。家门口附近已经有三个麻将房(茶馆)改行成自习室了。
当初卖房的宣传点之一的全聚德也关门大吉了,享年8岁。
还有某科在伊尔廷的总部。一共6层的小楼,我们刚搬来的时候,二楼和三楼分别租给了两家校外培训机构,上面三层才是某科自己用。大概17、18年的时候那两家就陆续不干了,也一直没租出去,空着。一楼另外开门,曾经开过面向小孩的美术培训和乐高机器人,也早就黄了。
今年过完年后的一天,某科忽然就把上面三层搬走了,随之是紧锣密鼓的重新装修。

路边小饭店偷听俩小工头扯闲篇,说是要改成宾馆。写字楼改宾馆,这工程量可不小。某科还下了死命令要在6月份高考前投入使用——挣的就是考生和家长备考休息的这份钱。
这方向转的,壮哉!
那么问题来了,一年剩下的362天,打算给谁住呢?

家里洋葱放了太久,都长出苗了。
想扔的时候被老丈人拦下了。
“别扔别扔,我看视频,人家说把这个洋葱苗,絮到耳朵里,治耳聋!给我留着,我拿回家试试。”
听起来好有道理啊,葱通聪,聪本意就是耳朵好使唤啊!
我真是小看了偏方了,除了以形补形,竟然还能以字补字的。

每夫吐槽(105)》采用署名-非商业性使用-禁止演绎许可协议进行许可。 『破袜子』期待与您交流。

做好 AI Agent 最重要的是什么

作者 bang
2025年4月27日 18:15

是评测,或者说是基准测试(Benchmark)。

为什么?

因为我们已经有足够的技术方案,只要定义清楚我们要解决的问题(基准测试),就能解决它。

OpenAI 姚顺雨近期提出“AI下半场”的概念,我们已经拥有了

  1. 存储大量知识的预训练模型(先验知识),并知道怎么持续训练它
  2. 通过这个模型做思考推理并执行动作的 Agent 能力(环境)
  3. 强化学习算法

为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用,整个方案已经标准化,能很好地泛化,所有场景都适用,能快速攻破一个又一个的基准测试。

重点会变成,我们应该定义什么样的基准测试?我们已经有涵盖数学推理编程等领域非常多的基准测试,经常大模型发布刷分刷得飞起,但对现实世界的影响却并没有那么大。

显然我们应该定义更能贴近现实世界问题的基准测试,只要定义了,用上述方案就能持续优化解决它:基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。

而定义的基准测试越贴近现实世界,对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题,也是做好 AI Agent 最重要的问题。(AI Agent 就是目前 AI 的代表,大模型有先验知识和推理能力,Agent 给大模型装上环境感知和行动能力,要解决现实世界的问题,一定需要 Agent)

是什么?

什么是贴近现实世界的基准测试?

过去大量的基准测试,基本是封闭世界的固定任务,例如数学题、算法题、围棋、游戏,能明确定义问题、规则、答案,定义这样的基准测试是比较容易的,规则和过程都是现成的,推理也可以属于这一类,大模型发展到这个阶段,解决这些问题也是相对容易的。

但这些任务与现实世界大家日常要解决的问题距离太远,并不是现实世界的环境,因为之前缺乏感知和处理现实世界海量复杂规则任务的能力,现在大模型和 Agent 已经初步具备了这个能力。

目前有比较多横切面上单一维度的基准测试,包括 规划能力(PlanBench、AutoPlanBench等)、工具调用能力(ToolBench、BFCL等)、反思能力(LLF-Bench、LLM-Evolve等),也有大统一的通用任务完成能力的基准测试,主要是操作浏览器和操作电脑方面,例如 OpenAI 的 browsecomp (评测复杂信息检索和理解能力),学术界的 OSWorld (评测理解 GUI 操作完成任务的能力)。

但这些横切面或者通用的基准测试,可能并不是用户关心的。AI Agent 要实用,用户角度上更关注的是垂直任务上的能力,例如它能不能帮我写好代码,做好客服,创作出好的故事,给出好的调研报告等。当前行业处于早期,先把基础通用的问题做好基准测试去解决,达到一定阈值后,垂直领域任务上的基准测试才是更重要的。

如果简单分类,可以把这些任务分为两类:目标明确和不明确的任务。

目标明确的任务

现实中有些任务,有很明确的结果是否正确的定义,能像数学那样有标准答案,但过程中又是需要跟现实环境不断交互。典型的是 AI Coding,程序能不能跑通,bug有没有修复,都是能明确验证的。其他的还有像客服、数据分析等。

这一类是最容易被 AI 突破,但要定义出好的基准测试也不容易。

发展得最好的 AI Coding,在这个领域最权威的基准测试是 SWE-Bench,它已经在尽量贴近现实世界去定义问题,以解决 github 上的真实 issue 为出发点,但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右,但实际用起来,Claude 3.5 在可用性上高出一个档次,没有其他基准测试能反应 Claude 3.5 断档的效果,而 Claude 3.7 分数高达70%,但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后,windsurf、cursor、trae、argument 等几十个 AI Coding 工具,他们实际效果差异怎样,如何评测衡量,都是不清楚的。

SWE-Bench 只覆盖了 Coding 的一部分,大型项目理解能力、视觉动画开发能力、代码CR、需求理解等,要补的基准测试还有很多,现在也有 SWE – bench MultimodalAgentBenchSWELancer 这些基准测试在不断推出试图覆盖。

其他领域还没看到有相关的基准测试。

目标不明确的任务

大部分现实世界的任务,都是结果难以明确定义的,不是非黑即白。例如调研报告、旅行规划、简历筛选面试,各种涉及文字/图片/视频创作的场景,比如营销、故事创作、邮件回复沟通等,结果的好坏很多只有人能判断

Deepseek 年初的一波火爆,除了各项分数刷爆外,其中有一个原因是它输出的中文质量很好,但这个点并没有基准测试能衡量到,因为确实是很难定义什么样的文字是明确的好,跟文化/偏好品味/逻辑性/多样性等都有关系。

图片视频生成也一样,过了一定门槛后,生成的图片怎样才算更好,也是有很多维度和人的主观判断,目前没有基准测试能做到。

如何做好这类任务的评测?

  1. 靠人工:例如对于图片生成,常见的做法是分维度人工打分,给不同模型生成的结果人工打分综合对比,文章/视频也可以是同样的评测方式。另外也有在线盲测PK,做大批量结果PK对比,按总得分区分各模型的排行。对于自己产品内部迭代,也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与,主观成分大,难以形成公认的标准基准测试。
  2. 靠模型:模型理解能力逐渐增强,它能拥有人一样的评估能力,就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估,当前像4o这样的多模态模型理解能力越来越强,是能评估出部分好坏。文字也一样,可以有评估模型去评估,模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK,定义好相关数据集、评估维度,就可以是一个基准测试,只是目前模型还没达到能与人工评估媲美的程度。
  3. 靠任务分解:不衡量整体结果,只衡量中间可明确定义的部分,把任务部分转成上面提到的目标明确的任务。例如邮件沟通,只评估邮件内是否含有需要的关键信息,旅行规划,只评估是否符合定性的偏好(如最低价)、订机票API调用等操作是否正确。

如果要让 Agent 在各个领域上能很好发挥作用产出价值,可能每个领域都有自己的垂类 Agent,也都需要定义自己的一个或多个基准测试去覆盖这个领域,AI Coding 领域跑得最快,已经有多个,像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务,每一类任务可能都需要一个基准测试,去衡量谁在这个任务上做得最好,去促进这个任务成功率的提升。

如果要做一个垂类 Agent,最值得做的是把基准测试定义好,比较像软件开发的TDD(测试驱动开发),在 AI 时代这种做法可能更重要,它明确问题定义,指引优化方向,提供优化数据,不会受到模型升级的影响,是这个领域 Agent 的重要资产。

附:

大模型基准测试大全:https://github.com/onejune2018/Awesome-LLM-Eval

《Survey on Evaluation of LLM-based Agents》:https://arxiv.org/abs/2503.16416

HAL(批量跑 Agent 基准测试的框架):https://github.com/princeton-pli/hal-harness/

社区蟑螂理论

作者 ONO
2025年4月27日 13:01

这个词是我自创的,但内核与「蟑螂理论」一样,即当看到一只蟑螂时,要意识到这背后可能是一窝蟑螂,真实情况可能比表面所见严重得多。

这件事很妙,如果用「命运」来解释可能更通顺一些。

去年9月份的时候,因为前助理曾姐和她老公的生日,我们送了一个蛋糕给他们。他们在取快递的时候,被一个姓蔡的女性给碰到,因此他们之间发生了口角。曾姐认为对方在公共场合损坏了别人的东西就应该赔偿,而这位姓蔡的女性则认为是他们自己没有看惯好自己的物品,所以拒绝赔偿。

在争执的过程中,另一个「女性路人」出现了,在中间和稀泥,说这件事本来就应该是物品主人没有看惯好的责任。报警之后,警察要求双方到派出所去协商。蔡姓女性借回家放东西之名,就再也没有出现过。曾姐在派出所等待警察联系对方时,警察也非常恼火这件事,直接在电话里呵斥对方:「你不要以为自己是社区工作人员,就可以为所欲为。」

这件事情最后不了了之,但我们也得到了足够多的素材,例如对方姓蔡、叫蔡术H,但她的微信头像和朋友圈发的广告并不是在社区工作;所以根据这个在派出所得到的意外信息,我查到了另一个叫蔡术Y的人,他们既是「术」字辈的姐妹,长相也接近,同时也是那个在突然出现在争执过程的「女性路人」。

其实这件事有解法,因为蔡术Y是肇事者蔡术H的姐姐,那么派出所联系的也是蔡术Y,并发生了争执,作为公职人员违抗警察的传唤工作,本身就是作为公职人员的「瑕疵」。不过这件事毕竟不是我们的事情,所以最后也不了了之了。

有趣的时,7个月之后,这个老姐姐栽我手上了……


今天我正常牵绳遛狗,与一只平时也互动过的未绝育母柴犬互动时,母柴犬突然发疯挣脱牵绳,追着奶子咬,我在给奶子下达躲开的命令时,被这只母柴犬在腿上叼了一口。因为有路人的见证,所以很快局势就一边倒的由路人去指着这个没看管好狗的老太太。我让老太太联系自己家人,索要狗的狗证、狂犬疫苗接种证明等,因此联系上了一个蔡姓女性。

其实这只母柴犬平时也跟奶子玩过,是一个还算亲人的柴犬,但由于没有做好社会化,它对其他狗偶尔有很强的敌意,加上未绝育,没有进行过行为纠正的柴犬几乎很难管理。本来以为跟往常一样打个招呼即可,结果没想到对方就直接扑了上来,挣脱牵引绳,才发生了后来这些事情。

一开始,对方承认「咬人」这件事,但拒绝承担「赔付责任」。比如我跟这位蔡姓女性约见在派出所门口时,她一上来就说自己的妈妈(也就是遛狗的来太太)说是奶子先对着她的狗叫了一声,我回应恶人先告状:「有路人见证,我的狗没叫一声」,她立马松口,说这件事大家有一半的责任,因为春天来了,狗会生理性的冲动,我又回应大家都有责任:「我家两只狗都绝育了」,见自己不站理,且一开始我从她嘴里套出了「自家狗没有狗证」的事实,所以她只能认狗咬人的责任。

接着,她开始跟我扯的是「只报销自己可接受的疫苗费用」,什么意思呢,就是她拒绝我向他报销进口疫苗的费用,只能选择最便宜的疫苗接种。她在自我介绍自己姓蔡,且是社区工作人员时,我已经把这两件事串联起来了。我当然知道正常的派出所连流程,其实是需要先接种狂犬疫苗,先保证健康,再进行立案,但这样的事情大部分都是私下解决,立案有个好处是可以知道对方的基本资料,比如名字和身份证。在派出所登记之后,我确认了对方就是那个飞扬跋扈的蔡术H的姐姐蔡术Y。

最后我接种了最贵的、副作用最小的狂犬疫苗,本以为她会不认,我都已经准备好下一步棋走「社区工作人员知法犯法未办狗证」,结果她认栽了。


我很难以命运以外的点来解释这个「巧合」。

当你看到一只蟑螂时,要意识到这背后可能是一窝蟑螂,真实情况可能比表面所见严重得多——就算是我们,也遇到了这个蔡姓女性一家的两次行为,不知道她这样的「社区蟑螂」D额飞扬跋扈和不讲道理,是不是已经在社区里发生过很多次了?

目前这个阿姨为了息事宁人,赔偿了我接种狂犬疫苗的费用,但对方的联系方式我还保留着,我也透过微信聊天,诚心地建议对方带狗绝育和送去进行社会化训练的建议。我还没打算删掉她,她是一个多么美妙的社会学研究样板啊!

我来过

作者 xrspook
2025年4月27日 08:51

当年今日

我是谁?

摔迷之家曾经的图片版版主。

我从哪里来?

我也不知道,为什么我会找到摔迷之家,反正我是2010年8月注册的。

我做过什么?

正如前面所说,我是图片版的版主,我做得最多的事情就是贴图,说白了就是WWE的搬运工。Raw、SmackDown、PPV是一定会有的,至于其它我有没有贴,我居然已经不记得了。我没有把图片下载回来再上传,因为这样太耗费空间了。我直接人肉获取了他们的图片链接,然后贴到我们的论坛。除了贴图,我做得最坚持的事情就是从2011年1月到2014年4月做WWE摔跤统计,就是统计每场比赛都有什么人,持续时间是多少等等。每周都有摔角时间统计报告,连续三年的年末都有年终统计盘点。我也会发一些比赛的观后感,但那个东西在我一开始发的时候被大家觉得我是一个花痴。但后来我用实际行动证明,我是一个有技术含量的花痴。我去了WWE头两年来中国的商演。

我为什么会成为毕业生?

具体原因懂的人都懂,不懂的人没必要一定知道为什么。比较好理解的方面是人生到达了一定的阶段就要更进一步。人的精力有限,我不可能把时间都放在这里,我还要去做其它的事。渐渐步出摔迷之家后,我几乎把之前用在这里的时间和精力全部都用在跑步上,用在运动上。但新冠疫情的三年,几乎把所有的努力都化为有。起码现在我又重新开始了,虽然已经远远不如年轻的时候那么自如。

我在这里得到了什么?

我认识了一帮兄弟姐妹。为了同样的爱好,我们会互相竭尽全力给予帮助,是那种愿意为别人两肋插刀的程度。因为我们都年轻,我们都喜欢。我不是计算机专业的,但是为了能提取到WWE的图片链接,我自学了正则啊,用PHP写了个网站,为的就是可以秒抓图片,而且我能抓,我的伙伴也行。在做摔角统计之前,我不知道这个统计用来干什么,要统计到什么程度。外国的某些网站数据启发了我,让我觉得有必要认真对待这件事情,但或许你会说这只是剧情娱乐的一部分,何必太认真。但我觉得,只有让自己完全的理性,才不会过于入戏。因为喜欢摔角这个东西,所以我买了很多人偶,以至于自己都算不清到底有多少个。现在也不记得到底塞在多少个箱子里了。还记得WWE来中国商演的第1年,我计划做一个LED的灯牌,但我又比较抠门,没想过在淘宝上定制,所以就只能从零开始,AutoCAD设计,然后不断请教有LED灯牌制作经验的朋友。最终,灯牌是成功的。大概也就只有年轻激情加疯狂才能干出当年的那件事。为了不让自己的观后感被认定为花痴,所以我不断学习摔角相关的各种知识,尤其是各种招式,我甚至都觉得自己成为了《天龙八部》里的王语嫣,虽然我耍不出那些招,但我全部都认得出来。我真做到了,但是不是对所有摔角手的招式都了如指掌而已。

感谢摔迷之家给了我一个让我可以竭尽全力投入精力和激情的场所。

❌
❌