阅读视图

1 C 纯粹懒
2 C
3 A 早期在CSDN倒是还有转载
4 B 多少有点意义
5 B 自己写的，算B吧，几个月没动了，但是后面肯定又会改
6 C 算C吧，除非专门找时间来改动，不然只是很细微的小调整
7 B 自己写的，就随便改了，看到别人样式好看就考虑模仿一下
8 C 不是拿来陶醉的，只是经常会看一下和别人博客的样式哪里不同
9 D 域名就那样了，用着就行
10 C 记得就看看统计
11 D 拒绝广告，除非能流量大到免费无法承受
12 A 肯定看别人写的内容，内容才是优先的
13 D 看内容（除非网页看着非常难受
14 D 看内容
15 AB 都有，主要还是学习到了东西

综上：CCABB CBCDC DADDA

来自 sehnsucht

1、C 保持基本月更。
2、A 恰逢假日，毕竟博客建立的目的就是为了记录
3、AB 生活都是鸡毛，类技术有部分参考
4、BC 无论生活技术类，或多或少都是有帮助，就像我们可以通过博客了解不同环境国度的神奇经历。
5、D 这个真懒
6、D 有需求才会折腾
7、B 极少，博客的最终我觉得还是极简。
8、C 以前几乎天天打开，现在随机看rss
9、D 有中意的，但是目前这个也有感情了。
10、C 偶尔看看吧！
11、C 没想过，因为情怀因素占了大部分。
12、A TO 4
13、D 极少留意域名，但是速度和风格很加分，当然内容才是最重要。
14、D 内容，这肯定，谁会一直注意内容以外的三个选项
15、ABC 哈哈能订阅的都是人才啊！还是那种有点性格的。

来自网友小宋，已重新发文补充，点此查看。

1、D.最近都是几个月已更
2、B.上周
3、B.部分借鉴
4、C.每日每周流水账（自己的流水账）
5、D.凭良心说，我多年都是一个主题（很久不换主题了）
6、D.一年有那么一次
7、A.直接配置使用，省心不折腾（技术能力有限）
8、C.看心情
9、D.目前挺好，没想法
10、C.记得就看看
11、D.拒绝广告，保证阅读体验
12、A.学习别人分享的知识/C.看看别人怎么装修博客，自己也抄一下，感觉都比自己的好
13、E.(以上都是)
14、E.(以上都是)
15、E.(以上都是)

来自二猫

1、A（有时候多，有时候少，平均下来一两周一篇）
2、C（十一出去玩了，这段时间无更新）
3、A
4、B（努力在做）
5、D（二十多年来，换过两三次）
6、D
7、A（改过一点点，年龄大了，折腾的越来越少，主要是搞点内容方面的创作了）
8、A
9、D（还是因为年龄大了，不想折腾了，也没有很好的新想法了）
10、C
11、C
12、A
13、D
14、D
15、A（个人觉得，相比较近几年大量碎片化的信息，写博客算是一种能静下心来好好思考的途径）

来自风雨行者

CABBD
CBADD
CABDB
总结：自己在写文章时，会非常开心，有成就感。虽然已经有许多的沉默成本，但会坚持，爱好很少，坚持很重要。

来自云心怀鹤

1.C
2.A
3.A
4.B
5.每个几年自己重新写一套，换换新鲜感
6.C
7.自己写的主题，时常改
8.C
9.D
10.C
11.C
12.看看别人的生活，吹水一波
13.D
14.D
15.AB

好歹也玩了10多年博客了，有过功利，但现在都是浮云。

来自威言威语

1、你的博客更新频率是多少？

A.每周更新

2、你的博客上次更新是什么时候？

A.本周

3、你的博客文章是原创的吗？

B.部分借鉴

4、你觉得自己的文章对他人有帮助吗？

D.自我陶醉就好，管他呢

5、你上次换博客主题/程序是什么时候？

B.上个月

6、你上一次捣腾博客主题代码是什么时候？

A.昨天，撸代码到凌晨

7、你会对博客主题进行二次开发？

B.时不时自己改改，搞点新花样，换图片，换字体，爽

8、你多久打开自己博客自我陶醉一次？

A.每天数次

9、你近期对自己博客域名什么感受？

D.目前挺好，没想法

10、你每天都会看网站的流量统计吗？

C.记得就看看

11、你通过博客的广告赚到钱了吗？

E. 没赚到

12、你去浏览别人的博客/网站主要为什么？

C.看看别人怎么装修博客，自己也抄一下，感觉都比自己的好

13、看到别人分享了一篇文章，你打开第一反应是什么？

B.哇，这网站速度真快，图片延迟加载丝滑

14、你觉得博客哪方面更重要？

D.内容

15、近期通过写博客有哪些新收获？

B.认识了新朋友

来自 Yawata

1、你的博客更新频率是多少？
D.几个月一篇

2、你的博客上次更新是什么时候？
C.上个月

3、你的博客文章是原创的吗？
A.坚持原创

4、你觉得自己的文章对他人有帮助吗？
C.每日每周流水账

5、你上次换博客主题/程序是什么时候？
C.去年

6、你上一次捣腾博客主题代码是什么时候？
C.每月有那么一次

7、你会对博客主题进行二次开发？
D.改得面目全非，但保留原作者版权信息或注明

8、你多久打开自己博客自我陶醉一次？
C.看心情

9、你近期对自己博客域名什么感受？
B.如果域名能再短几个字符就更好了

10、你每天都会看网站的流量统计吗？
C.记得就看看

11、你通过博客的广告赚到钱了吗？
D.拒绝广告，保证阅读体验

12、你去浏览别人的博客/网站主要为什么？
A.学习别人分享的知识

13、看到别人分享了一篇文章，你打开第一反应是什么？
D.看看文章内容

14、你觉得博客哪方面更重要？
D.内容

15、近期通过写博客有哪些新收获？
B.认识了新朋友

比较随性，有空就来看看博友们。

来自粽叶加米

1、你的博客更新频率是多少？

B.一周数篇

2、你的博客上次更新是什么时候？

A.本周

3、你的博客文章是原创的吗？

A.坚持原创

4、你觉得自己的文章对他人有帮助吗？

D.自我陶醉就好，管他呢

5、你上次换博客主题/程序是什么时候？

B.上个月

6、你上一次捣腾博客主题代码是什么时候？

C.每月有那么一次

7、你会对博客主题进行二次开发？

A.直接配置使用，省心不折腾

8、你多久打开自己博客自我陶醉一次？

A.每天数次

9、你近期对自己博客域名什么感受？

D.目前挺好，没想法

10、你每天都会看网站的流量统计吗？

D.没有搞流量统计，都是浮云

来自 Gruntz

发文的答卷：
- @1900'Blog
- 印记
- Muel-Nova
- 秋风于渭水
- 大大的小蜗牛
- ACEVS
- 破袜子
- 飞絮落叶雪
- 竹炉山房
- 段先森
- Dennis
- 园子里的日光
- WangDedou
- 陈仓颉
- 网友小宋

最后更新于 2024-10-15 17:09

独立博客自省问卷15题

雅余 · 茶余饭后，闲情雅致

Jeff

2024年10月9日 23:50

以下问卷纯粹自省自娱，自我调侃，勿对号入座。

如有不适，请及时关闭浏览器窗口。

如有启发，建议每隔一段时间服用一次。

1、你的博客更新频率是多少？

A.每周更新

B.一周数篇

C.一月1-2篇

D.几个月一篇

2、你的博客上次更新是什么时候？

A.本周

B.上周

C.上个月

D.上季度

3、你的博客文章是原创的吗？

A.坚持原创

B.部分借鉴

C.AI 帮我写的

D.搬运别人的，而且不署名

4、你觉得自己的文章对他人有帮助吗？

A.旨在对他人有启示

B.多少有点意义

C.每日每周流水账

D.自我陶醉就好，管他呢

5、你上次换博客主题/程序是什么时候？

A.上周

B.上个月

C.去年

D.凭良心说，我多年都是一个主题

6、你上一次捣腾博客主题代码是什么时候？

A.昨天，撸代码到凌晨

B.每周必捣腾

C.每月有那么一次

D.一年有那么一次

7、你会对博客主题进行二次开发？

A.直接配置使用，省心不折腾

B.时不时自己改改，搞点新花样，换图片，换字体，爽

C.删除主题作者版权信息，改改样式，然后自我感觉良好

D.改得面目全非，但保留原作者版权信息或注明

8、你多久打开自己博客自我陶醉一次？

A.每天数次

B.每周一次

C.看心情

D.一般都是照镜子，不看博客

9、你近期对自己博客域名什么感受？

A.想搞到一个 .COM 的域名

B.如果域名能再短几个字符就更好了

C.今年才换双拼域名了，明年再看看

D.目前挺好，没想法

10、你每天都会看网站的流量统计吗？

A.每天看几次，今天又多了100PV

B.每周回顾，看看流量趋势

C.记得就看看

D.没有搞流量统计，都是浮云

11、你通过博客的广告赚到钱了吗？

A.有，能覆盖建站费用

B.有，但付出大于收入

C.没考虑通过博客流量赚钱

D.拒绝广告，保证阅读体验

12、你去浏览别人的博客/网站主要为什么？

A.学习别人分享的知识

B.搬运别人的内容

C.看看别人怎么装修博客，自己也抄一下，感觉都比自己的好

D.不爱看别人博客，自己爱写啥写啥

13、看到别人分享了一篇文章，你打开第一反应是什么？

A.哇，这域名真不错，怎么我没想到

B.哇，这网站速度真快，图片延迟加载丝滑

C.哇，这程序/主题不错，我也要抄一抄/留言问问哪里搞的

D.看看文章内容

14、你觉得博客哪方面更重要？

A.域名

B.服务器

C.主题

D.内容

15、近期通过写博客有哪些新收获？

A.知识面有拓展

B.认识了新朋友

C.写作水平提升

D.通过知识变现

年轻的时候，谁不曾执着过？回头想想，大多是浮云。捣腾后有沉淀，有长足的进步，有输出，未尝不可。但切记人生有限，岁月如梭。

以上部分问题也适用于捣腾知识管理工具上。

如有好问题，欢迎建议。

AI 取代人工进展走到哪一步了？

见字如面

Wannz

2024年9月29日 15:20

马克·吐温曾说过：“历史不会重复，但会押韵。”

在 23 年初 AI 势头最火热的那会，我写了一篇《AI 会取代人类的工作吗》的文章，那篇文章里总体对 AI 的出现与未来还是持开放态度的，比如我觉得之后会有很多公司快速上线“Prompt Engineer”之类的岗位。但是当我们把视角转到 2024 年的今天，我又觉得“AI 取代人类”这件事可能会比我当初预想的进度要慢一点。

比如从人才市场来看，一个很直观的例子就是行业中不仅出现了很多“大模型算法研究员”，“AI 产品经理”这样的岗位，岗位描述里会告诉你“能够设计合理的 prompt 模型，不断优化模型的性能和效果”，“与算法与产品团队紧密配合，将算法需求变为可批量生产的模型语料”，这些事情可能都代表着越来越多的公司愿意为 AI 投入更多的资源与成本了，但有些公司又会在 15k 的岗位任职资格中写到“至少具备 5 年以上 AI 方向经验”，“发表过高质量 AI 行业论文（如CVPR、ICCV、AAAI等)”，这件事让我觉得有点黑色幽默（你应该能 get 到吧？）。

可能从实际应用来看，行业中大部分企业对 AI 的认知还是在“基于已有的知识库优化智能问答，辅助生成报告知识图谱”或者是“基于已有的项目与成交案例进行总结沉淀，通过 AI 赋能售前支持，支持咨询客户转化”的角度里。能够通过 AI 进一步帮助企业或者团队提升效率，总体的探索都比较有限。

因为工作的原因也不免需要响应一些来自客户的咨询，或者在一些项目中需要基于客户“拥抱 AI 的角度”整理类似的需求，但实际上我的感觉就是“大多数人都在为了 AI 这盘醋，去包一盘饺子”，大家都共识了 AI 这件事就是为了蹭热点（我觉得从某种角度来说，其实 2024 年的现在没有曾经那么热），把 AI 作为产品中的一个功能能够更顺利的申请到更多的预算和经费，能在市场推广与宣发层面获得一些“短暂的收益”，仅此而已。

前一段时间和同行业的朋友交流，有人觉得“使用 AI 创新这件事”总是外国要做的更好一点，他们觉得就像萝卜快跑一样，资本的罪恶使得无数网约车司机会忽然失去就业机会，而同样的市场如果搬在国外，企业的管理者就会天然“人本位”的思考如何在保存工作岗位的情况下，再更优雅的引入新技术来提升企业效率（但这不都是资本的判断吗？）。

跳脱出对国内外市场主观的判断考虑，我是觉得伴随 AI 所推动的自动化，可能会在某种角度拉开低技能劳动者和高技能劳动者的工资差，一方面可以替代一部分前者的工作内容，另一方面又会为后者创建更多新的工作任务。

新技术的出现与适配，肯定能够对工作中带来巨大的“改变”。但最终能不能“真的提升生产效率”，可能是另外一说了，就像是盒超市里的自助结账机，酒店前台的自助入住机，或者是路面上的萝卜快跑，他们确实替代了原本的收银员，酒店经理和网约车师傅，但是对于整体的付款效率，入住效率甚至路面的拥堵有多大改善可能就是另外一说了，此外就算引入了很多这样的机器，又能真的优化现在的就业环境吗？

至少在我身边的环境里，我感觉 AI 的改善没有想象中那么高。能够自如创建 Agent 并将其用在工作中提升人效的人还是少之又少，而当你真的使用 AI 提升人效之后，又可能会面临涌入更多问题的窘境。还有就是我发现大多数人，更意愿将 AI 当做“搜索引擎”的平替，原本是遇到问题后去搜索引擎上提问找答案，后面变成了去小红书找答案，现在又变成了去 AI 上找答案。

表面上看起来，市面上的大多数 AI 都能够在短时间内帮你写出一份活动的策划，产品推广的文案，甚至是基于历史的知识库对某些数据进行一些深度的分析，使用 AI 能够“不假思索”的复制粘贴以便更好的响应领导分配的事情。但回到一切的根源，答案来自于问题，我们只顾着快速的提交问题的答案，是否又真的愿意思考“如何提出一个好问题”呢？

忽然联想到最近人们一直在谈的“大环境不够好”，言语间总是要夹杂着“就业市场不景气”的悲观色彩，从事今天的产品工作不聊两句 AI 仿佛都被时代淘汰了。从这个角度来看，大多数人可能还没有想到更加正确的，优雅的 AI 使用方式？我想目前 AI 的主流仍然是一种生产工具，而非工作思路。在我手里的产品使用 AI 做国际化适配，建立交付支持问答库，提升运营工作甚至快速响应突发的问题总是能够发挥一定的色彩，但我还是觉得尽信书不如无书嘛。

从这个角度来看，不论企业规模如何，如果只是打算创造一些平庸的技术来配合市场宣发的时候，不妨就别再想着能真的“降本增效”了。降本增效中只有“降本”变成了真实的利润目标，而选择的方法就是用更廉价的资本来取代劳动力（反正 AI 也能写活动策划，那我就用 AI 来取代两个运营人员的 hc，至于落地实施的事情再说），这件事对整个经济生产率的提升毛用都没有，唯一的收获就是借着 AI 的这阵风举办了更多名为分享实则销售获客的沙龙，最终只会让大环境越来越差。

我记得曾经看到过一种观点“国内的 AI 全部局限在内容审核，而国外的 AI 都在尝试再次创新”，可能现在又再次走上了一条循环的道理，随着人们对生成式 AI 的关注越来越多，资本也会越来越集中，那可能也会降低 AI 在其他方向上的无数可能。虽然说愿意承认技术对未来带来的决定性影响是件谦逊的好事情，但也依然会受到政策影响，经济发展，利益相关者话语权等各种因素互相影响。

我想这篇文章还是不应该太过于武断，仅以我所在的角度和视角来发散性的聊聊。只是作为 IT 浪潮中一个渺小的参与者角色而言，我们好像真的就踏入了一些影响人类发展的关键节点，但是几十年或者几百年之后的未来到底是什么样的，谁知道呢？

反正还不是要延迟退休罢了（笑）。

本文灵感来源：《梅宏：对当前人工智能热潮的几点冷思考》

一次产品重构的复盘

见字如面

Wannz

2024年9月27日 16:29

坦白来说，能够正儿八经对产品进行复盘的机会其实很难得。

熟悉我的朋友应该都知道，这两年对见字如面的更新频率总是没有以往频繁了，其实核心的原因我目前在一家 toB 行业的小程序平台里当产品负责人，平常工作里需要关注的事情太多了（又一次跳入了创业公司的深坑），精力和时间有限。前两天和一个朋友打电话，他说“你的博客最近不更新了有点可惜”，仔细想了想还是得保持正常的更新，所以咱们就继续聊聊工作中相关的感悟吧。

这次我想咱们可以聊聊，作为产品经理的角色，如何发起并且支撑产品的重构直至顺利结束。

对于大多数从事产品岗位的朋友来说，“重构”这个词其实是比较模糊又熟悉的。很多产品同行都觉得自己大大小小都参与过几次“产品重构”，但归属于自己的实际工作好像就是改改原型，设计新的交互样式搞个新的产品版本（所谓的大版本更新），作为项目经理推动一下进度开开会，除此以外更多的“重构内容”都属于研发角度对于服务或者架构角度的重构，虽然确实提升了研发的效率和架构的合理性，但是自己没啥深度的参与。

刚好我所在这家公司的产品在前期的设计确实还存在蛮多问题，所以从 2022 年的年终我们就开始讨论产品重构这件事，但由于真刀真枪的产品重构需要花费的成本实在太大，所以我们其实花了大概一年半的时间陆陆续续准备其中的工作，并在 2024 年的年中正式完成了产品重构，产品顺利发布上线（这里是我在产品博客里的 PR）。

选择合适的重构时机

不论从什么时候开始，“现在是重构的最佳时机吗？”，“重构之前需要做哪些必须的事情？”，“如何保障重构工作顺利完成？”都应该是大家都会关注的问题，有人会觉得这些都是“重构工作的道法术”，我倒是觉得咱们可以逐个拆解，一一探讨出这些问题的答案。

先从实际问题出发，不要轻易重构

“不要为了重构而重构”应该是最核心的道理，虽然确实可能是因为客户或者老板的一句吐槽与抱怨，我们就开始镀金找理由，然后把重构作为某个季度或者年度的目标来计划落地，但作为一名成熟的产品经理，我们还是要明白“任何重构都存在风险与成本”，“重构必须要带来如期的收益”这两个核心原则。

不论公司规模大小，所能够调用的产研资源都是有限的，也就是说当我们在考虑是否要重构的时候，务必要提前想清楚“有一段时间是无法上线新需求”的，如果确认要重构，那这个重构的时间必须要选在产品总体比较稳定，业务流程和用户流程都总体稳定的时候，避免因为重构中的投入成本又无法响应客户与市场的需求。

圆规正传（言归正传），我负责的 FinClip 其实是一款面向 B 端的私有化小程序生态平台（简单来说就是做了一个可以私有化的微信小程序），用户可以基于这一套产品打造自己的小程序生态，我们的产品之所以要重构，主要有三方面的原因：

第一，产品的基础架构设计混乱失序

我们的产品自从 2019 发展到现在也有三四年的时间了，但实际上产品的诞生其实是源自另一个产品的配套服务。即使上线起初计划使用 MVP 的形式不断优化，但也并没有建立起团队内部统一的思维框架与产品共识。

也许是出自快速交付客户或者向上管理的什么原因，即使是可以抽象为近似场景的功能点，在以往也都交由完全没有共识的不同同事独立交付，交付过程中又缺少统一的同步与复盘，其实都在不断的证明“做产品真的需要具备长期主义”，缺少延展性但又频繁救火的产品其实还是在不断的骗自己。

但说实话，我觉得这个问题出现在 toB 的产品里又有点合理，从根源上来说，toB 产品相比 toC 产品欠缺的就是“数据反馈感”。愿意在 toB 产品中埋点统计的人少之又少，具备数据分析意识的人也少之又少。

大多数 toB 产品同事们的习惯还是通过主观判断来决策，通过客户与自我说服中的“我认为这里应该 XXX”，“这里就是需要 YYY”来设计对应的功能，但如果缺少足够的“产品 sense”，非常有可能把产品变成一个缝合怪，乍一看该有的功能都有，但仔细看会发现产品架构越发混乱，功能散落没有联系，缺少必备的需求文档与判断依据无法复盘或者溯源设计背景。

到了一定的时间，还很容易发现产品无法自圆其说，用户的理解成本不断上涨。这也变相导致前端市场侧的同事在销售推介产品时遇到的问题变多，无法保证产品的销售转化持续增长。

第二，产品的能力无法支持用户深入使用

随着客户不断增长，我们也发现了越来越多在早期产品定义时不合理的设计，物是人非在这个时候找寻原因已经变得毫无意义，但基于用户的真实场景来回顾用户的使用流程，对不同功能与字段进行抽象，梳理出正确且合理的产品模型则变得十分重要。

缺少了抽象后的领域模型，不仅会导致在用户侧实际的交互与体验一言难尽，还会导致冗余的代码不断增长，修复的补丁无穷无尽，产品后续的拓展性与连接性几乎为零。比如希望在产品中集成跨系统的连接与认证，就必须要在产品设计早期设计好对应的账户体系，而不是等到需要用的时候再去改线上的逻辑。

0-1 阶段的产品为了快速验证商业价值，可以用 CURD 来满足尽快上线的原则，但 1-10 阶段的产品如果还是在重复 CURD，不对具有共性的需求进行抽象实现，就很容易建立出来一个“摩天大楼般的违建房”，在一个潦草设计的地基上不断缝缝补补只能治标不治本。

作为产品设计者的角色，核心的工作都应该是在仔细思考后，得出“多做一件 X，可以少做 N 件 Y 的需求”的结论，也就是我们说了很多次的“抽象”。以为通过自己或团队的效率来快速响应客户的意见，快速上线 N 个需求更像是用“战术上的勤奋掩盖战略上的懒惰”，从始至终都被客户牵着鼻子走，团队中的每个角色都不会太好受（但……这件事对于响应客户的当事人来说，又很容易收获来自客户的认可与赞扬，又便于自我镀金或者在团队内向上管理，有一点难评）。

第三，产品缺少能够匹配产品特性的设计

不管是什么行业的产品，在交互与界面上都应该是能够“自圆其说”的。不需要投入过多精力与引导，用户自己就能使用并且发现所有需要的能力。如果想在产品中证明它具有的“生态与运营”能力，就更需要通过合理的规范设计证明产品的价值。

当然，设计工作其实也得找到合适的分寸，既不能“设计不足”也不能“过度设计”。设计不足往往意味着在产品早期就缺少必要的抽象和前瞻思考，导致产品上线后存在天生的缺陷（在一些不重视产品岗位的公司时有发生），而过度设计则意味着偏离了实际的用户需求，在产品非核心的边界不断雕花（在一些过度追求设计的公司时有发生）。

在做产品设计时，我觉得称职的产品经理都需要始终关注“成本与收益”的平衡点，我们更愿意通过设计来简化复杂的实现层面的问题，而不是为了解决复杂的实现问题，引入了一个更复杂的设计方案。

不管怎么说，合格的产品设计工作都需要通过持续的学习与经历来不断提升，并不能通过“按照大厂或市面上其他产品的样子借鉴抄袭”来走捷径。业界中始终有一种“大厂做的肯定是深思熟虑的结果，借鉴他们的准没错”，但完全不考虑不同体量的团队所需要投入的成本，也不愿意投入足够的思考与分析成本，这一点其实有些不作为了。

为了解决上述三个问题，随后我们的产品团队花费了大约 2 个季度的时间来厘清其中的逻辑（也不是一帆风顺，厘清逻辑本身其实还是在解决一些历史债，其中的挑战一度高到有部分团队同学产生“要不别重构了？又不是不能用”的想法）。在分别整理出了产品核心部分的域模型，用户流转模型，状态机，不同功能的关系图，行业现状与竞品的分析对比等各类资料。

友军说明：上述三个问题已经得到了产品和研发团队的一致共识，且得到了老板的认可和授权，由于老板的架构师角色出身，从产品底层设计的角度也向团队提出了很多挑战，不过好在最后重构工作能够顺利开展。

只有在前期做好充足的准备，才能为后续的投入带来最有性价比的准备，即不浪费投入的成本，又保证重构过程中的团队成员目标一致，也避免后续沦落到“为了重构而重构的沼泽中”去。

明确合理的交付目标节奏

随后我们需要关注的，则是确认产品重构到怎样的状态就可以推进上线与交付，并且在过程中及时控制投入的成本。不然漫无边际的“重构”迟早会耗光公司的耐心与愿意投入的资源。

从这个角度来复盘，我觉得其实这次的重构过程中，这一点做的并不是太好。尽管有外部客户定制需求打断，重构人手不足，管理层与资方中途因为投入成本开始犹豫等各种或客观或主管的原因，但随着项目重构的时间不断加长，明显会发现参与重构的同事都开始失去信心。与我而言，问题的核心还是在最开始没有建立出明确的交付目标。

说到如何管理项目与明确目标，可能大多数人都会提到“SMART 原则”，其中分别通过 Specific（具体的）、‌Measurable（可衡量的）、‌Achievable（可实现的）、‌Relevant（相关的）和‌ Time-bound（有时限的）来约束双方达成共识。在这次的重构过程中，我觉得没有做好的地方在于—— Measurable（可衡量）与Time-bound（有时限）。

虽然在重构初期我们就明确了这次的重构目标，但从事后的角度也不难看出，这三点问题（即前文提出的“产品的基础架构设计混乱失序”，“产品的能力无法支持用户深入使用”，“产品缺少能够匹配产品特性的设计”）其实难以作为重构的验收结果。到底做到什么样的结果才算是彻底解决了问题？实现哪些待办项才能够算作是“架构合理了，用户可深入使用了，设计匹配产品特性”了？更别提大家既要满足客户在线上版本中的支持与响应，又要抽时间不断推进产品重构的进度，重构的时限只有被一次又一次的延长。

仔细想来，衡量这些难以量化的目标还是应该通过具体的事件或者时间节点进行切割，在已有的敏捷迭代中通过更细致的时间安排，设计每一个迭代中的具体任务（“能做多少做多少”的思路在迭代中过于务虚无法落地），通过提前设计安排的阶段进度来约束重构进度整体可控，保证对应的功能与设计能够分阶段上线验证就显得更重要了。

重构重心的角色转变

在产品角色陆陆续续完成前期的工作之后，重构工作的重心就会从“定义梳理定义”逐步转变为“设计稿确认”，“开发测试”了。由于前期的准备工作总体比较扎实，在产品定义部分并没有什么需要反复确认的部分。但依然需要产品经理能够在这个阶段与研发同事多沟通，尽力保证研发能够充分了解业务角度的设计，避免因为业务了解不充分，而导致的问题。

但我还是建议产品经理能够参与到研发的重构过程中，研发同事的相关分析与会议之中，不说能够短时间内了解一些技术层面的方案，但至少能够对重构过程中一些比如“抽象”，“解耦”的逻辑有一定的了解。

举个简单的例子，大多数人都听说过“微服务”这个概念，但是这样做的目标到底是什么，能够带来哪些价值，拆分为服务之后如何确认每一个服务之间的依赖强弱关系，其实都是需要研发同事们仔细考量的。同理，我们在听到性能需要优化时，大家的第一反应可能都是把数据放在缓存里，虽然说效果确实立竿见影，但我个人觉得也不应该“万物都可加在内存中”，有一点算是走捷径的方法了（本段纯作为非技术人士的发言，不一定对，欢迎拍砖）。

产品发布后的持续关注

随着开发提测节奏越来越快，选择合适的时机将产品发布上线就变得重要了起来，我们不可避免的希望伴随重构后的产品上线，用户也能够自发且主动的切换到新的版本之中，但实际上这里还是不可太过武断，需要从尊重用户的角度来陆续推进新产品上线。

新老产品的数据迁移

首先，我们需要关注的就是新老产品之间数据的平滑迁移，保证能够在客户无感知的情况下将用户和数据内容全部都过渡到新的系统中，并且设计好对应的迁移策略和规范来约束迁移过程中的相关准备工作。

由于产品重构的原因，肯定会存在一些数据表映射与修改的问题，一般来说数据迁移会有一个最大化和最小化的原则，前者是指“新产品要考虑能够完全替代旧产品，保证用户所有已有的数据在新产品中都能够查到”，后者则是指“只需要迁移客户能够真实看的到的数据，避免因为完全同步占用的巨量资源和成本”。

随着用户和数据都迁移到新的产品之中，老的产品也不需要立刻下线，至少需要待机一段时间，避免因为线上问题的忽然出现而影响用户的信心。总之，在数据迁移的这个过程中，产品也需要和研发同事紧密配合，避免出错。

新产品的发布上线

在这里 toB 和 toC 的产品会有些许的区别，比如在 toC 的产品之中，一般会使用定量定性的灰度，或者人工增加过渡选择页等尽可能符合用户预期的方式，引导用户切换至新版本的产品之中。并且通过产品上线初期频繁的用户沟通了解分析来自用户的喜好评判与使用反馈，并在上线后的短期内快速优化对产品的反馈与建议问题。

但是在 toB 的产品中，可能更多会通过“站内信”，“短信通知”类似的批量消息触达机制，快速告知用户系统升级的时间，以及对于用户的潜在影响。不过不论是哪个领域，关注用户体验提供无摩擦的用户使用交互都是行业的大趋势，毕竟即使是再关注效率和质量的 toB 产品，背后的用户始终是一个个活生生的个体，行业早期的“toC 的产品经理更需要具备洞察力，toC 的产品更关注用户体验，”的想法应该是被摒弃的认知了（难道 toB 就不需要洞察力不关注用户体验吗）。

我个人觉得在这一个过程中，最需要注意的就是“兼听则明”，虽然说老系统更改到新系统总体是解决了很多问题，能够让人眼前一亮的，但在新系统刚上线的初始，也确实是系统最容易暴露问题的阶段。在这一个阶段中必须要沉着冷静，不仅能够接受产品上线过程中任何“预期之外”的问题，也需要能够引导团队耐心且冷静的修复相关的问题。

新版本上线后不论用户是表达满意还是意见其实都是好事，本质上这还是代表用户依然在使用产品，对产品有更好用的期待，作为背后的产品经理其实最担心的应该就是“用户并不在乎任何改版，从内心深处就确认了产品经理不会聆听他们的声音，对他们的想法没有好奇心”。在我从业的这些年也用过各种联系用户和他们交朋友的方法，只要愿意静下心来和用户沟通，似乎没有什么问题是不能解决的。

当然，即使产品上线一段时间后，对应的产品经理也依然需要持续关注使用情况和相关数据，在迭代中逐步安排后续的优化调优事项，逐步提升用户的使用体验，尽量保证产品使用过程中的稳定与质量始终在线。

不仅仅是与用户做朋友，也需要与研发做朋友，只要原因用真心做产品，总是在做正确的事情吧。

如何在Bing和Baidu屏蔽CSDN和知乎的搜索结果

雅余 · 茶余饭后，闲情雅致

Jeff

2024年9月18日 22:06

知乎现在也和 CSDN 一样已经臭名昭著了，搜一下网上骂声真不少。特别是在搜索技术类文章时，总会出现来自这两个网站的内容，又无法拷贝或查看完整内容，用户体验让人恼火。为了绑住用户而牺牲用户的体验，只能赶走用户。虽然可以使用 AI 问答工具检索答案，但有时还是需要用到搜索引擎。今天决定在搜索引擎中再增加对排除知乎的判断，方法也分享给大家。

以 Edge 浏览器为例，在“设置” > “隐私、搜索和服务” > “地址栏和搜索”菜单中找到“管理搜索引擎”，点击“添加”。

如下图，搜索引擎名字自定义，如“Bing -”，快捷方式定义为“bing”，URL 中填入以下完整地址：

{bing:cnBaseURL}search?q=%s+-site:csdn.net+-site:zhihu.com&{bing:cvid}{bing:msb}{google:assistedQueryStats}

当我们在浏览器地址栏中输入快捷方式“bing”，按 Tab 键，地址栏就会切换到这个搜索方法上，然后输入你需要的关键词进行搜索即可，你会发现结果页的搜索框中加上了 -site:csdn.net -site:zhihu.com。这是利用了搜索引擎 -site 的命令技巧。如果不想每次都输入快捷方式，可以直接设置为默认搜索。

如果你使用百度，方法类似。URL 中填入以下完整地址：

https://www.baidu.com/#wd=%s -site:zhihu.com -site:csdn.net

你也可以使用浏览器插件来屏蔽。

不求创新就罢了，还越来越闭塞。好吧，就此，和知乎也说再见了。

逛珠海市普济艺术博物馆

雅余 · 茶余饭后，闲情雅致

Jeff

2024年9月9日 23:35

珠海市普济艺术博物馆建在凤凰山脚下，就是我经常去走的长南迳古道。博物馆由珠海普陀寺发起创立，是全国首家由宗教活动场所作为发起者设立、国家文物局备案、正式领取牌照的非国有博物馆。普济艺术博物馆的特色在于其丰富的佛教文化藏品，包括佛教造像、经书拓本、佛教器具等。博物馆分别建于普陀寺入门两侧，两座1层建筑，这次我只走了其中一侧，下回我们再看看另外一侧的展览“佛教中国化在广东”。

根据网上资料，博物馆内226件藏品由张恩鹏文物鉴赏家捐赠，涵盖石器、玉器、陶器、瓷器、铜器等类别。自2023年3月份后，半年之内第二次又向普济艺术博物馆批量捐赠藏品，着实厉害。

By 理光 GR3

赏珠海石溪公园摩崖石刻群

雅余 · 茶余饭后，闲情雅致

Jeff

2024年9月5日 21:49

因古元美术馆重新装修，已经一年多没来石溪公园，最近终于恢复正常，所以这周徒步选在这里作为起点。石溪公园位于梅华路北面、古元美术馆西侧。公园里面除了有广东省文物保护单位的石溪摩崖石刻群位外，还有溪水湍湍，绿树成荫，是个周末带娃溯溪玩水和休闲的好地方。

公园定位为社区公园，但里面藏着不少历史文物。石溪摩崖石刻群，镌刻分布在溪流途径处的嶙峋怪石上，现已发现有30多处。年代由1831年至1879年，阴刻，以行书为主，也见楷书和隶属。

进公园是一处小水塘，安静，没有一丝波纹。

从此处开始拾阶而上，往上爬，一直到香山云道。虽然7点的阳光很猛，但是公园里十分凉快，一路风景很好。

石龙溅雪因雨水少了，没有了潺潺溪水从岩石上流淌飞溅。

泉水一直从山上流淌下来，这些地方下午不少人来玩水泡脚。

看到的第一处石刻“石溪”，原名叫“水门”，石溪落瀑处有两块大石头，形似门户而得名。自清代书法家鲍俊在左侧的一块圆石上镌刻“石溪”二字，人们就开始称这个地方为“石溪”。

亦兰亭，大约是1835年所建，如今见到的是重修的亭子。道光年间，被称为“岭南大才子”的珠海香山山场人鲍俊，与文人墨客仿效兰亭会吟风弄月时，在石溪留下了“亦兰亭”的艺术杰作。

林荫处，透过竹林，隐约看到泉水声，远处石头上刻有“琴泉”二字。

“一笔鹅”更被称为岭南奇书。

“鹅”字岩石上方隐藏着“古壁石”三字，来自北宋著名书法家米芾远道而来的题写。石溪是也因这三个字扬名，才有后来的“亦兰亭”。

从高处看3块石刻。

惜字社遗址原建有正屋、西屋和庭院，墙体为夯土建筑。曾是鲍俊晚年隐居时读书的屋舍。

一路上听着咚咚泉水声，一路欣赏石刻。

大概30分钟就可以爬到顶端，现在已经改造和香山云道相连。从这里出发，走3-4公里去到香山湖公园。

登上云道，就可以眺望珠海市区。

摄于珠海市石溪公园，By 理光 GR3

Obsidian 和 WordPress 我都用什么插件

雅余 · 茶余饭后，闲情雅致

Jeff

2024年9月3日 19:24

Obsidian 插件

1. Hover Editor
快速悬浮模式编辑。

2. Outliner
整理大纲。

3. Clearing Unused Images
用于清理图片，该插件默认不开启，需要清理时才启用。但现在基本不插入图片到笔记，纯文本记录。

以上就是我当前使用的所有第三方插件。之前也试过安装 Calendar、Kanban、Thino 等等插件，但感觉都没太大必要，软件自带功能和核心插件完全可以应付常规笔记需求。插件多了反而影响软件秒开。

我使用 Obsidian 插件的使用原则是，脱离 Obsidian 后，所有内容可以在其他编辑软件中继续正常使用。这意味着类似 Dataview 需要语法来判断、筛选内容的插件不符合我的要求。没有 Dataview 的便捷性，反而让我对于索引卡制作和双链的使用更加严格，对内容有更多的思考。提升效率的插件可以考虑安装一两个，或者多记几个快捷键。

WordPress 插件

1. Akismet
默认插件，能应付部分垃圾评论。

2. Autoptimize
优化 HTML、CSS、JS。

3. Object Cache
优化缓存。

4. WP Permalinks Migration
去年简化固定链接后作重定向安装的，计划明年删除。

以上就是我当前使用的所有插件，其他就是依赖部署服务器的时候一些优化，买的最低配轻量应用服务器。目前感觉网站整体速度还可以。我的开源主题，我会在functions.php 中禁用一些不需要的功能。我自己用的主题，我会禁用更多，比如禁止WordPress自动生成缩略图、禁止响应式图片。我不考虑使用第三方服务，比如图床，以避免以后服务终止或迁移带来的困扰。

个人觉得，做笔记也好，写博客也好，软件/程序功能上的需求没有那么多，就是图片和文本信息。基于极简原则，其他都是画蛇添足或锦上添花。花样多，需要投入的非必要时间就多，让你分心的东西越多。够用就好。

4个步骤让 MacOS 13 以下版本支持 AVIF 格式预览

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月28日 10:36

如果你使用的是 macOS Ventura（MacOS 13），系统已默认支持 AVIF 格式打开和预览。对于更旧的系统版本，需要通过安装第三方图片浏览软件或拖到浏览器中查看。

AVIF QuickLook 插件可以通过4个简单的步骤，实现在系统直接预览 AVIF 格式，该插件由国内一个作者 DreamPiggy 开发。

要求：

1、macOS 10.11+ (Big Sur+) 以上版本
2、M1/Intel Mac 都支持

步骤：

1、在 Github Release Page 下载最新的 AVIFQuickLook.qlgenerator；
2、打开 访达.app (Finder)；
3、通过快捷键 Shift + Command + G 打开“前往文件夹”窗口，输入 ~/Library/QuickLook/ 然后回车。 macOS Catalina 以上版本, 使用 /Library/QuickLook/；
4、把下载的 AVIFQuickLook.qlgenerator 复制到该文件夹内，可能需要输入电脑密码确认。

如果你已经安装了 Homebrew，只需要一行命令即可。

brew install avifquicklook

安装完，系统就支持直接预览 AVIF 格式了。

利用 Mac 快速操作实现图片批量转换为 AVIF 格式

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月26日 23:43

继上一文介绍了我“利用 Mac 快速操作实现图片批量转换为 WebP 格式”捣腾成功后，希望通过同样的方法实现利用 Mac 快速操作实现图片批量转换为 AVIF 格式，捣腾结果分享如下。

为什么使用 AVIF 格式？

AVIF 是一种基于AV1 视频格式的现代图片格式，实现卓越的压缩效率，同时保持高图像质量。AVIF 通常比WebP、JPEG、PNG 和 GIF 具有更好的压缩效果，并且旨在取代它们。AVIF 对宽色域、高动态范围 (HDR) 和渐进式渲染的支持增强了视觉体验，预示着图像细节精美且高效交付的未来。号称 Web 开发人员和摄影师的首选。据统计，AVIF 全球使用情况为 92.95%，除 IE 浏览器、Opera Mini、QQ 浏览器、KaiOS 浏览器外都已支持，WordPress 6.5+ 已支持 AVIF 格式。

通过 AVIF 格式其开发组织“开放媒体联盟”（AOMedia），顺藤摸瓜在其 Github 账号上找到了 libavif 这个用于编码和解码 AVIF 格式的库和使用文档。

我的操作步骤如下：

一、安装 Homebrew

这部分就不重复介绍了，见“利用 Mac 快速操作实现图片批量转换为 WebP 格式”一文。

二、使用 Homebrew 命令安装 libavif 包

在终端中运行一下命令：

brew install libavif

回车直至安装完成。注意是否有出错或文件无授权的提示，按需对文件夹进行可操作授权。注意 libavif 包的安装路径，后面需要用到。

三、添加 Mac 快速操作 Workflow

1、在 Mac 上打开“自动操作”，选取“快速操作”；

2、在工作流的顶部，它显示“工作流程收到当前”，选择“图像文件”，然后在“位于”下选择“访达.app”；

3、接下来，在“自动操作”的左侧面板，在“资源库”下选择“实用工具”，然后将“运行 Shell 脚本”，拖放到右侧工作流程面板中；

4、对于“运行 Shell 脚本”，“Shell”选择“/bin/zsh”，“传递输入”选择“作为自变量”。

把以下代码片段粘贴到下面文本框中：

for f in "$@"
do
fname="${f%.*}.avif"
/usr/local/Cellar/libavif/1.1.1/bin/avifenc -s 10 -q 85 "$f" "${f%.*}.avif"
done

然后在“文件”菜单选择“储存”，保存文件名为“转换为 AVIF”，保存到默认地址即可。

注意：
1）libavif 的路径是为通过 Homebrew 安装的 libavif 设置的，如果您手动安装了 libavif，那么它可能在 /usr/bin 中，您需要相应地调整路径（我的最终路径是 /usr/local/Cellar/libavif/1.1.1/bin/avifenc ）；

2）-q 质量标志当前设置为 85，默认为 60，但您可以将其设置为 1-100 之间的任何值（越高将产生更高质量的图像，但压缩较少）；-s 代表速度，默认为6；默认不删除照片 exif 信息，需删除则加上 --ignore-exif 参数。

5、选择你需要转换格式的图片，可多选，右键菜单的“快速操作”中选择“转换为 AVIF”选项，图片将在当前文件夹中自动生成 AVIF 格式文件。

至此，教程结束。

下图为 WebP 和 AVIF 格式压缩率都设置为 85 所得到的压缩结果，结果是 WebP 的文件更小一些，有点困惑。不知道是不是我设置的压缩率太高了，libavif 官方默认值是 60。本文方法大致如上，至于多少压缩率更好，大家自己摸索吧。

另外，我通过 AVIFQuickLook 插件，已经实现了在老苹果中直接预览 AVIF 格式。使用 Brew 进行安装，命令如下：

brew install avifquicklook

如有误，或有更好的方案，欢迎指正和交流。

利用 Mac 快速操作实现图片批量转换为 WebP 格式

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月25日 20:45

周末进行网站整站备份的时候发现，整站压缩后的压缩包大小为 1G 多，有点难接受。原因是网站图片较多，主要是 JPG 格式照片，占用较多空间。网站流量不大，服务器流量压力方面倒是不担心，但是会对未来网站可能出现的整体迁移、备份造成了压力。虽然去年改版已经对 WordPress 缩略图生成做了限制，只生成必须的三个尺寸，但网站体积还是在快速的增长。

为此，我打算整站改用 WebP 格式图片，在本地处理好图片之后再进行上传。因为使用 WordPress 的插件普遍会保留原文件，另外再生成一批 WebP 格式的文件，反而增加了存储空间。至于 WordPress 媒体库中历史的图片如何替换为 WebP 格式，另行研究。

为什么使用 WebP 格式？

WebP 是谷歌在 2010 年提出的一种新型的图片格式，其优势在于 WebP 格式的图片可以比 JPEG 格式的图片小 26%-34%，比 PNG 格式的图片小 25%-34 %，拥有更快的加载速度，可以保持比 JPEG 格式更好的图像质量，还支持透明度和动画效果。据统计，WebP 全球使用情况为 96.35%，除 IE 浏览器外都已支持。WordPress 5.8+ 增加了对 WebP 格式的全面支持。

也有更新更先进的 AVIF 格式（WordPress 6.5+ 支持 AVIF 格式），压缩率更高，但浏览器支持度目前略差一些，我的老苹果电脑无法直接预览，所以先忽略，以后再考虑。

Windows 下有不少免费的 WebP 格式批量转换工具，Mac 下比较少。转换 WebP 格式的在线应用也是有的，但上传下载太耗时。可喜的是，Mac 可以通过命令行工具，配合自动操作功能也可以实现批量转换。

我的操作步骤如下：

一、安装 Homebrew

前提条件，需要在运行 MacOS 至少为 10.14（Mojave） 或更高版本的 Mac 上安装 Homebrew。如果您尚未安装 Homebrew，请先安装。

什么是 HomeBrew？

HomeBrew 是一个免费且开源的包管理器，它简化了 MacOS 用户安装软件的过程。无论是命令行工具、语言运行时还是应用程序，HomeBrew 都能帮助你轻松管理。它的口号是“The missing package manager for macOS”，意即它弥补了 MacOS 缺失的包管理功能。

安装 HomeBrew 非常简单，执行一行脚本即可。为了提升安装速度，建议更改 Homebrew 的安装源，将其替换成国内镜像。

方法1、Homebrew 官方脚本：（速度欠佳，会出现超时）

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

方法2、中科大镜像 Homebrew 镜像服务脚本：

/usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/homebrew-install/install)"

注：最后出现 Installation successful! 或者 Checking out files: 100% (5392/5392), done. 说明安装成功。

必须配置：

更改安装源，替换为国内镜像：

1）替换 brew.git：

git -C "$(brew --repo)" remote set-url origin https://mirrors.ustc.edu.cn/brew.git

2）替换 homebrew-core.git：

git -C "$(brew --repo homebrew/core)" remote set-url origin https://mirrors.ustc.edu.cn/homebrew-core.git

方法3、 Gitee 国内镜像服务脚本：（推荐！！）

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

安装过程中按 brew 官方脚本执行，提示安装成功后会让选择国内哪个镜像源：
1）中科大国内源
2）清华大学国内源
3）上海交通大学国内源
4）腾讯国内源
5）阿里巴巴国内源(推荐)

提示配置成功，但还需要重启终端 或者 运行命令 source /Users/用户名/.bash_profile，否则国内地址无法生效。

二、使用 Homebrew 命令安装 WebP 包

在终端中运行一下命令：

brew install webp

回车直至安装完成。注意是否有出错或文件无授权的提示，按需对文件夹进行可操作授权。注意 WebP 包的安装路径，后面需要用到。

三、添加 Mac 快速操作 Workflow

1、在 Mac 上打开“自动操作”，选取“快速操作”；

2、在工作流的顶部，它显示“工作流程收到当前”，选择“图像文件”，然后在“位于”下选择“访达.app”；

3、接下来，在“自动操作”的左侧面板，在“资源库”下选择“实用工具”，然后将“运行 Shell 脚本”，拖放到右侧工作流程面板中；

4、对于“运行 Shell 脚本”，“Shell”选择“/bin/zsh”，“传递输入”选择“作为自变量”。

把以下代码片段粘贴到下面文本框中：

for f in "$@"
do
fname="${f%.*}.webp"
/usr/local/Cellar/webp/1.4.0/bin/cwebp -q 85 -m 6 -metadata all -mt "$f" -o "${f%.*}.webp"
done

然后在“文件”菜单选择“储存”，保存文件名为“转换为 WebP”，保存到默认地址即可。

注意：
1）cwebp 的路径是为通过 Homebrew 安装的 cwebp 设置的，如果您手动安装了 cwebp，那么它可能在 /usr/bin 中，您需要相应地调整路径（我选择方法3的脚本，最终路径是 /opt/homebrew/Cellar/webp/1.4.0/bin ）；

2）-q 质量标志当前设置为 85，但您可以将其设置为 1-100 之间的任何值（越高将产生更高质量的图像，但压缩较少）；-metadata all 为保留所有图片信息，可选值还有 all, none, exif, icc, xmp。

5、选择你需要转换格式的图片，可多选，右键菜单的“快速操作”中选择“转换为 WebP”选项，图片将在当前文件夹中自动生成 WebP 格式文件。

至此，教程结束，可以看看我上一篇文章中图片的转换效果，压缩后图片体积减少了 2-3 倍，效果喜人。本文所有图片均使用 WebP 格式。

如有误，或有更好的方案，欢迎指正和交流。

黔西南游之贵州醇景区

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月22日 23:27

贵州醇景区在兴义市区内，是国家4A级风景区。景区内有个蘑菇野奢酒店，还有丘比特广场、红枫林大道、樱花园、梅花园等，不过现在不是赏花季节。下午4点左右去的景区，在景区门口坐了电瓶车在园区转了一圈之后在景区内到处闲逛，电瓶车还可以一次购票多次上车。景区内景色还是不错的，在蘑菇酒店和丘比特广场拍了不少照片。听说晚上比较漂亮，但是景区内没什么吃的，太阳快下山时就离开去找吃的了。

摄于贵州醇景区内，By 徕卡 D-LUX8。

什么是多模态大模型

bang’s blog

bang

2024年8月20日 11:31

是什么

在机器学习领域，”模态”被用来描述不同类型的数据形式，如文本、图像、视频、音频等。
最开始以 ChatGPT 为代表的大语言模型，都是只支持文本这个单一模态。
可以同时处理文本、图像、音频等多种形式的数据输入输出的大模型，就是多模态大模型。

特点：端到端

一个模型能同时理解和处理多种模态的数据输入。

非端到端的例子：
1. 在 ChatGPT 上，可以调用 DALL-E 生成图片，但实际流程是 prompt → GPT4模型 → 生成细节提示词 →DALL-E模型 → 生成高质量细节图像，只是一个能力串联，并不是一个多模态大模型。
2. 在豆包或其他一些LLM APP上，支持语音输入→文字和语音输出，实际流程是语音→ASR模型转文字→LLM→文字→tts模型转语音，并不是端到端语音→LLM→语音。
端到端的例子：
1. GPT4o 的实时语音对话，流程是语音→ GPT4o模型→语音。延迟低、语气/音色/停顿/语义都能综合理解到。
2. claude3.5 支持按要求识别图片，流程是图片+prompt → claude模型→文本。能很好结合 prompt 按要求输出对图片的识别。
端到端的好处：
1. 模型能直接从原始的数据中学习不同模态之间的关联和映射关系，发现隐藏在数据中的复杂跨模态模式，可以 scale up 达到涌现，没有中间折损，可以做到低延时。

原理：基于大语言模型

多模态大模型以大语言模型为基础模型，复用已预训练好的模型理解能力，在上面增加其他模态的能力，对齐多个模态的特征让原大语言模型能理解。GPT4o 就是在 GPT4 基础上增加音频/图片的特征能力，它在文本上的理解能力还是跟 GPT4 差不多。
模型通用的基本构造(参考这篇文章)：
1. 编码模块，将图片/视频/音频等模态编码为特征 token，一般还伴随一些压缩的处理。
2. 投影层(Projector)，让不同模态的特征 token 语义对齐，这是模型重点要训练的部分。
3. LLM，多个模态的特征都在基础 LLM 大模型上做处理理解，通常 LLM 本身也要在新的模态训练过程中做相应微调，适配新的模态。
4. 若支持多模态输出，也同样有模态对应的投影层和解码层。

当前模型能力

把多模态大模型能力拆分成输入理解、输出生成的话：

当前主要在发展输入理解部分，较多大模型支持了图片理解、视频理解能力。
输出生成上，主流的还是各模态各自在发展阶段，如图片生成模型、视频生成模型、音乐生成模型，都是独立单任务模型。GPT4o、gemini 支持了音频的端到端理解和生成，其他大模型基本还只支持文本生成。
有一些新的模型在尝试大统一，输入输出都支持文本、图片、音频、视频多种模态，如腾讯刚出的 VITA、AnyGPT、Unified-IO，都处于起步阶段，看起来综合效果还没很好。

图片理解

通往多模态的第一步，基本都是在LLM上加入图像识别能力，已成为目前大模型标配，这是最自然最广泛的需求，难度也不高。

现状：大部分模型文心一言，豆包，GPT4o，claude、Gemini 等都支持，开源的 Qwen-VL、LLaVA、Yi-VL、MiniCPM-V 等也非常多。

能力：大模型加持的图像识别，各项能力都能胜任，包括OCR、图片物体理解、逻辑理解、文档图表理解、隐喻理解等。

效果：能力比较全面，但也相对平庸，相对垂直领域专门优化的图片识别模型，效果有差距。例如各大模型在OCR能力上的评测，相对最好的OCR垂直模型有差距，更垂直的像植物识别这种，跟PictureThis 这类专门优化过的差距会更大。对图片理解上，结合大模型能力效果会比较好（评测）。图片识别评测维度非常多，有各种维度的评测标准，从个人实际观感上综合识别效果最好的是claude 3.5。

原理

以 Yi-VL 为例，其他模型差不太多，都是在 LLM 基础上增加图像编码处理然后端到端训练：

图中的Large Language Model是基础模型，Yi-34B-Chat或Yi-6B-Chat。
Vision Transformer（ViT）模块用于图像编码，用CLIP模型。
Projection 模块处理图像特征，训练后的这一层让图像特征跟文本特征空间对齐，包含 layer normalizations 和 Multilayer Perceptron（MLP）。
火焰标志表示训练，雪花标志标识冻结不训练。训练分了3步，用了不同的图片-文本数据对，最后一步 LLM 也参与训练了。
LLaVA/MiniCPM-V也是类似的结构和训练过程，训练最后一步都会微调到LLM基模参数。

应用

图片搜索、语义搜索、物体识别、人脸识别这些垂类小模型已经能做好。
给图片配诗、给图片配音、拍照搜题+解题、阅卷、验证图识别等，这些用结合LLM的大模型，门槛会降低，效果也会有优化。
截屏识别自动化，试卷阅卷，这种场景结合 LLM 才能做好

视频理解

现状：部分主流大模型支持通过把视频抽帧为一系列静态图进入模型分析，本质上是图片理解能力，能做到一定程度的内容理解，GPT4o 基本是这样，一些支持图片识别的大模型稍加调整也能支持这种方式。少部分模型能识别视频和对应的音频，如Gemini、阿里开源的 VideoLLaMA2。有比较多的开源模型在做各种方式的尝试，更好识别视频帧之间的时间逻辑关系、跟音频/文字模态做更好的整合理解。

效果：有个项目 Video-MME 专门分析各大模型视频识别理解能力，测了多个模型在各种理解任务上的表现，包括时间/空间关系的感知和逻辑推理、文字/物体感知、信息总结等，视频类型包括电影、体育、vlog等，能结合整个视频里的信息做理解。各模型在2分钟以内的短视频上理解能力已经不错，中长视频会差比较多，Gemini、GPT4o和效果最好的，开源的模型差距还比较大。

原理

视频理解的主流方法是使用图像编码器从视频中提取帧，对其进行编码，然后用压缩模块压缩视频编码信息，再将其输入到 LLM 中，与文本输入进行联合理解。

也有很多模型在尝试各种方案，如智谱 CogVLM2 加入时间定位、时间戳的数据，让模型能感知视频对应时间。有些模型尝试改造 LLM，不让视觉特征与文本混合，在 LLM 内部增加独立的 transformer 模块处理，如 mPLUG-Owl3。

以 VideoLLaMA2 为例看下大致原理，综合支持了视频和音频输入，视频和音频分别编码：

视频按帧编码为特征，经过STC Connector 处理，Spatial Convolution 处理视频帧特征，提取空间信息，Spatial – Temporal Downsampling 降低视频数据维度，再经过投影层与其他模态特征对齐，一起进入大模型。音频也是一样的流程。
训练分成多个步骤，视频、音频分别单独训练，最后再联合视频音频一起训练，每个步骤有对应的数据集，看起来只有最后一步联合训练，LLM基模的参数才会参与训练。

（题外话，名字叫 VideoLLaMA2，实际上跟Llama没关系，LLM基模用的是Mistral）

应用

基于类似的原理，可以自行训练在垂类表现更好的视频模型，例如：

视频配文案
视频内容总结、解读
视频内容搜索（以自然语言搜索长视频特定内容出现位置）
影视解读（影视时长过长，当前大模型 context 能力还不具备）

音频理解&输出

能力：GPT4o 和 Gemini 都支持了音频理解和输出，能很好理解音频里的语气、语调、节奏、风格等信息，细微的喘息、叹气声都能很好识别和生成，实时性也能做到很高。

原理

目前 GPT4o 和 gemini 相关公开的具体实现细节较少，最基本的原理跟上述应该差不多，语音编码为token→投影层对齐其他模态→输出预测语音token→解码为语音。可以看看 AnyGPT 的实现：

应用

最主要的应用是拟人真实程度高的实时语音对话，从GPT4o的演示看，这点对体验影响很大，即使智能能力进步不大，真实性和实时带来的 AGI 感受也是很强。

语音转录、会议记录总结等，虽然已经有很多 ASR 模型能做到转文字，但整个音频的内容、多人对话、语气情绪都能输入大模型，结合大模型理解能力，预计能做到更好的效果。

其他

端到端生成图片 Gemini 号称支持，但没找到相应资料，视频生成单模型都还在摸索，结合 LLM 还早。多模态大模型整体处于发展阶段，各模态的理解和生成还没到很高的水平，整体进展没预期快，但以当前的能力，针对垂直场景做一些训练，是能够较低门槛做出一些之前做不到或做不好的应用了，例如视频配旁白。

黔西南州博物馆-夜郎的疑问

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月19日 12:53

黔西南游的大收获之一就是这个低调但又卷的黔西南州博物馆。我两次来回酒店经过桔山广场都没留意到博物馆存在，建筑外观实在低调。说他卷，是因为他全年除了除夕闭馆之外，全年每天开放。

黔西南州博物馆位于兴义市桔山广场，共计10000余平方米。现有馆藏文物6000余件（套），其中一级文物32件（套），二级文物15件（套），三级文物60件（套）。精品文物有抚琴俑、铜车马、摇钱树、连枝灯、提梁壶、一字格剑等。现有基本陈列《夜郎的疑问-贵州汉代历史文物展》免费对公众开放，展览文物400余件（套），共三个单元六个厅，展览面积3300平方米，为西南地区面积最大、珍贵文物较多的汉代文物专题展之一。

那么小的博物馆，居然有6000件藏品。我走完一圈，拍了100多件藏品，挑选出15件和大家分享。为什么主题是夜郎的疑问？因为两千多年前夜郎古国的疆域范围具体有多大、国都在哪里、民族构成有哪些？夜郎缘起于何时、文化内涵是什么？夜郎王印的下落何在？这诸多的疑问困扰着相关专家学者们。

西汉羊角钮铜钟，国家一级文物。2008年7月，在贵州省黔西南州安龙县西城区，人们在进行旧城改造时，挖出了几团黑乎乎的东西，不经意间发现了一处埋藏千年青铜器的地方。当时共出土了八件文物，其中之一就是这件羊角钮钟。这座钟的钟体为合范铸造，上小下大，中空，截面呈橄榄形，高31厘米，下底横长18.5厘米。钟体上端有竖长方形穿孔，用于系绳或穿孔悬挂。顶端歧出两片羊角形鋬钮，底端的双面饰有锯齿纹。羊角钮钟与铜鼓一样，是中国西南地区青铜文化中一种具有代表性的器物，它是既古老又极富地方文化特色的乐器，因为常用在典礼中，因此也是礼器。

一字格铜剑是西南夷系统铜剑中数量较多的类型，其基本特征是格呈长条状，形如一字，另外多空首呈喇叭口状，曲刃。

一字格铜剑在云南、贵州、广西两省区的西部以及越南北部均有发现，分布甚广。一般不超过30厘米；剑茎为中空圆柱形；束腰，顶端微张呈喇叭口；剑茎纹饰主要有同心圆纹、S形连续半圆纹、粟纹、云纹、涡轮纹和编绳纹等。

迄今为止，贵州省乃至西南地区保存最完整、等级最高的唯一一件汉代琥珀司南佩，国家一级文物。黔西南州博物馆馆藏的这枚琥珀宽3.2厘米，高1.5厘米，算目前已知同时期较为大的一件。汉代文献多将“琥珀”称为“虎魄”或“兽魄”，谓之为“虎死，精魄入地化为石”，甚至认为琥珀是老虎的眼泪，或是老虎死前目光凝聚成的宝石，同时认为琥珀能趋吉避凶、镇宅安神。何谓司南佩？司南即中国的四大发明之一指南针，运用指南针的素材制成的佩饰就是司南佩。也就是说，汉代先民已经知道琥珀具有静电效应，因此将琥珀用于制作司南佩。

东汉陶牛，出土于兴仁交乐19号墓，国家一级文物。整牛通长54厘米，宽22厘米，高27厘米。通身用阴刻纹线表现细部肌肉、褶皱和毛发等特征，牛尾结实，绕贴于臀、腿部，总长31厘米，线条流畅。此牛为公牛，立式，泥质灰陶制，体态壮实而稳健。

东汉抚琴俑，国家一级文物。抚琴俑高34厘米，宽35.8厘米。右膝跪地，左腿弯曲向左，双膝分开，臀部紧贴两后足，和汉代标准坐姿有点不太一样。汉代标准双膝并拢接地、毕恭毕敬的“跽坐”，而是相对休闲随意的“跪坐”。陶俑衣着朴素，头戴圆帽，帽内尖顶高度正好与帽的外立沿相当。内身着圆领，外穿宽袖服，右襟掩覆于左襟内，为汉族标志性的右衽服。两手宽袖挽于双肘，随意自然。最精彩的地方，体现在陶俑精准的面部表情刻画。蚕眉杏眼，短须高鼻，生动传神。满面春风，喜容可掬，给人的感觉就是国富民强，安居乐业，一片幸福与祥和。

国家二级文物。吹箫俑为男俑，高36厘米，宽20厘米。泥质灰陶，跽坐，中空，头和身分塑，套合成形。大眼宽鼻，戴耳环，右手掌残缺，左手持箫，箫管因残损，俑人正在动情吹奏。这件具有异域特色的陶俑，从整个外貌和装束看，系来自西域的胡人。

国家二级文物。俑高31.5厘米，宽20厘米。中空，跽坐。身着圆领内衫，外罩交衽宽袖长袍，上身微左倾，头戴介帻（头巾），后开叉。脸略前仰，浓眉大眼，嘴微张开，面带微笑，鼻子残缺。右手抚腿，左手上扬为抚耳姿势，似作“聆听状”。

贵州兴仁交乐6号墓出土了两对四件鎏金的铜鸟饰，体型较大，铮铮闪亮，为贵州汉代鸟饰之冠，国家一级文物。这四件鎏金铺首整体呈扁平状方形，轮廓线条简单利落，体型悬殊不大。宽度和衔环径均为17厘米左右，不含衔环的高度为16厘米左右。这些铺首都是用来装饰棺材的。

东汉摇钱树，国家一级文物。“摇钱树”，是东汉至三国时期的巴蜀文化圈（即今天的四川、重庆、云南和贵州一带）在专门为埋葬墓主人而铸造的随葬品中，特别制作的一种青铜和陶的树状组合器，其体型较大，平均高度超过１米，一般分为树座和树两部分。“摇钱树”上除了铸有大大小小的铜钱纹外，还有种类繁多的朱雀、羽人、鸟和动物纹饰等，其中一些还铸有道教女神西王母的形象。其内涵就是反映古人对财富的追求和“永生”的愿望。由于其材质不易保存，故一旦出土一座完整的摇钱树，就是博物馆的镇馆重器。

贵州兴仁交乐6号墓出土的东汉提梁壶，为国家一级文物。整壶由器身、器盖和提链三部分组成。器身造型为束颈，盘口，扁鼓腹，五棱喇叭形高圈足。肩部饰对称铺首衔环，肩腹部共饰弦纹7条。器盖榫口与壶体卯口套合，盖顶錾刻四瓣汉代常见的柿蒂纹。半球形盖钮，上挂一环，方便提拉揭盖。器盖顶两侧还置对称条形环耳。提链与器肩铺首衔环套接，两侧链环均为16节。这种壶称为提梁壶原因，即是因提链上一般设计有提梁。此壶提梁为半圆形，两端饰龙首衔环，等级非常高，龙首衔环与提链套连，用手握住提梁，便可轻易将壶提起。“壶”这种有腹、长颈、有盖、有系的容器，是古代的一种盛酒器。

东汉龙首直柄铜釜，国家二级文物。这件铜釜造型可分釜身和柄两部分，釜身和贵州大多数铜釜无异，敞口，束颈，深腹，环耳，通高13厘米，口径8.7厘米。特殊之处，是由一只长柄代替了一只环耳。有柄的铜釜本就少见，何况是龙首柄。龙的背鲫，即脊上的骨头，用七个大小不一的乳丁展示，设计构想巧妙，使整条龙看上去强劲有力。

两辆东汉铜车马，一辆为辎车，一辆为轺车。东汉铜车马（辎车）是国家一级文物，出土于兴义万屯8号墓。东汉铜车马（轺车），1987年在兴仁市雨樟镇交乐6号墓出土。两辆铜车马出土的位置仅相距16公里。辎车总长1.12米，通高0.88米，轺车通高1.16米，长0.85米，整体由青铜铸造，由头、耳、颈、身、尾、腿共11个部位组成，是目前为止黔西南发掘的最大一辆铜车马。该马造型比例协调、神态逼真，昂首翘尾，鬃毛平整，竖耳咧嘴作嘶鸣状，形态十分矫健。

本文资料收集自博物馆官网、贵州广播电视台官网介绍和新闻报道。

摄于黔西南州博物馆，By 徕卡 -LUX8。

黔西南游之马岭河大峡谷

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月17日 22:37

马岭河大峡谷是贵阳必游景点，峡谷宽50—150米、谷深120-280米，谷内层峦叠嶂，河水湍急，有多个瀑布群，有很多钙化奇观，气势磅礴。马岭河上游叫清水河，中游因两岸有马别大寨和马岭寨而称马岭河。从河流至河口长约100千米的流程内，落差近千米，下切能力强，在海拔1200米的坦荡平川上切割出长达74.8千米的马岭河大峡谷。

可惜去的当天阴天，进山后忽然大雨，等了20分钟雨逐渐停之后才披着雨衣继续前行。整个游览过程因为雨水和瀑布，唯有用手机拍照。

摄于贵州兴义市马岭河峡谷景区内，By iPhone 12 Pro Max

黔西南游之雨补鲁村

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月16日 22:37

雨补鲁村在黔西南州兴义市清水河镇，是一个类似桃花源的小村庄。此前一直默默无闻，直至被《爸爸去哪儿 5》选为拍摄地，才逐渐为众人所熟知。这个古寨最有名气的“天坑地漏”，它是一个建在天坑里的原始村寨，这个天坑也叫“雨补鲁天坑”。

“地漏” 的上缘宽达 9 米，深度为 2.4 米，其下缘的洞口宽约 1 米，洞深同样为 1 米。在洞的侧面，存有一个宽 30 厘米的小洞，此洞与一条地下河流相连通，从而便于地漏在雨天能够及时排水。

当你在村里走上一圈，便会觉得这里与陶渊明笔下所描绘的桃花源极为相似，处处洋溢着天然、原始的气息，充满了野趣，也饱含着宁静。

“林尽水源，便得一山，山有小口，仿佛若有光。便舍船，从口入。初极狭，才通人。复行数十步，豁然开朗。土地平旷，屋舍俨然，有良田美池桑竹之属。阡陌交通，鸡犬相闻。其中往来种作，男女衣着，悉如外人。黄发垂髫，并怡然自乐。” ——陶渊明的《桃花源记》片段

古寨内的住民据说95%的人家都为陈姓，他们的祖先在距今650年前也是避祸逃难到此。以山作为天然屏障，躲开战争，在此休养生息，世代繁衍。如今，陈氏家族已由当初的几户人口繁衍至126户并有600多人口的天坑人家。（2019年数据）

陈氏逃难至此，对家乡有浓浓的思念。宗祠旁边还有个“乡愁馆”，记录天坑人家的乡愁。

从市区前往雨补鲁村距离较远，车程约 50 至 60 分钟，而且村里没有太多壮观的自然景观（硬货），曾经精心修建的相当不错的游乐设施如今也都荒废了，着实令人惋惜。不过从好的方面来看，这个村子又能够重归宁静。

拍摄器材：徕卡 D-LUX8

拍摄地点：贵州省兴义市清水河镇雨补鲁村

黔西南游之万峰林赶集

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月13日 21:23

要快速并深入体验一个城市的当地文化和特色小吃，建议去赶集，到当地的菜市场去。在万峰林，无论你哪天到达，都可以安排一场赶集。每周七天，天天都有集市，集市时间从早间持续到中午12:00左右，允许你睡个懒觉再去。到集市去和当地人一起买/吃个特色早餐，是个不错的选择。当然，我去凑了热闹。

万峰林赶集攻略：

周一：下纳灰村，停车可以停灰跳花广场；
周二：纳录村，停车可以停乡愁集市停车场；
周三：巴结村，在万峰湖旁（而非万峰湖，万峰湖是旅游景点）；
周四：安章村，导航“纳具和园”，人和车都很多，可以找路边停；
周五：展宏桥（翁本村），导航“山悦星野观瀑餐厅”；
周六：乐立村，导航“松林烧烤园”，可以找路边空地停，10元/车；
周日：下午屯，停车可以停永康综合农贸市场旁。

下纳灰村集市是一个L形状，总长度估计不超百米，如上图一眼能望到头的集市，左转还有一小段。我6点45分赶到的时候，大部分的摊位已经摆好了，村民们陆陆续续过来买菜买早餐。

到集市去赶集挺有趣，推荐你旅游的时候也去体验下。

拍摄器材：徕卡 D-LUX8

拍摄地点：贵州省兴义市万峰林景区下纳灰村

关于万峰林的景色见上一篇：黔西南游之万峰林的一天

黔西南游之万峰林的一天

雅余 · 茶余饭后，闲情雅致

Jeff

2024年8月9日 22:49

万峰林景区位于贵州省兴义市东南部，是国内最大、最具典型性的喀斯特峰林。在三百六十多年前，明代著名旅行家徐霞客就曾到过万峰林，赞叹：“天下山峰何其多，唯有此处峰成林”。根据峰林的形态，分为列阵峰林、宝剑峰林、群龙峰林、罗汉峰林、叠帽峰林等五大类型。每一类都各具特色，既独立成趣，又与其他类型的峰林相辅相成。所以在万峰林躺平的几天中，总感觉每次看这些山都不一样，又忍不住再拍几张。最后拍了很多很多的山峰，也很难筛选，看着又好像一样，又好像不一样。最后选择出30张和大家分享。

下面，我们从清晨开始，看看万峰林一天的变化。

清晨6点半，气温22度左右。在万峰林景区的下纳灰村，当地居民和游客都还在熟睡中，太阳的光芒已悄悄的从山背面爬了上来。翠绿中泛着金黄的田野，山顶蒸腾而起的雾气，连绵不绝的山峰，还有这酷夏里充满凉意的微风，让人喜出望外。

起床晨运的人很少，只遇到几位年长的老人家出来散步。

清晨的田野里，露水还挂在水稻的叶子上。

太阳爬升，云雾缭绕。

有几缕阳光已经忍不住透过云雾，轻轻划过田野，稻田马上透出了金黄色。

下纳灰村的牌坊。

穿过下纳灰村的小巷，来到田边的时候，太阳已经把另外一边的山顶照亮了。

田野也逐渐明亮起来。

10点多，多云，气温26度左右，阳光显得没那么猛烈。虽然贵阳气温宜人，但紫外线非常猛，不作防护，一会就会被晒伤。

中午12点多，太阳已经大大的在头顶上。但因为多云，时不时还会阴凉一下。在兴义，只要躲到阴处，就会感觉凉快。这里的餐厅和出租车大多不开空调。

云朵和太阳不断的嬉戏，你追我赶，铺在山上阳光变化的非常快。

到处都是绿色，大片大片绿色的田野，大片大片绿色的山峰，只有稀稀疏疏的白色民房点缀其中。

穿过田野的一部儿童玩的“高铁列车”。

3点多的阳光，照得田野有些刺眼，气温29度左右。

一朵大大的云朵爬上山顶。

田野里有很多小孩拿着气球在里面嬉戏。

隐秘在山林中的寺庙。

从咖啡厅三楼看下来的田野。

养育纳灰村民的河流。

从山顶可以看到稻田里种出的福字，叫福字田。另外还有一个八卦田。

有一朵微云飘上山顶。

从咖啡店出来，遇到一位刚刚给女朋友拍完照片的小伙子，手持微笑的气球。女朋友在认真的审阅他拍的照片。希望他的摄影水平了得。

这些可爱的气球争先恐后的朝我露出笑脸。

下午6点多，太阳西斜，我的影子被拉长了。气温马上降了下来，走在路上十分凉快。我们一群人，慢悠悠的在田边走着。

太阳马上就要从山顶上沉了下去。

回去的路上，看到不少装饰好看的民宿，忍不住拍了几张。

万峰林是我到黔西南游的其中一部分，将会分成多篇分享出来。本篇除两张用手机拍的照片外，其他照片均使用徕卡 D-Lux8 拍摄。

拍摄地点：贵州省兴义市万峰林景区内

视频生成模型调研 – 人像视频/基础模型/可控编辑/DiT

bang’s blog

bang

2024年7月21日 23:34

经常看见有一些视频生成的模型出来，类型还不太一样，简单学习和调研下这个领域和相关技术的情况。在我所看到的有限的范围里，可以把近期出现的视频生成能力分成两类：

一类是专门精细化控制人物表情动作的模型，驱动一张人像照片动起来。这类模型存在已久，老技术也能实现，近期不断有新模型出现，效果也越来越好，业界好像没针对这一类命个名，姑且叫它人像视频。
另一类是通用的视频生成基础模型，包括基于扩散模型的，以及 sora 出现后的 DiT 架构模型。另外跟 Stable Diffusion 图片生成的生态类似，也会有一些为视频生成基础模型配套的可控编辑扩展模型。

人像视频

先来看看人像视频，常见有两类：

表情控制：输入人物表情视频，让图片的人脸跟着做同样的表情。变种是输入音频，让图片人脸跟着音频的口型动，talking photo。
姿态控制：输入人物动作的视频，让图片的人跟着视频的动作动。火过的 case 是通义千问的全民舞王科目三。


表情控制(Vimi)	姿态控制(Animate Anyone)

这里的技术都不是这波大模型后才有的，上个时代已经有很多做得不错，上一波爆火的蚂蚁呀嘿已经是 2021 年的事了，相关论文也是 2019 年就有了：《First Order Motion Model for Image Animation》。后面不断有新的方案，包括基于和不基于扩散模型的方案。下面列几个近期出现，看起来还行的方案。

表情控制

基于扩散模型

基于扩散模型的方案，大体思路看起来是在原网络插入 pose/人脸点位控制，跟 ControlNet 原理差不多，扩散模型本身除了 SD Unet 那套外，基本都会加入视频生成常见的 spatial-attention 和 temporal-attention。

AniPortrait(华为)：24年3月发布。支持从语音生成对应每一帧的口型和人脸位置图，再基于 SD1.5 扩散模型 + motion module 从参考图生成视频结果。开源可用。
megActor(旷世科技)：24年5月发布。没有把视频解析成中间关键点去驱动图片，而是原视频画面直接驱动，以预期得到更生动的效果，2个UNet网络，推理成本看起来会高一些，效果稳定性一般。只支持视频面部特征，不支持音频对口型，开源可用。
EchoMimic(蚂蚁)：24年7月发布。同时使用音频和面部特征进行训练，可单独用音频生成，也可以结合输入视频的面部特征生成，结果更自然，开源可用，comfyUI module可用。

还有几个不开源的：微软的VASA-1，阿里的EMO，都是语音对口型，朝着数字人方向做的。

非扩散模型

非扩散模型的方案，看起来基本也是先把人脸节点生成完，再用其他的网络结构去应用到图上生成视频。

LivePortrait(快手)：24年7月刚出的模型，模型很小，主干网络是 ConvNeXt-V2-Tiny，28M参数量，各部分加起来就500M，号称速度很快，单帧推理时间在 RTX 4090 GPU 是 12.8ms，都能稳定实时输出 60 帧视频了，很适合端上部署，这也是非扩散模型的优势，还有个特点是能快速精确控制眼睛和嘴巴的开闭程度，动画稳定。comfyUI module 也有了。

VividTalk(阿里)：跟 AniPortrait 有点像，同样是训练音频→表情嘴型关键点，音频→头部运动关键点，再经与图片一起进入另一个网络生成最终视频，只是这网络不是基于扩散模型。未开源，真实效果未知。

姿态控制

AnimateAnyone(阿里)，23年底发布。效果比较稳定，官方没开源，但摩尔线程基于论文做了开源实现 Moore-AnimateAnyone ，后续腾讯 MusePose 基于这个开源实现继续优化和封装，comfyUI可用。

magic-animate(字节)，23年底发布。Pose 序列不是 OpenPose 人体骨骼，而是丰富的整个人的动作 densePose，视频转 densePose 还比较麻烦，densePose 序列用 ControlNet 的方式去做生成的控制，另外有一个网络去编码人物形象做IP保持。试用下来，参考图跟 pose 的形象姿态差异大的场景也能支持，比如让蒙娜丽莎跳舞，但这种场景下效果不太好，人脸基本不保持，只保持了人物衣着的IP形象。已开源。

还有其他很多，MimicMotion，MuseV，Follow Your Pose，DreaMoving 等，大同小异。

视频生成

视频生成模型业界除了最出名的 runway、pika、sora，也陆续有不少开源的方案出来，当前已有的开源方案基本都是基于 Latent Diffusion Model，核心是 UNet 降噪网络，基于这种网络还有不少做视频可控编辑扩展模型，DiT 架构还在路上。

基础模型

I2VGen-XL(阿里)，23年11月发布。比较常规，基于 3D-UNet 扩散模型生成，分成基础生成和高清细化两个阶段，细化阶段不是单纯提高分辨率，会改善时间连续性、引入文本输入控制内容。开源可用。
SVD(Stable Video Diffusion)，23年12月发布。模型结构复用 Video LDM，主要是在 U-Net 和 VAE 解码器中分别加入时序层（temporal attention layer），SVD 论文本身在讲模型怎么训练的，包括高质量视频的微调。
PixelDance(字节)，23年11月发布。特点是首尾帧机制，首帧图作为强引导，与噪点图拼接一起作为输入，严格遵守首帧图，同时尾帧图作为弱引导，训练中会随机抛弃尾帧，推理降噪过程中在步数大于τ值时也会抛弃尾帧，避免完全对齐，让生成的结果有多样性。在 DiT 架构的模型出现之前，效果基本是最好的，生成的视频运动幅度大，稳定性不错。未开源。
ConsistI2V(零一万物) ，24年2月发布。跟 PixelDance 有点像，也是首帧与噪点图拼接一起作为输入（类似 SD 的垫图），同时会把首帧也作为降噪过程条件作用在 spatial-attention 和 temporal-attention 上，较大地强调首帧图片的重要性，这样生成的视频不容易崩，一致性比较好。已开源，可在线试用。

可控编辑

视频生成的可控编辑是指通过各种方式控制视频生成方向，例如运动方向、内容替换、风格迁移等，原理上跟图片生成的 ControlNet / IPAdatper 等机制差不多，基于上述视频生成基础模型，训练扩展模型插入原网络，控制生成方向。

图生视频控制

大部分视频生成是图生视频，在图片上圈选运动范围和运动轨迹是很自然的诉求，一代目 Runway 上的 Motion Brush 就是做这个，基本应该应该是后续正经视频生成模型的标配，也有开源模型基于 SVD 等基模做了这个能力。

mofa-video(腾讯)，24年7月发布，基于 SVD。可以训练多种 adapter，控制图片生成，包括手势控制、人脸关键点控制、姿势关键点等，每种控制 adapter 独立训练，可以独立使用或组合使用，比较灵活通用。开源可用。

视频内容编辑/风格化

这一类指 Video to Video，修改原视频上的元素，替换衣服、人物等，部分也包含了视频风格迁移能力。

ReVideo(腾讯)，24年7月发布，基于SVD。通过修改第一帧和绘制轨迹线，对视频中特定区域内容和运动进行定制化编辑。使用分阶段训练的策略，简单理解为，A阶段重点训练运动轨迹，B阶段重点训练内容替换，再进行结合。开源可用。
I2VEdit(商汤)，基于SVD，利用成熟的图像工具编辑第一帧，再将第一帧的修改应用到整个视频，实现局部替换和风格化。
AnyV2V(华为)：比较通用的视频编辑框架，可以灵活用于多个视频生成模型，包括I2VGen-XL、ConsistI2V、SEINE，同样是先通过各种方式改造编辑视频首帧，再插入视频生成模型，将风格和替换内容扩展到整个视频，实现视频编辑能力。通用于多个模型的原理，简单理解是提取了空间注意力/时间注意力特征注入了原生成模型的 spatical-attention/temporal-attention 模块，理论上差不多架构的模型都能通用。可试用。
animatediff：animatediff 比较特殊，不是基于 SVD，而是基于图生成 Stable Diffusion，在上面训练加上运动模块 Motion Module，学习了视频片段的运动知识，支持视频生成。很早发布，在 SD 生态配合 IPAdapter / ControlNet 等各种扩展和 LoRA 模型一起使用，组合出很多有趣的应用，看到的大部分视频风格转动漫风基本是基于这个方案。

DiT

DiT(Diffusion Transformer) 是视频生成基础模型的一个算法架构，应该放在基础模型部分的，但它太新了，想单独抽出来细看一下。

上面大部分模型，包括可控性的扩展模型，核心底层都是基于经典的 UNet 架构，但 Sora 出来后，业界公认 DiT 架构才是未来，毕竟效果太碾压了，最近可灵 / Luma 的出现也印证了这点。架构范式转移到 DiT 后，原先在 UNet 上做的各种可控雕花，看起来基本上是没法迁移到 DiT 架构的，一切得重来。

DiT 架构开源的只见到去年11月 sora 出来之前的 Latte，研究性比较多，效果一般。其他靠谱的开源模型还没见到，毕竟 Sora 还没见影，可灵和 luma 也刚出。（DiT架构的图片生成就有一些，比如腾讯混元）

DiT的架构图，与 LLM 的架构同源，核心是 transformer 模块，跟基于 UNet 的模型都不一样，我们尝试来看看在这个架构下视频生成的推理过程：

初始化一个噪声视频。
视频会先转换成潜空间的表示，后续的运算都在潜空间里运算，这点跟 Stable Diffusion 一类的扩展模型一致，视频应该是使用 VQ-VAE 进行编码到潜空间。
视频的表示会被分割成一个个 patch 块，每个 patch 块是一个 token，patch == token。
这些代表整个视频的 patch 块集合，一起进入 DiT Block。这个 DiT Block 就是个类 transformer 模块，与 LLM 一样核心也是多头注意力，在这里会计算每个 token 之间的注意力，加上引导词和步数条件，做相应计算。
按 LLM 模型的套路，这里 N 个 DiT Block 跑完，整个流程跑完，输出会是预测的下一个 token。但我理解这里的输出并不是下一个 token（一个 token 只是一个 patch），而是这里的 patch 合集经过这些 DiT Block 的注意力运算和条件引导，变换成离最终视频更近的一个表示，也就是对这里的噪声视频做了一次降噪。
如果是20次降噪，重复20次这个过程，一个纯噪声视频生成最终清晰的视频。
如果要垫图，首帧图尾帧图，只需要让图片跟输入的纯噪声视频做一些结合就可以。

可以看到跟其他的 UNet 为核心的架构有本质差别，像 ControlNet 各种可控性的研究没法迁移，需要另外找控制路径。从业界在这领域卷的程度看，预期发展还是会非常快，等下一个 DiT 架构的靠谱视频生成模型开源，也应该很快会有人在上面把相关可控能力不断研究补齐了。

感想

这个领域给我感受是模型超多，看不完跟不上，只能先了解个大概，在有具体应用场景时，再根据需求做相应深入的调研。

为什么这么多模型？看起来它训练的资源门槛没那么高（比 LLM 低），有公开训练数据集（WebVid 和 LAION），论文上都会把方法给出，width=甚至模型和代码也开源，各研究者很容易从中吸收学习做改进，再造一个模型，现在也没出现一个效果通用秒杀一切的模型，所以三天两头出个新模型是常态。

DiT 架构后，视频生成和视频编辑这些模型大概率要淘汰，而人像视频可能在较长一段时间内仍有应用空间，如果要做 AI 视频短片，人物表情动作精细控制挺重要，DiT 架构目前还没看到有能做到精细控制的技术，基于 Unet 的通用视频生成模型这么长时间也没法做好这块的可控性，可能一段时间内还得靠原有技术做这里的可控后编辑。