普通视图

发现新文章,点击刷新页面。
昨天以前首页

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”


近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计:复杂性可控的逻辑谜题

研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。

  • 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。
  • 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。
  • 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。

模型推理能力的“崩溃”与“偷懒”

  1. 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。
  2. 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级 模型类型 表现趋势 备注
普通大语言模型 准确率较好 推理模型表现一般
推理模型(含链式思考) 准确率提升 链式思考开始有效
所有模型 准确率急剧下降至0 模型推理“崩溃”并“放弃”

专家观点与行业影响

  • Gary Marcus:该研究“毁灭性”,打破了大语言模型快速通向通用人工智能的幻想。
  • Andrew Rogoyski:当前推理模型已遇瓶颈,现有方法或进入“死胡同”。

苹果的AI发展战略解读

  • 此次研究发布正值 WWDC 2025 前夕,体现苹果强调“设备端效率”和“实际应用价值”,反对盲目追求模型规模和复杂度。
  • 苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术,但表现平平,此次研究进一步证明稳扎稳打才是长远之计。

未来方向与思考

  • 建立无数据泄露风险的逻辑谜题评测基准,避免传统 benchmark 偏差。评估基准的重塑:苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI,以避免传统 benchmark 的偏差。
  • 引入符号逻辑和神经符号混合技术,突破纯统计学习的限制。融合思维范式:当前 LLM 的“链式思考”是统计学习,并不是真正的推理。未来可能引入 符号逻辑、神经符号混合 等技术路径。
  • 结合专用推理子系统,提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络:苹果研究者曾指出,搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。

总结

  • 链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
  • 未来AI发展需要超越纯数据驱动的模式匹配,向可解释、可操作的逻辑机制进化。
  • 苹果此次研究为业界敲响警钟,也明确了其在AI道路上的稳健路线。

相关引用示例代码(伪代码展示算法示意)

以下是汉诺依塔(Hanoi)的递归算法:

function solveTowerOfHanoi(n, from, to, via) {
  if (n == 0) return;
  solveTowerOfHanoi(n-1, from, via, to);
  moveDisk(from, to);
  solveTowerOfHanoi(n-1, via, to, from);
}

评论

缺乏物理世界的规律认知。

Meta的那个scientist一直说现在的LLM不能理解物理世界,所欲AGI肯定不是llm。

其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。

when it scales.. 会出现 智能”涌现”的现像,就是一个黑箱。

脑科学,涌现。其实想想人脑真挺厉害的,而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作,例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练,也许正确的道路是战锤里面的湿件,血肉苦弱,机械飞升。

lecun说的没问题 目前的llm就还是统计模型 物理世界数据太少了所以无法理解。

也有人质疑这个论文,说不是推理不出来,是token限制。数据太少了无法大量训练。它论文里有一块,说模型在不同puzzle中的表现不一致,可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据,只是单纯的假设了一下。我感觉有点不严谨。

脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。

人脑带宽就10bit,但这是真推理,人脑做决策,计算量很小,但是每秒能处理很多大量的工作。我的脑子这么屌,为什么一个月才值 3000。

但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明,训练需要几百万年,做推理的时候计算量很小,利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。

人类有集体潜意识 是训练几百万年 通过遗传留下来的weight。

脉冲很稀疏,虽然也还只是特别粗糙的模拟,但是也有一些应用价值。

计算机就是靠易经发明的 所以得回到道教里面去找灵感怎么搞AI。

参考文献

新闻/实事/经济

人工智能 / Artificial Intelligence

本文一共 1899 个汉字, 你数一下对不对.
苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” 人工智能 (AI) 新闻 科技 资讯
The post 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  3. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  4. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
  5. 老婆的配偶签证被拒 郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供 有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....
  6. 公司给配了台高配DELL笔记本 早上例会结束的时候我顺便说了一句 我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...
  7. 花钱让人换汽车钥匙的电池真是个智商税 今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
  8. Microbit 编程: 简易人工智能让电脑玩游戏 上一周, 我们在 Microbit 上编写了第一个游戏: 吃苹果. 我两儿子很喜欢玩, 他们互相比着最高分, 大概极限是35分. 吃苹果的游戏代码和Microbit模拟器: https://makecode.microbit.org/_DV93uT7i0WuK 可能有极限吗? 即使我们做出足够迅速的反应并且没有犯错, 会出现怎么样也无法抓住苹果的情况吗? 人工智能简介-让计算机玩游戏 AI被称为人工智能,...

换个机吧

作者 离心
2021年11月17日 00:25

iPhone XR 用了三年,7 代 i5 的台式机陪了我四年有余,在换了三个女朋友的几年间这二位始终对我不离不弃,纵使此般情谊仍然没能抵挡我更换设备的决心。没办法,真滴卡。

本来去年该换 12 的,但是没有高刷实在下不去手,只能买了个三星 S21 当备胎机感受 120Hz 的快感。但备胎机如其名,只有少数场景能用到,一周临幸一次已经算是皇恩浩荡,主力机的体验才是最重要的。今年发布 13 Pro 后,一方面欣喜于高刷,一方面又忌惮于 200 克的重量,于是没有在第一时间预约,官网要等懒得下单,一下子两个月过去了,官网还是没现货,尤其是银色。最终还是在好兄弟拼多多百亿补贴的帮助下搞到了手,还便宜了几百块,真香。

电脑也纠结了很久了,最近显卡终于有所回调,虽然还是溢价不少,但目测短期内也就这样了,甚至随着币圈的回暖还有小幅上涨,于是果断列配置去华强北配了一套 5900X+3080,对于我这种没有 Kill Open Windows 习惯的多线程用户来说,三年不卡问题不大,3080 偶尔 3A,也算完美。

换机就像换女朋友,要把在前任那里存储的数据导入到现任脑中,还要多花点时间检测能否兼容。这是个适应的过程,是告别和迎接仪式、悲伤和喜悦情绪之后的常态化经营。

还有几件事情,EDG 夺冠、LOL 手游、双城之战动画,虽然都是同一个游戏的事情,但都属于有生之年系列,值得记录。

The post 换个机吧 first appeared on 离心时间.

整点报时

作者 dimlau
2024年8月12日 10:22

不记得为什么把Apple Watch丢在床头有一阵子没戴了,所以当它轻轻震动,我抬起手腕却没看到有新消息的时候,大脑用了好几秒才反应过来是怎么回事,然后一瞬间仿佛穿越了时间,回到小时候——某个下午,和煦的阳光穿过玻璃打到窗台边兰花的半边叶子上,像有重量似的,压得一根兰花叶子上下摆动;我盯着那叶子出神,渐渐才听到钟表滴答走时的声响;转头望室内看,靠墙的条案上摆着座钟,条案旁是歪着头靠在沙发上打盹的外公;我侧耳听他的呼吸,平稳而轻柔;突然座钟深处一阵齿轮的咔哒咔哒声打破了安静,接着是咚的一声,我看向表盘……下午一点半,手表沿袭了座钟的整点和半点报时功能,但可能永远也无法像座钟那样,在那一瞬间把周遭人全都连在一起。

fin.

iPad更换外屏

作者 三棵树人
2024年5月4日 16:57

手上有个老款iPad,应该是17款的5代,大部分时间都是办公使用的。当初刚到手就把屏幕右上角给碰了一下,因为是金属边款,所以iPad本身没事,但屏幕就此裂了三条纹路,虽说屏幕是裂了,但是用手指划过裂纹,是没有丝毫刮手感的,而且也并不影响触屏的使用,因此就没想着更换。

有一说一,iPad质量是真好,我把定位、通知、后台刷新全部关闭,几年用下来电池依旧战斗力不减。只是这触屏最近不知怎么回事,开始不听使唤,甚至自己胡乱点击不受控制,这时候就只有立即锁屏,压一压屏幕再解锁,触屏才能恢复正常。难道是随着时间的流逝,潮湿的空气穿过外屏进入了内部的触屏部分,引起了“短路”?

要说节约一点,每次遇到触屏失控的时候立即锁屏,压一压屏幕再解锁,也是能用的。但是免不了人多的时候,屏幕突然开始自己胡乱点击,怎一个尴尬了得。再加上屏幕右上角被碰的地方开始掉细碎的玻璃渣了,手指划过也变得不再安全,因此换屏事宜也就提上了日程。

刚开始去了一家门店,这家店只卖产品不提供维修,好在店员可以联系上家,问了下有配件,便径直去了上家的店。到店后维修小哥接过iPad把玩一番,然后打电话让人送外屏过来,同时开始关机然后用吹风机对着屏幕边缘加热,再用拨片剥离屏幕。一个小时不到,iPad重焕青春。

外屏花费大洋480块,还能接受。


除非注明,三棵树阁文章均为原创,转载请以链接形式标明本文地址
本文链接:http://www.sksren.com/archives/1825.html

一堆可拍照的古董设备的成像效果「多图」

作者 石樱灯笼
2024年3月25日 15:38

很早之前就想做了,然后一直拖……一直拖……想起有这么个事,但天气不好……一直拖……一直拖……一直一直拖……

终于在了一个晴天多云的日子,找了个看起来还不错挺干净的景,背着一大包的设备,在同一时间段同一角度拍照片。


设备列表

根据设备购买年份排序

  • Canon PowerShot A3300 IS
  • Nokia C2-00
  • Nintendo 3DS
  • Sony Ericsson Xperia mini pro, SK17i
  • 红米2
  • VIVO Y51A
  • Sony Xperia XZ1
  • iPhone 8

都是古董。

本来手里能拍照的设备还有一个小米平板1和iPad4,但是反复检查了好几遍这俩机器,还检查了定期备份,都没发现当日的照片。可能是忘记拍摄了?

红米1虽然也能拍照,但是早就自杀无法开机了。

拍照效果

因为是无限远景,所以均未使用手动对焦。而且非触屏设备也没有手动对焦的功能。

所有图片均为原图,保留了EXIF信息但删除了所有GPS相关的meta。文件使用 Leanify 的 mozjpeg 进行无损压缩。

想要查看具体的EXIF信息,可以另存图片到本地,然后用EXIF工具查看。

图片是走 Cloudflare CDN 的,因为都是原图所以文件比较大,国内打开很慢很正常。

Canon PowerShot A3300 IS

1600万像素(4608 × 3456)。CCD。未使用光学变焦。

image_IMG_6646_a3300

image_IMG_6647_a3300

image_IMG_6648_a3300

image_IMG_6649_a3300

Nokia C2-00

30万像素(640 × 480)。

2007怀旧画质。

image_0002_c2-00

image_0003_c2-00

Nintendo 3DS

30万像素(640 × 480)。未使用3D效果。

2007怀旧画质 x2。老任个抠逼用这么低端的硬件也是传统艺能了。

image_HNI_0026_3ds

image_HNI_0027_3ds

Sony Ericsson Xperia mini pro, SK17i

500万像素(2592 × 1944)。使用 Free Xperia Project, CyanogenMod-7.2.0-mango 系统的相机应用。

不对比都发现不了,这手机拍照发黄?赶紧翻了下2013年时拍的照片,发现还真的偏黄,只是不严重,单拿出来发现不了。

image_IMG_19800107_225749_sk17i

image_IMG_19800107_225753_sk17i

红米2

800万像素(3264 × 2448)。使用 LineageOS 15.1-20200223-NIGHTLY-wt88047 系统的相机应用。

拍第一张的时候自动光圈抽风,非常暗。

拍第二张的时候,这镜头前飞过来的这是个啥虫子???

反正这画质是够烂了,当年那么多人吹小米拍照(现在也很多人吹),也不知道有多少是水军。

image_IMG_20230825_154135_hongmi2

image_IMG_20230825_154143_hongmi2

VIVO Y51A

800万像素(3264 × 2448)。使用系统自带拍照应用。

如果说 SK17i 是发黄,那 Y51A 就是发蓝。

image_IMG_20230825_154134_y51a

Sony Xperia XZ1

1700万像素(5504 × 3096)。使用系统自带拍照应用。自动模式,未开启 HDR。

像素比相机A3300还高,清晰度明显更占优势。但在手机镜头的硬件功能上差很多,相机永远是相机。

image_DSC_7854_xz1

image_DSC_7855_xz1

iPhone 8

1200万像素(4032 × 3024)。使用系统自带拍照应用。自动模式,开启 HDR。使用JPG作为保存格式。(垃圾HEIF)

破玩意卖得贼拉贵,像素低,颜色微微发蓝(当然可能是太阳光照角度的问题。天气嘛,变幻莫测)。

image_IMG_0085_iphone8

image_IMG_0086_iphone8

image_IMG_0087_iphone8


对比

以佳能A3300为基准做对比。

使用 BCompare 进行对比。对像素较少的图片进行缩放,以高度未基准(这意味着XZ1这个有更高分辨率但图像高度低,要被放大后才能追上A3310)。

几个不是一个级别的硬件就不跟 A3300 比了,其实也就 3DS 和 C2-00 单拿出来比一下就好。

3DS VS C2-00

screenshot_on_b85m_by_flameshot_at_2024-03-25_00-31-40

XZ1 VS A3300

screenshot_on_b85m_by_flameshot_at_2024-03-25_00-44-46

红米2 VS A3300

screenshot_on_b85m_by_flameshot_at_2024-03-25_00-38-38

Y51A VS A3300

screenshot_on_b85m_by_flameshot_at_2024-03-25_00-40-29

SK17i VS A3300

screenshot_on_b85m_by_flameshot_at_2024-03-25_00-41-35

iPhone8 VS A3300

screenshot_on_b85m_by_flameshot_at_2024-03-25_01-09-43


总结

都是古董。

以 A3300 的战斗力仍然能坚挺。2011年的千元卡片机直到2017年才被高端手机追平(还得是无光学变焦的前提下)。

只不过现在有 HDR 这种东西存在,解决了高对比度高点光源的问题,拍照难度下降一大截,而且现在手机都是多镜头(个人认为屁用没有,我甚至怀疑各个APP是否有真的调用过多镜头)。

而且索尼的运营策略也太过奇葩,就如同applemiku说的:索尼的产品总是把本应能做的功能,硬是留到下一代产品当卖点,恶心人,明显拥有两个版本周期的巨大优势,硬是要拖到下一个版本,然后发布出来时仍是半成品,然后半个版本周期内友商就做出来完成品,两个版本周期的巨大优势 被硬搞成 半个周期的一般特性,手机照相APP的HDR功能就是,默认不开启,必须进入手动模式才开启,然后内核不支持RAW进而导致第三方应用无法支持硬件HDR,作为一个卖点是照相的拍照手机来讲,这一块做得实在太拉胯了。更别说索尼还搞了个基于相机+六轴感应实现的3D建模扫描,做到一半服务器也崩了,谷歌Drive接口也崩了,崩得一塌糊涂,结果三星下一个版本就做出来了更好的应用,并作为核心卖点进行宣传,行业内甚至都没人想得起这玩意其实是索尼先开始做的。

反正现在我拍照也不拍场照了,漫展什么的自从荷花遍地之后就不感兴趣了,跑展甚至看不到什么原创商品,以前认识的作者基本上全都退圈了(不然呢,快40多岁还跑展摆摊,那身体得多棒才跑得动)。

现在拍照基本上就是拍拍景。点光源特别亮的那种景,即使是现在有 HDR 的手机也没见谁拍出来(猜测是人的拍照技术问题)。拍人的话顶多就是给家里老人拍照片,人家要求必须要用短视频APP开美颜拍照然后自动配乐……就当哄老人乐子了,什么构图什么清晰度都不需要。

再说现在遍地魔怔人。前几天我说我有台 Xperia ,结果某个群里就嘲讽上「这么破旧的手机你也用」,我也没说我用的是啥型号,Xperia 1 V 是2023年5月发布的,还不满一年。这就有人跳起来嘲讽,这互联网上疯子是真多了。

当然我是想买新手机新相机的,但是没钱。

The post 一堆可拍照的古董设备的成像效果「多图」 first appeared on 石樱灯笼博客.
❌
❌