阅读视图

发现新文章,点击刷新页面。

产品设计和系统设计面试的区别(Product Design vs System Design)


meta 产品设计和系统设计面试的区别(Product Design vs System Design) Facebook 程序员 系统设计 计算机 面试

Meta / Facebook

在 Facebook/Meta 的软件工程师(包括站点可靠性工程师SRE企业工程师EE)的面试中,产品设计/Product Design和系统设计/System Design起着比较相当重要的作用。

一般来说,编程面试(Coding Interviews)和行为规范面试(Behavior,考查是否和公司的文化价值观一致)是最基本的要求,而设计能力(系统设计或者产品设计)才是决定给你Offer的级别。

产品设计面试:Product Design Interview

  • 目标:评估您创建以用户为中心的产品的能力,这些产品可以有效解决实际问题。
  • 重点:您如何考虑用户需求、确定功能的优先级以及制定符合业务目标的解决方案。

典型问题

  • “您将如何设计一个允许用户管理其隐私设置的功能?”
  • “为 Facebook 上的新用户设计入门体验。”

评估的技能

  • 了解用户角色和痛点。
  • 打造直观且可扩展的用户体验。
  • 平衡用户需求与业务目标。
  • 分析不同产品特性之间的权衡。

关键方法:CIRCLES 等框架(考虑用户、想象场景、需求、削减和确定优先级、列出解决方案、评估权衡、总结)。

系统设计面试:System Design Interview

  • 目标:评估您构建可扩展、可靠且性能卓越的复杂的分布式系统的能力。
  • 重点:如何设计技术后端和基础设施以支持高流量和强大的应用程序性能。

典型问题

  • “设计一个像 Facebook 一样可扩展的新闻推送系统。”
  • “您将如何设计 URL 缩短服务?”

评估的技能

  • 了解分布式系统和架构原则。
  • 能够选择适当的技术(数据库、负载平衡器、缓存)。
  • 了解可扩展性、容错性、数据一致性和延迟。
  • 不同架构之间的权衡选择。

关键方法:使用 RESIST(需求、估计、存储、接口、可扩展性和权衡)等框架,并专注于应对技术挑战

总结:TLDR

  • 产品设计侧重于用户体验和产品功能。
  • 系统设计侧重于后端基础设施和技术可扩展性。
  • 两者的准备都需要模拟场景练习,但重点不同(用户需求与技术架构)。

Meta 猎头:

本次面试将重点关注系统设计和架构——考虑分布式系统和 API——非常注重构建/实现结构/产品。问题的一个示例:您将如何构建一个处理数百万同时连接用户的聊天系统?请务必非常透彻地解释,我们通常在白板上寻找一个方框和箭头图。

我还附上了几份白皮书供您阅读,它们展示了我们设计系统/产品的方法,希望可以让您了解我们在寻找什么(Haystack 是一个具有产品设计元素的完整系统的示例,即 API 和 CDN,其余的是更多的系统设计专注)。

英文:Difference Between Product Design Interview and System Design Interview

面试经历

面试题

面试技巧

面试其它

本文一共 819 个汉字, 你数一下对不对.
产品设计和系统设计面试的区别(Product Design vs System Design). (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 产品设计和系统设计面试的区别(Product Design vs System Design) Facebook 程序员 系统设计 计算机 面试
The post 产品设计和系统设计面试的区别(Product Design vs System Design) first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. C/C++ 中的内存管理器(堆与栈) 最近面试的时候遇到这个问题。这个问题考你计算机的基本功。 在 C/C++ 中,内存管理是控制程序如何分配和管理其资源的关键方面。C/C++ 程序中的内存通常分为不同的区域:堆栈和堆是最主要的动态和自动内存分配区域。 ACM题解系列之 – 最小堆栈 (Min Stack) 堆栈内存 定义:堆栈内存用于静态(自动)内存分配。它是存储函数参数、本地变量和返回地址的地方。当调用一个函数时,一个新的内存块(称为堆栈帧)会被添加到堆栈的顶部。当函数返回时,该内存会被自动释放。 分配:内存由系统自动管理——在变量超出作用域时自动分配和释放。无需人工干预。 生命周期:受限于函数或代码块的作用域。一旦函数退出,内存将被释放。 大小限制:堆栈的大小通常较小并由系统预定义,意味着大的分配可能导致堆栈溢出。...
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 软件工程师可以通过ChatGPT来帮助审核代码(提高代码质量) 软件工程师(aka 码农)可以让ChatGPT来帮助审核代码。我发现在工作中挺好用的,把同事的PR(Pull Request)代码贴给ChatGPT,那么它会帮你看看代码中是否有问题,是不是有一些BUG,甚至会给你一些建议,效果很不错。很多时候我发现ChatGPT比我更专业,很能给出中肯的建议(我甚至想不到的方面,也帮助我拓展了思路) 不过,我不建议完全依赖于ChatGPT,至少在拿到ChatGPT的审核结果后你需要自己再看一眼,看看是不是有道理。切忌直接Copy/Paste。 你也可以试一试其它AI工具,像Google的Gemini(以前叫Bard),还有Claude AI等(现在各类AI通用人工智能真是百花其放)。 英文:ChatGPT Use Case for Software Engineer: Review Pull Requests...
  5. 我用诺顿杀毒软件, 你呢? 我这几年一直用的是诺顿杀毒软件(Norton Security),而且是正版的。这些年软件都是按订阅制了/Subscription,所以能用上基本上是正版的。 但是我没花一分钱,因为这个是我家网络公司PlusNet免费提供的。PlusNet是一家谢菲尔得的公司,在谢村中心西街/West Street上,当年我路过透过玻璃窗户还看到他们家的员工在打乒乓球。 今年又续了2年的宽带,他们家的网络不错,在英国的朋友可以用我的推广链接加入(并且填写我的用户名 doctorlai),有折扣。 免费的就是香,要是自己花钱,那可能就会觉得贵了,虽然每个月也就大概6英镑(年付是73.99英镑)。这个宽带套餐包的这个诺顿可以在7台机器上安装。我给家里其它电脑都装上了,还有剩余。如果你也想蹭一下,请我喝杯咖啡即可,先到先得。 PlusNet宽带还有其它一些功能,比如每月可花5英镑买一个静态IP/Static,这样方便在家里架服务器,不过一般来说静态IP地址并不是最难搞的,家里的网络上行一般只有下载的一半,而且家里的网络也不够稳定,再加上没有机房稳定的供电和散热,一般家里架服务器就是玩玩而已。 这年头只要不乱下载软件,一般不会搞到电脑病毒/木马,其实最重要的防护是防止监听/木马等,上次下载了一个迅雷下载就被诺顿报安全风险,我立马给禁了删掉了,浏览器插件也有风险,上次币圈有一个插件就偷偷的记录你的浏览器登陆Cookie然后就把币给盗走了,所以在浏览器里登陆交易所,切记用安全模式(隐身模式),因为在隐身模式下所有插件是会被禁用的,比较安全。 常在河边走,总会湿了鞋子,所以还是做好防护,这可不是心理安慰,安全就如防火,平时不出事的时候看着没事,但一旦出了事,就追悔莫及。 本文一共 600 个汉字, 你数一下对不对. 我用诺顿杀毒软件,...
  6. 记录那些值得回忆的精彩瞬间 媳妇 @happyukgo 其实挺反感我给她拍照片的, 但主要原因是 我经常把她拍得很丑, 而我除了会用美图秀秀简单的滤镜之外就不会一丁点儿的PS技术. 我家孩子 Eric 很爱臭美, 每次看着我拿相机, 总会让我 “Take a picture”, 然后各种摆姿势做鬼脸,...
  7. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
  8. 贪心算法玩比特币玩的就是心跳 行情不错, 比特币最近一个月大涨, 很大一部分原因是因为FACEBOOK说要开发稳定的虚拟货币LIBRA, 使很多投资者对加密货币这一块又重新有了信心. 更多的人了解到了比特币想趁着一币一嫩模前赶紧上车. 玩比特币的大多是有信仰的(不到10万美金不卖的), 当然也不乏有见好就收的投资者, 又或是像我这种并没有花真金白银投资的人. 我的比特币都是玩STEEM区块链脑力挖矿还有见证人出块的收入: 给开源做贡献, 乌托邦Utopian开源审稿报酬, 各种空投币, 还有就是见证人出块​. ​ 由于我的比特币来的相对没有成本(时间+见证人服务器),...

Meta/Facebook的 Threads 社交产品上好多美女


我很久之前就注册了Threads,不过一直没登陆上去看看,注册也很简单,有Instagram帐号就可以登陆。

Meta(以前叫Facebook)是社交之王,整个公司有社交的DNA,而不像谷歌/Google前几年搞了个Goolge+后来就给关了。Meta的三款社交产品的发布时间如下:

  • Facebook:2004年2月推出,是 Meta 公司的第一个社交媒体产品,旨在帮助用户建立和维系人际关系,最初定位为大学生社交平台,之后逐渐向全球公众开放。
  • Instagram:2010年10月推出,最初是一款独立的图片分享应用,2012年被 Facebook 收购。Instagram 逐渐增加了 Stories 和 Reels 等功能,以满足用户对短暂内容和短视频的需求。
  • Threads:2023年7月推出,设计初衷是成为一款以文本为主的实时社交平台,旨在提供轻量级的文字分享和讨论体验。

Threads 是不是 推特X/Twitter 的竞品?

是的,Threads 可以被视为 Twitter 的直接竞品。两者都以短文本分享和实时互动为核心,用户可以快速发布动态、回复他人的帖子、点赞和转发。Threads 的发布上线被认为是 Meta 对 Twitter 市场份额的一种争夺,尤其是在 Twitter 面临技术和商业变动的背景下。

尽管两者功能类似,但 Threads 基于 Meta 的生态系统,允许用户用 Instagram 账号登录,这为其带来了现有 Instagram 用户的流量。此外,Threads 的视觉设计和功能体验更贴近 Instagram 用户习惯,而 Twitter 则更加独立并提供更多高级的文本互动功能。

Meta的Threads和Instagram, Facebook的区别

Meta 的 Threads 是一款以文字为主的社交平台,主打与好友和感兴趣的人分享实时动态和对话。与 Instagram 和 Facebook 相比,Threads 的定位更加聚焦于简洁的文字交流,类似于 Twitter 的功能。以下是 Threads 与 Instagram 和 Facebook 的一些关键区别:

内容形式:

  • Threads:主要围绕简短文字发布,同时支持图片和视频。帖子上限为 500 个字符,注重即时性、轻量化的互动体验。
  • Instagram:核心是图片和视频分享,用户主要用它来分享生活的视觉瞬间。Stories 和 Reels 增加了临时性和短视频内容。
  • Facebook:内容形式多样,包括文字、图片、视频、活动和群组等,注重社交互动和社区建立。

目标用户:

  • Threads:面向那些喜欢轻量级、实时社交的人,特别是关注话题讨论、热点新闻的用户。
  • Instagram:主要是年轻人,尤其是关注时尚、生活方式、摄影和娱乐的用户。
  • Facebook:定位为一个社交平台的“大家庭”,适合所有年龄段的用户,用于保持联系、分享生活和加入各种兴趣社区。

平台目的:

  • Threads:着重于实时的文本交流和社交,提供给用户表达即时想法和参与讨论的场所。它简化了信息流,用户可以轻松快速地获取和参与感兴趣的内容。
  • Instagram:是视觉驱动的社交平台,旨在让用户以图像为主展示生活和个性,更多关注个人品牌和视觉吸引力。
  • Facebook:作为一个全面的社交平台,主要帮助用户维系人际关系,同时也提供各种实用工具和娱乐内容。

其它:听说Threads主要用的Instagram的infra(慢慢跟IG的infra分开了)。当时把Meta把马斯克layoff twitter的人挖来build的。现在内部新成立了一个threads org 也挺卷的。

总的来说,Threads 主要填补了 Meta 在文字社交领域的空白,更加适合快速分享和讨论,而 Instagram 和 Facebook 则分别聚焦于视觉分享和广泛的社交互动。

这两天登陆上去Threads,大数据真懂我,给我推了好多美女。中年男人喜欢看美女也是刻在DNA里的,没啥不好意思承认的。真养眼。

meta-threads-desktop-home-page Meta/Facebook的 Threads 社交产品上好多美女 Facebook 资讯

Meta的Threads PC端主页面, 这个就是X/Twitter推的竞品, 主要是文字的

meta-threads-mobile-app-scaled Meta/Facebook的 Threads 社交产品上好多美女 Facebook 资讯

Meta的Threads社交产品-手机端上给我推送了好多美女

也许我Instagram上看美女看多了有点审美疲劳了/因为Instagram上上传照片可以自动选滤镜。而目前在Threads上的照片比较清纯,换一换风格也挺好的。

求关注:我的InstagramThreads的用户名都是 doctorlai

在Threads上第一贴!

meta-threads-thread-0-first-post Meta/Facebook的 Threads 社交产品上好多美女 Facebook 资讯

在Meta的Threads上发第一贴!

本文一共 1172 个汉字, 你数一下对不对.
Meta/Facebook的 Threads 社交产品上好多美女. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c Meta/Facebook的 Threads 社交产品上好多美女 Facebook 资讯
The post Meta/Facebook的 Threads 社交产品上好多美女 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 海外童鞋们, 你有多久春节没回家过年了? 再有两天就是2017年春节, 我已经不记得上次春节在家过年是什么时候, 印象中出国后只有一次大概是08或者09年. 先来看个YOUTBE视频吧, 有所触动 (我们的挑战 EP5 – 第二个故事, 33分57秒开始). 昨天, 一同事说今天的飞机回家过年 2周, 我们很是羡慕, 我们还在这里苦逼的改代码,...
  3. 把年假分成几周请完 – 工作不是全部 我的工作合同里写着 一年享有 25年工作日 带薪假期 这是比较好的福利之一. 搬家的时候请了三天 还有就是零零散散请了几天 比如 看GP 等等. 每年假期可以有 5天能移到 下一年使用 所以我就把剩下的请了 但是是每周请一天...
  4. 网站收入和支出报告 – 2015年6月到2016年6月 每年的6月份(下周) 主机VPS就要续了, 这次问VPS提供商是否有更多的折扣, 回信说: I can see the renewal should be £417.89 /year, however with...
  5. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  6. C/C++ 中的内存管理器(堆与栈) 最近面试的时候遇到这个问题。这个问题考你计算机的基本功。 在 C/C++ 中,内存管理是控制程序如何分配和管理其资源的关键方面。C/C++ 程序中的内存通常分为不同的区域:堆栈和堆是最主要的动态和自动内存分配区域。 ACM题解系列之 – 最小堆栈 (Min Stack) 堆栈内存 定义:堆栈内存用于静态(自动)内存分配。它是存储函数参数、本地变量和返回地址的地方。当调用一个函数时,一个新的内存块(称为堆栈帧)会被添加到堆栈的顶部。当函数返回时,该内存会被自动释放。 分配:内存由系统自动管理——在变量超出作用域时自动分配和释放。无需人工干预。 生命周期:受限于函数或代码块的作用域。一旦函数退出,内存将被释放。 大小限制:堆栈的大小通常较小并由系统预定义,意味着大的分配可能导致堆栈溢出。...
  7. 舍得给员工培训的公司是好公司 最近出差比较多, 很多人问我都干嘛去. 各种开会, 各种培训. 公司从剑桥一个软件公司请了一个专业的软件专家来做软件工程上的顾问. 我是 R&D 研发经理, 所以很自然的就要和他经常讨论, 然后目标是把当前公司的软件开发流程给完善, 提高, 把以前做的不对的得整对了. 培训的内容很多, 让我觉得以前公司完全就是在瞎搞, 什么...
  8. 英国房子的EPC节能报告(Energe/Efficiency Performance Certificate) EPC (Energe/Efficiency Performance Certificate) 是英国房子的节能报告, 法律上规定, 每个房子都必须要有一个EPC报告, 报告的有效期为十年. 房东在把房子出租或者想卖房的时候, 这个EPC就必须有效, 在一些情况下 比如出租房子的时候, 这个EPC报告还必须符合一些最低标准, 比如房子必须满足 F档(类似及格线)...

[译] Meta/Facebook 超大规模 AI/GPU 基础设施设计(2024)

本文翻译自 2024 年 Meta/Facebook 的一篇文章: Building Meta’s GenAI Infrastructure

  1. 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络;
  2. LLaMA3 就是在这两个集群上训练出来的
  3. 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100

水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。 传播知识,尊重劳动,年满十八周岁,转载请注明出处

以下是译文。



作为对未来人工智能的重要投资,Meta 打造了两个大规模 AI 集群,每个集群由 2.4w 张 GPU 组成, 本文分享其计算、网络、存储等设计细节。

1 第一代 GPU 集群:1.6w A100 (RSC)

Meta 很早就开始构建 AI 基础设施,但第一次对外分享是在 2022 年,介绍了我们的 Research SuperClusterRSC),它由 1.6w 个 A100 GPU 组成。

RSC 支撑了 Meta 第一代先进 AI 模型的开发,在训练 Llama/llama2、 计算机视觉、NLP、语音识别、图像生成甚至编码等 AI 工作中发挥了重要作用。

2 第二代 GPU 集群:2.4w H100

精确数字是每个集群 24,576 张 H100 GPU。

我们的新一代 AI 集群充分吸收了 RSC 的成功和经验教训,这包括,

  • 新集群致力于构建端到端的 AI 系统,特别强调研究人员和开发人员的用户体验和工作效率
  • 新集群能支持更大、更复杂的模型,为 GenAI 产品开发和 AI 研究的进步铺平了道路。

Meta 每天需要执行数以万亿计的 AI 任务,这就需要一个高度先进和灵活的基础设施。 我们自研了大部分硬件、软件和网络 fabric,使我们能进行端到端优化,确保数据中心的高效运行。

左侧:计算机柜,包括 GPU 服务器机框,置顶交换机,fabric 交换机等等;右侧:存储机柜

2.1 计算:Grand Teton GPU 主机

两个新集群都使用了 Grand Teton, 这是 Meta 开发的开放 GPU 硬件平台,我们已经将其贡献给了开放计算项目(OCP)。

从 2015 年的 Big Sur 平台开始, 我们就一直在开放设计我们的 GPU 硬件平台。

Grand Teton 实物图如下,

Image Source

  • 将 CPU 机头、GPU、交换机同步系统、电源等等集成到一个机框中,以获得更好的整体性能;
  • 提供了快速可扩展性和灵活性,设计简化,可以快速部署到数据中心,并易于维护和扩展。

结合 Open Rack 电源和机架架构 等其他内部创新,我们能为 Meta 当前和未来应用程序快速量身定制新集群。

2.2 网络

两个集群使用了不同的网络方案,但都是 400Gbps 接入。

2.2.1 集群一:400Gbps RoCE + 自研交换机

基于 RoCE 网络,使用的交换机包括

2.2.2 集群二:400Gbps InfiniBand

使用 NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小结

两个方案作对比,使我们能够评估 RoCE/IB 在大规模训练中的适用性和可扩展性, 为设计和构建更大规模的集群提供了宝贵经验。 目前这两个不同组网类型的集群都能够运行大型生成式 AI 任务 (例如在 RoCE 集群上训练 Llama 3), 而没有遇到网络瓶颈。

2.3 存储

存储在 AI 训练中扮演着重要角色,然而相关的讨论确非常少。

最近的发展趋势可以看出,GenAI 任务越来越多模态,需要处理大量图像、视频和文本,因此对高性能存储的需求越来越强烈。 理想的存储方案除了提供良好的性能,还要做到低能耗

2.3.1 数据和 checkpoints 存储:FUSE + Tectonic

我们 AI 集群的数据和 checkpoint 的存储方案:

这个解决方案使得

  • 数千个 GPU 能同步保存和加载 checkpoints(对任何存储解决方案来说都是一个挑战),
  • 同时还提供了 EB 级存储系统所需的灵活性和高吞吐。

2.3.2 交互式调试:Parallel NFS

我们还与 Hammerspace 合作开发了一个并行网络文件系统(NFS), 它使工程师能够使用数千个 GPU 进行交互式调试, 因为代码改动能立即同步到环境中的所有节点。

Tectonic 分布式存储加上 Hammerspace,既能满足快速迭代,又不会限制规模。

2.3.3 大容量 SSD + 定制每个机柜的服务器数量

无论是 Tectonic 还是 Hammerspace 方案,都基于 YV3 Sierra Point server platform, 使用了我们在市场上能够买到的最新高容量 E1.S SSD

除此之外,每个机架塞的服务器数量也进行了定制,以在服务器吞吐量、机架数量和能效之间取得一个平衡。

OCP 服务器就像乐高积木,使我们的存储层能够灵活扩展到未来更大 AI 集群的需求,而且不影响日常基础设施的使用和维护操作。

3 性能

3.1 原则:性能和易用性缺一不可

我们构建大规模 AI 集群的一个原则是,同时最大化性能和易用性,而不是为了一个而牺牲另一个。 这是训练最佳 AI 模型的重要基础。

测试系统设计的扩展性的最佳方法就是先构建出一个系统,然后不断优化它,并进行实际测试(模拟器有帮助,但作用有限)。 通过这个过程,我们比较了小集群和大集群的性能,定位瓶颈在哪里。 下图显示了当大量 GPU 相互通信时(at message sizes where roofline performance is expected)的 AllGather 性能(带宽归一化到 0-100),

small cluster performance (overall communication bandwidth and utilization) reaches 90%+ out of the box, but an unoptimized large cluster performance has very poor utilization, ranging from 10% to 90%. After we optimize the full system (software, network, etc.), we see large cluster performance return to the ideal 90%+ range.

3.2 大集群优化

与优化过的小型集群性能相比,我们的大集群一开始性能是比较差的。 为了解决这个问题,我们做了如下优化:

  1. 改进 job scheduler,使其具备网络拓扑感知能力,这带来的好处:

    1. 延迟降低
    2. 转发到更上层网络(交换机)的流量减少。
  2. 结合 NVIDIA NCCL,优化了网络路由策略,以实现最优的网络利用率。

以上两项优化使大集群的性能已经接近小集群。

除此之外,我们还

  1. 训练框架和模型团队密切合作,不断改进基础设施。例如,

    1. 支持 NVIDIA H100 GPU 的新数据类型 FP8,这对训练性能大有帮助,
    2. 并行技术优化,
    3. 存储优化,
  2. 意识到可调试性(debuggability)是大规模训练的主要挑战之一。 在大规模情况下,定位到哪个 GPU 卡顿导致的整个训练作业变慢是非常困难的。 为此,我们正在构建 desync debug 或分布式 flight recorder 之类的工具,跟踪分布式训练的过程,以更快识别问题。

  3. 继续开发基础 AI 框架 PyTorch,使其能支持数万甚至数十万 GPU 进行训练。 例如,我们已经定位到进程组初始化方面的几个瓶颈,将启动时间从有时的几小时减少到几分钟。

4 对 open AI innovation 的承诺

Meta 保持对 AI 软件和硬件开放创新的承诺,我们始终相信开源硬件和软件是帮助行业解决大规模问题的有用工具。 我们将

  • 继续作为 OCP 的创始成员支持开放硬件创新,例如已经将 Grand Teton 和 Open Rack 等设计贡献给 OCP 社区。
  • 作为 PyTorch 的最大和主要贡献者,继续推动这一 AI 软件框架的开发和普及。
  • 继续致力于 AI 研究社区的开放创新。

    • 我们发起了开放创新 AI 研究社区, 旨在深化我们对如何负责任地开发和共享 AI 技术(尤其是大模型)的理解。
    • 我们还推出了 AI Alliance,这是一个由 AI 行业领先组织组成的小组,专注于在开放社区内加速负责任的 AI 创新。

我们的 AI 工作建立在开放科学和协力合作的哲学之上。

5 未来展望

本文介绍的两个 AI 训练集群是我们未来 AI 路线图的一部分。 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100

当前有效的方法可能不足以满足明天的需求,这也是为什么我们一直在各个方面不断评估和改进我们的基础设施, 包括物理硬件层、虚拟层、软件层以及更上面的业务层等等。 我们的目标是创建灵活可靠的系统,以支持日新月异的新模型和研究。


Written by Human, Not by AI Written by Human, Not by AI

❌