AI时代的万亿基建狂潮

商界评论

走向全球的商业评论杂志

27762人订阅

¥98.00/年

订阅专栏

人工智能的飞速发展正催生一场真正的“工业革命”,其核心驱动力不仅在于算法的突破,更在于支撑这些算法运行的庞大基础设施—“钢铁、服务器与电力”。
Crusoe公司联合创始人Chase Locke Miller在接受红杉资本AI峰会主持人David Conn的访谈中深刻揭示了AI基础设施建设的空前规模与复杂性。未来的AI数据中心,其能源消耗和功率密度将远超传统数据中心,液冷技术将成为标配,整个数据中心将被视为一个统一的计算单元。
从零开始:构建AI工厂的挑战
David Conn:从一块空地开始,建设一座AI工厂,究竟需要经历怎样的过程?
Chase Locke Miller:我认为,首先我们必须退后一步,审视AI工厂和未来的AI数据中心究竟是什么,以及它们与现有数据中心有何不同。要知道,“数据中心”这个词在某种程度上已经被过度使用了。将20年前仅用于支撑网页浏览的数据中心,与如今管理着10万以上GPU集群的高性能AI数据中心相提并论,就好比将卡丁车和路虎揽胜都称为“交通工具”一样。它们确实都是交通工具,但显然不会将它们用于相同的目的。
审视当今的AI数据中心基础设施及其规模化所需的条件,我们会发现这是一个高度工业化的过程,其能源消耗巨大。
通过一个例子来帮助大家理解:北弗吉尼亚州被许多人视为全球数据中心的枢纽,是互联网大部分流量的发生地,已经建设了几十年。据仲量联行2024年底的报告,北弗吉尼亚州数据中心的总容量约为4.5吉瓦。而Crusoe,一家成立仅7年的初创公司,专注于大型AI基础设施建设,目前在建容量就已达约2吉瓦,另有20吉瓦的项目正在规划中。这意味着,为了实现AI的宏伟蓝图,我们正在彻底改变能源和数据中心行业的格局,因为其所需的基础设施规模是空前的。
当然,建设过程中的瓶颈也在不断变化。
曾经有一段时间,芯片供应是主要障碍,但随着台积电和英伟达等公司产能的提升,这一问题已大为缓解。然而,电力供应、钢铁和数据中心空间已成为新的主要瓶颈,这些都涉及复杂的供应链,难以在短时间内提速。
携手科技巨头:初创企业的突围之道
David Conn:你们是如何说服大型科技公司合作的?亚马逊、谷歌、微软这些公司本身就是数据中心领域的巨头。
Chase Locke Miller:尽管大型科技公司在很多方面都表现出色,但它们天生并非为快速行动而设计。事实上,从组织结构上看,它们的设计往往不利于快速决策,尤其是在涉及巨额采购时。
比如,当我们需要做出购买决策时,我可以直接决定并在当天执行。但在微软这样的公司,一个决策可能需要经过19层审批。因此,从起跑线上看,它们在快速行动方面就存在巨大劣势。
当然,这些巨头也制定了出色的计划,它们通常将大型数据中心项目(如100兆瓦以上)视为一个3~5年的规划。而我们极大地缩短了此类基础设施的上市时间,这对于那些追求大规模、专用AI基础设施的大型科技公司和AI实验室而言,具有核心价值。
AI的能源大考:挑战与机遇并存
David Conn:能否请您更深入地谈谈能源问题?我想大家对AI将面临能源约束仅有一个抽象的概念。
Chase Locke Miller:这是一个有趣的问题。
在美国,公用事业在很长一段时间内都是一个相对沉寂的行业。我们总发电能力并没有显著增长,基本处于持平状态,因为能源效率的提升和电气化趋势在一定程度上抵消了需求增长。然而,AI带来了需求的阶梯式增长,这仿佛唤醒了沉睡的巨人,突然间就需要吉瓦级别的电力,这些电力从何而来?
我们不得不再次采取“第一性原理”的思考方式:如果无法从公用事业公司获得电力,我们能否自己建造发电厂 ?事实上,我们也确实这样做了。我们将AI视为一个巨大的机遇,它能够加速下一代能源技术的发展。我们目前与3家小型模块化反应堆(SMR)公司达成了合作,希望能够推动核能成为未来数据中心电力的关键组成部分。我将此视为整个行业加速诸多先进能源技术发展的巨大契机,将引领我们迈向一个智能和能源都极度充裕的未来。
未来数据中心的设计蓝图
David Conn:您能谈谈数据中心的设计吗?
未来的数据中心会是什么样?液冷技术又将如何融入其中?我们应如何理解未来数据中心的概念?
Chase Locke Miller:坦白说,这正是我最初投身这个领域的原因。当时Crusoe正在构建一个AI云平台,我研究了未来的技术路线图和不断变化的计算架构,然后意识到随着这些计算架构的演进,支撑它们的数据中心也必须发生根本性的转变。因此,为了打造全球最顶尖的AI云平台,我必须成为AI数据中心建设领域的佼佼者。
我认为,最重要的变化在于整体功率密度的急剧提升。20年前,一个传统数据中心的机柜功率可能只有2千瓦,最多4千瓦。而现在,英伟达的NVL72和GB200机柜的功率大约在120~130千瓦。黄仁勋在GTC大会上发布的Vera Rubin Ultra,其机柜功率更是高达600千瓦。这意味着功率密度实现了数量级的增长。这从根本上改变了数据中心内部的热力学环境,因此我们必须对冷却架构进行重大调整。
走进我们的数据中心,你会看到非常有趣的景象,它看起来像一个自来水厂。巨大的管道在整个数据中心内输送冷却水。每栋建筑大约储存100万加仑的水,这些冷水通过“直接到芯片”(direct-to-chip)的液冷架构注入机架为芯片降温,然后热水流出到冷却塔,将热量排到室外,每栋建筑配备了84个冷却塔。
此外,我们还高度关注数据中心周边的网络设计。因为我们思考的层面不是芯片或服务器,而是集群。数据中心本身就是新的计算单元,这正是AI工厂的本质—数据中心规模的计算机。
关键字: 商界评论,AI/
本文来自商界APP付费专栏《商界评论》,覆盖投资精英核心资讯。请付费阅读

还有70%的精彩内容,付费解锁全文