谷歌云首席执行官托马斯·库里安Thomas Kurian在最新访谈中展示了谷歌作为全球唯一拥有全栈AI能力巨头的底气。他不仅揭秘了自研TPU如何通过11年的积淀反超行业通用方案,更首次深入探讨了与竞争对手Anthropic的复杂关系,以及面对Mythos的准备。
库里安透露,谷歌正在改变以往通用芯片的策略,将第八代TPU划分为针对性更强的家族成員:8T(训练)与8i(推理)。 专为训练设计的 8T 系统可容纳 2PB(2000TB) 的内存。通过超低延迟的 Optical Torus 网络,数据在芯片间的流动效率达到了前所未有的高度。针对日益增长的推理需求,8i 采用了非水冷(空冷)设计,使其能部署在更多传统数据中心。库里安指出,随着Nano Banana 等模型实现多模态输出(Media Out),推理成本的控制将决定AI能否真正普及。库里安澄清,此前的 Ironwood 芯片实际上是训练与推理的混合体,而现在的分工标志着AI工作负载已进入成熟期。
访谈中最具的部分在于谷歌与 Anthropic的关系。作为谷歌云的最大客户之一,Anthropic 既是谷歌的竞争对手,也是其基础设施的深度依赖者。库里安对此表示:谷歌是一家平台公司。虽然 Gemini 在模型层与 Claude 竞争,但我们同样自豪于能为 Anthropic 提供部署。。当被问及算力紧缺时,是否会优先留给自家 Gemini 而断供对手?库里安承认这涉及复杂的执行委员会决策,但他给出了一个句:
拥有自己的芯片并面临需求过剩,总比没有芯片要好得多。
他强调谷歌不只是转售英伟达或他人的 IP,而是通过自研 IP 获取了极高的毛利率,这种财务自由度让谷歌能支撑起 AGI极高的研发成本。
面对业内关于“预训练放缓”的传闻,库里安表示。表示谷歌确认很快将推出 Gemini 的新模型。库里安表示,在所有内部基准测试中,新模型的表现都令人极其兴奋。针对传闻中世界首個 10万亿参数级别的模型 Mythos,库里安表示谷歌早已部署了“解耦服务(Disaggregated Serving)”技术。这意味着无论模型规模多么庞大,谷歌的 TPU 架构都能实现高效的推理部署。
库里安认为,AI 的下一个战场是 Agent。为了让 Agent 能够像人一样操作電腦、处理复杂的企业级数据,谷歌在底层架构上进行了大修加入了Virgo 网络提供超低延迟的连接,确保成千上万颗芯片像一颗大脑一样协同工作。并且采用了Rapid Storage(快速存储)提供高达 15 TB/s 的推理存储速度。当 Agent 需要在几秒钟内查阅数千个企业文档时,这种速度是必不可少的。 库里安指出,处理简单的文本文件很容易,但要让 AI 理解拥有 1000 个字段、充满下拉列表的 ERP 系统(如 SAP),需要极高的逻辑推理能力。谷歌正利用企业级数据在轨迹优化(Trajectory Optimization平台上训练 Gemini,使其在处理复杂逻辑上远超对手。
在谷歌内部,软件工程正在发生改变。库里安分享了名为 Jet Ski” 的内部开发环境。 谷歌不再以代码行数衡量生产力。借助 AI,高级工程师正在编写更紧凑、功能更强的代码。 谷歌正在开发三种特殊的 Agent:一种负责持续攻击系统(红队演练),一种负责对发现的漏洞进行优先级排序,第三种则负责自动修复代码。 面对AI 生成代码、AI 审阅代码是否会导致人类丧失理解能力的风险,库里安表示,谷歌坚持 senior 工程师的同行评审,但会利用 Gemini 作为辅助工具来扫描安全漏洞。
在采访的最后,库里安表示,他最关注的是长期资本基础设施的规划(是否有足够的电力、数据中心和TPU来满足爆发式的需求)。
Google Cloud CEO: Anthropic, TPUs, Mythos, NVIDIA and more
10 个帖子 - 10 位参与者