国际能源署 (IEA) 近期发布的《电力 2024》报告预测,2026 年全球数据中心的总用电量将达到 1.05 万亿千瓦时 (kW·h)。这一令人震惊的数字相当于日本一年的用电量。
数据中心和智算中心是人工智能 (AI) 的数据枢纽和算力载体。随着 AI 特别是生成式 AI (AIGC) 和大模型技术的飞速发展,算力需求激增,AI 的能耗问题也备受关注。最近的几场国际会议上,多家科技巨头均表达了对 AI 发展带来的能耗担忧。
对于 AI 行业来说,如何在提升智能效率的同时解决能耗难题是一项严峻考验。
**AI 推理阶段的能耗不容小觑**
谈论 AI 的能耗问题,不可避免地要提到 AI 大语言模型(以下简称“大模型”)。
腾讯研究院资深专家王鹏表示:“生成式 AI 是当前 AI 技术发展的重点。”他说,生成式 AI 技术的基础是大模型,其训练和应用需要大量的算力支持,“而算力背后是算力基础设施耗电带来的巨大电能需求”。
全国政协委员、中国科学院计算技术研究所研究员张云泉指出,大模型的参数和数据规模越大,智能效果就越好。在大模型中,“规模效应”意味着当参数和数据规模达到一定程度时,大模型的智能表现将出现飞跃,即“智能涌现”。“目前我们还没有看到‘智能涌现’的上限在哪里。”
王鹏表示:“一般来说,参数量越大,大模型的算力消耗和电能需求就越多。”由于尚未达到上限,以 OpenAI 为代表的 AI 公司在“规模效应”的驱动下,还在不断增加大模型的参数和数据规模,以期实现通用人工智能 (AGI) 的目标,从而导致短期内算力需求和电能需求大幅提升。
商汤科技智能产业研究院院长田丰表示:“由于 GPT-3 拥有 1750 亿个参数,训练使用了 1024 块英伟达 A100 芯片,因此业界将其称为‘千卡千参’。”目前,GPT-4、GPT-5 等大模型已达到“万卡万参”的规模,且训练模型所用芯片也已从英伟达 A100 更新到英伟达 H100、B200,“参数量的激增将导致能耗显著增加”。
除了模型训练,AI 在推理阶段的能耗也不容忽视。张云泉介绍说:“推理是大模型响应用户需求的过程”,大模型单次响应用户需求的耗电量并不大,“但随着用户规模的增加,耗电量也将不断累积并增大”。
最近,一条来自美国的新闻引起社会关注:如果将 10 万块英伟达 H00 芯片部署在同一地区进行模型训练,将导致电网崩溃。