流行的大型语言模型(LLM),如OpenAI的ChatGPT和Google的Bard,耗能巨大,需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明,仅GPT-3的训练就消耗了18.5万加仑(70万升)的水。根据一项新研究,普通用户与ChatGPT的对话基本上相当于在地面上倒掉一大瓶新鲜水。考虑到聊天机器人的空前流行,研究人员担心所有这些浪费的水瓶可能对水供应造成严重影响,尤其是在世界各地历史性干旱和迫在眉睫的环境不确定性之际。
加州河滨分校和得克萨斯大学阿灵顿分校的研究人员在一篇题为《让AI更节水》的预印论文中发布了AI的用水估算结果。作者们发现,训练GPT-3所需的淡水量相当于填满一个核反应堆的冷却塔所需的水量。OpenAI并未披露训练GPT-3所需的时间长度,这给研究人员的估算带来了困难,但微软与这家AI初创公司达成了一项为期多年、价值数十亿美元的合作伙伴关系,并为AI训练建造了超级计算机,微软表示,其最新的超级计算机需要一个庞大的冷却装置,包含1万张图形卡和超过28.5万个处理器核心,这使我们能够一窥人工智能背后的庞大规模。那么巨大的加仑数量足以为320辆特斯拉电池生产电池单元,或者换句话说,ChatGPT(在GPT-3之后推出)需要“喝掉”一瓶500毫升的水才能与用户进行大约25-50个问题的基本交流。
用于训练AI模型的巨大加仑数量也假设了训练是在微软的最先进的美国数据中心进行的,该数据中心专门为OpenAI建造,耗资数千万美元。报告指出,如果数据是在该公司较低能源效率的亚洲数据中心进行训练的话,水消耗可能会高出三倍。研究人员预计,随着新模型的推出,例如几个月前发布的GPT-4,这些水需求只会进一步增加,因为这些新模型比之前的模型使用了更大规模的数据参数。
研究人员表示:“AI模型的水足迹不能再被忽视了。水足迹必须成为解决全球水资源挑战的优先考虑因素之一。”
聊天机器人如何使用水呢?
在计算AI的水消耗量时,研究人员在水的“取用”和“消耗”之间作了区分。取用水是指从河流、湖泊或其他水源中实际取水的行为,而消耗水则特指在数据中心使用时由于蒸发而丧失的水。对AI水使用的研究主要关注了这个方程式中的消耗部分,这部分水无法回收利用。
任何在公司服务器房间里待过几秒钟的人都知道,你需要先穿上毛衣。服务器房间需要保持冷却,通常保持在50到80华氏度之间,以防止设备出现故障。保持这个理想的温度是一个持续的挑战,因为服务器本身会将电能转化为热能。为了对抗这种热量并保持房间的理想温度,通常会使用冷却塔,通过蒸发冷水来实现。
冷却塔可以完成工作,但它们需要大量的水来实现。研究人员估计,平均数据中心每消耗一千瓦时的电能就会消耗大约一加仑的水。而且并非所有类型的水都可以使用。数据中心使用清洁淡水源,以避免海水可能带来的腐蚀或细菌滋生问题。淡水对于房间的湿度控制也是必不可少的。研究人员还指出,数据中心为了产生所消耗的大量电力所需的水也应该受到关注,科学家们将此称为“场外间接用水消耗”。
用水问题不仅限于OpenAI或AI模型。2019年,谷歌仅在三个州就要求提供超过23亿加仑的水用于数据中心。该公司目前在北美有14个数据中心,用于为Google搜索、其一系列工作产品以及最近的LaMDa和Bard大型语言模型提供动力。根据最近的研究论文,仅LaMDA可能就需要数百万升的水进行训练,比GPT-3还要大,因为谷歌的一些水耗能数据中心位于德克萨斯等炎热州,因此研究人员在这个估计中发出了警告,称其为“近似参考点”。
除了水,新的大型语言模型同样需要大量的电力。斯坦福大学上周发布的一份人工智能能耗报告对四个知名AI模型的能耗差异进行了研究,估计OpenAI的GPT-3在训练过程中排放了502吨的碳。总体而言,训练GPT-3所需的能量可以为一个普通美国家庭提供数百年的电力。
“数据中心为跟上这一切而奋斗得很激烈,”Critical Facilities Efficiency Solution首席执行官凯文·肯特在接受《时代》杂志采访时说道。“他们并不能总是做出最环保的选择。”
气候变化和日益严重的干旱可能加剧对AI水耗的担忧
据世界经济论坛估计,已经有220万美国居民缺乏水和基本室内供水设施。另外4400万人生活在“不充分”的供水系统下。研究人员担心,气候变化和美国人口增加的组合将使这些数字在本世纪末进一步恶化。斯坦福大学估计,到2071年,该国将有近一半的204个淡水盆地无法满足每月的用水需求。据报道,许多地区在未来50年内可能会将水供应削减三分之一。
人类活动导致的气温上升已经导致美国西部出现了有1000年来最严重的干旱,这也威胁到淡水资源,尽管最近的暴雨有助于缓解一些严峻的问题。像密德湖这样的水库水位已经下降到了暴露出几十年前的人类遗骸。所有这些意味着AI庞大的用水需求很可能成为一个日益严重的争议点,尤其是如果这项技术嵌入到越来越多的领域和服务中。LLM的数据需求正在不断增加,这意味着公司将不得不找到提高数据中心水利用效率的方法。
研究人员表示,有一些相对明确的方法可以降低AI的水耗费。首先,AI模型的训练地点和时间是影响水消耗的因素。例如,AI模型的训练可以选择在温度较低的午夜进行,或者在具有更好水利用效率的数据中心进行。而用户使用聊天机器人的时间也可以选择在“节水时段”进行,就像市政当局鼓励在非高峰时段使用洗碗机一样。然而,这些需求方面的改变都需要科技公司在建立这些模型时提供更多的透明度,而研究人员表示这方面的信息目前令人担忧地相对不足。
研究人员写道:“我们建议AI模型开发者和数据中心运营商更加透明。AI模型在何时、何地进行训练?AI模型在第三方数据中心或公共云中进行了训练和/或部署吗?这些信息对于研究界和公众都非常有价值。”
随着大型语言模型的普及和应用范围的扩大,AI的水耗费问题将成为越来越引人注目的话题。在当前全球水资源挑战的背景下,科技公司和研究人员需要共同努力,寻找降低AI水消耗的解决方案,以保护水资源并应对气候变化的影响。
AI好书推荐
AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践? 不要再观望! 我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。 由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。 无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。 那为什么还要等呢?
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理