数据中心作为集中化、规模化、园区化和独立运营的主体,具有储能系统多、用电量大、散热困难、烟气量大等特点,一旦发生火情,对人身安全、系统安全和业务完全都是非常严峻的考验。


数据中心作为重要基础设施,规划、建设和运营都是按最高级别进行,但公开资料显示,近几年全球数据中心火灾事故仍然频发,起火原因也并不相同,部分数据整理如下:


从结果上看,似乎国内数据中心起火事件相对较少,但实际上并不在少数,特别是蓄电池起火,有的甚至也影响了业务系统正常运行,只不过由于客户灾备系统起作用而没有引发公开报道。


数据中心火灾基本以电气火灾为主,由于存在大量易发生火灾的蓄电池系统,以及可以推动火情扩散的空调系统,发生时具有隐蔽性强、随机性大、蔓延迅速等特点。 


数据中心火灾事故原因分析


数据中心火灾事故分类方式有很多种,从起火原因上(或最初起火点上)可以分为电气故障、热失控、人为错误、维护不足等4个主要方面,其中未明确具体原因的UPS电池室事故归集到电气故障,没有找到公开原因的事故归集到原因不明,整体统计情况如下:


(一)电气故障

电气故障是数据中心火灾最常见的原因,占比超过50%。这些故障可能源于弧闪、短路、雷击、浪涌、过载和设备故障等,每一个故障都能产生足够的热量引发火情。

1.弧闪:电气系统内的低阻抗连接引发的放电,弧闪期间产生的高强度闪光很容易点燃周围的材料和设备,特别是在含有蓄电池、电容等充能环境中。


2.短路:数据中心中电力设备在建设期隐藏在机柜中的铁屑,长时间使用后出现的老化、绝缘损坏、接触不良等问题,都可能导致电力短路。短路瞬间电流可达额定电流的数十倍,极易导致电气设备烧毁,甚至引发火情。


3.雷击:雷击在暴雨季节比较常见,特别是在春夏雷暴频发期,闪电释放的巨大能量如果不能完全被防雷设施处理,极易造成能量的溢出引发火灾。数据中心虽然都有良好的防雷接地设施、每年定期开展防雷检测,但并不能保证不出纰漏。


4.电:由于电压突然大幅增加引起,电涌可能导致电路过载,产生强烈的热量。如果此类浪涌渗入不耐高压的设备,如开关电源、UPS等,引发火灾的风险将会升高。此类事故并没有明确的直接案例,但不等于没有发生过,还需引起更多的关注。


5.设备故障:很多事故并没有给出具体的原因,只是提到了某房间内出现火情或者某系统出现故障引发,也可能是短路、过载等原因,此类没有明确原因但明确到设备的事故都归集到设备故障类。其中,变配电、UPS(不包括蓄电池)、柴发系统、屋顶光伏等均有火情出现,可以说电气系统的任何环节都存在隐患。


6.电缆问题:电缆隧道、电缆井、连接电缆等由于长时间负载、老化、磨损也是不可忽视的一个原因。数据中心电缆隧道通常不会安装火灾报警系统,甚至连温感光纤都很少布放,缺少对初期火情的预警。


(二)热失控


热失控是数据中心火灾中常见的另一个原因,可以分为蓄电池起火、IT设备起火和冷却失效引发火情等3个方面。

1.蓄电池起火:数据中心UPS系统会使用大量铅酸电池、锂电池保障业务SLA,EPS系统会使用蓄电池,规模化的储能设备也在应用,这些高能量密度蓄电池带来重大火灾风险。


这些蓄电池过热或受到损坏,可能会进入热失控状态,引发电池起火甚至爆炸,密集布放的电池会引发连锁反应导致火情进一步扩大,最后蔓延失控发生火灾事故。


与铅酸电池相比,锂电池的占地面积更小、成本效益高、易于维护和使用寿命更长,在数据中心越来越普遍,但是锂电池比铅酸电池具有更大的火灾风险。国内已经发生过多起蓄电池起火事件,由于没有产生外部影响而没被公开报道,也欢迎留言补充完善。


2.IT设备过热:IT设备的功率密度越来越高,自身硬件质量以及长期超载、高负荷运行、缺少保养等原因都可能引发高密度服务器过热甚至发生火情。


3.冷却系统失效:当冷却系统发生故障或不足时,服务器和网络设备产生的热量可能导致火灾。虽然数据中心出现过多起致命的冷却系统失效,但处置相对及时,只是影响了业务系统运行,并没有出现火情。


(三)人为错误


人为错误主要包括项目建设、更新改造、运行维护期间出现的管理失误和操作失误,包括动火、用电等特种作业的管理不善,蓄电池安装、搬运或者放电实验过程中的保护不当、安全准备不足等。


1.特种作业管理:在建项目特种作业起火事件也有发生,包括2022年江苏苏州国科在建数据中心和2024年广东阿里在建数据中心,都是由于焊接、切割等特种作业,现场保护不当、管理不善,引燃周边杂物,从而引发火情。


2.日常监管:日常火灾宣传、管理不当,特别是缺少对进场客户的安全教育和监管,缺少对吸烟和用电设备的管控。如2022年湖南长沙电信第二通信楼外墙火灾事故和2023年孟加拉Khawaja Tower数据中心ISP办公室起火。


(四)维护不足


数据中心在投产运营过程中,设备设施需要不间断的维护、保养、维修、升级、改造和更换等,任何一个环节出现纰漏,都可能给安全稳定运行埋雷。


现实中,由于成本管控的原因,数据中心运维人员数量在压缩、待遇在减少、工作还在复用,技术人员的专业能力和责任心都在下降,维护问题时有发生。很多数据中心对老龄、预龄的老旧设备缺乏有效的管理措施,可能导致火灾隐患得不到关注和解决。


数据中心火灾是“低频率、高影响”风险的典型代表。绝不能因为“不常见”而忽视其潜在的毁灭性后果。近几年的典型案例已经告诉我们,任何一个潜在的隐患和风险,都可能最终引发火情。


在降本增效和节能降碳的大环境下,如何在成本和安全之间做好设计建设和运营是数据中心需要深度思考的问题。