在修数据和修空调之间选择了秀逗

悲剧是怎么产生的

公司自建的一个小机房,说大不大,6个机柜而已,每个机柜规划功率是5kw,跑计算和存储,作为研发测试开发环境使用。 悲剧的起因呢,是刚刚进入到数据中心行业的某知名空调厂家,项目经理和售前技术支持都是初哥,虽然到现在各种量,最后算出来的冷量,还是错误的,远远低估了GPU服务器的功率和热量。并且极其顽固的不采纳区区在下的意见,与各种人等承诺,他们的计算绝无问题,最终方案定下来,使用两台2P的精密空调…

普通机房计算制冷量需要的普遍的一个计算:空调总制冷量=设备热负荷(设备总功率综合运行系数热量转换系数)+环境热负荷(0.15KW/平米)*机房面积

小机房,简单一点计算,设备总功率*1.2,大致就是空调的冷量需求。

当然,施工完成之后,很显然,出现了制冷不够,设备高温,机房如同烤箱的现象。出于责任划分,于是厂家又给加了个3P的挂机。 3P挂机上线之后,按日常使用是够了。毕竟并不是蛮符合运转。 奈何问题又来了。。。3P的挂机,功率要求是20A的空开。。。。结果接了个16A的。。 于是在夏天,频繁跳闸,一跳闸,冷量不够,设备高温,机房如同烤箱,最终导致一系列悲剧。

有多悲惨

看图说话,诶 Raid6磁盘离线

要怎么修

鉴于我们的存储节点,每个节点是raid6。 假设一次性损坏多块盘的情况,基本上不存在修复的可能。 但是硬盘从状态观察来说,大概率是没有损坏。 所以,进入raid控制界面,尝试将离线的盘强行标记为状态正常。 结果发现告警里面提示离线了的6块盘,其中4块能正常拉起。 于是使用热备盘替换,进行raid重构。花了接近一周的时间,重构完成,系统正常。

而对于家用经常遇到的移动硬盘损坏,经常表现为windows里面看得到盘符,但无法打开。可以下载磁盘精灵进行修复操作。 需要特别注意的是,磁盘精灵是收费的。目前可以白嫖的版本,比较古老,我给出一个关键词4.9.5,大家可以自由发挥。

Published At