近日,位于M.G.Meshcheryakova信息技术实验室的联合核研究所(JINR)顺利完成多功能信息和计算综合体(MICC)现代化改造的又一阶段工作。此次改造聚焦于更新提供电力和冷却的工程设备,包括气候控制系统、配电模块等,相关工作由LIT(实验室信息技术部门)员工在实验室总工程师Andrey Dolbilov(安德烈·多尔比洛夫)和莫斯科计算系统研究所总工程师Alexey Vorontsov(阿列克谢·沃龙佐夫)的监督下完成。
模块作为气流隔离系统,通过天花板和滑动门系统连接两排独立设备机架,形成隔离冷通道,加热后的空气则排放至MIVK(多信息和计算综合体)大厅公共空间。
在JINR LIT二楼机房内,除单独放置的超级计算机“Govorun”以及机器人磁带库IBM TS3500和TS4500外,还设有四个独立模块:Tier-1模块;Tier-2模块(1号和2号);模块4,负责保障Tier-2、异构HybriLIT平台、云基础设施、信息和计算资源综合体以及EOS数据存储系统的运行。其中,4号模块于2020年建成,配备现代化工程设备,升级前其工程方案与1号和2号模块差异显著。此外,机房内还有一个用于容纳标准业务计算类型关键服务器(如管理系统、数据库等)的模块,以及一个容纳MICS、本地和全球网络主要网络服务的网络设备模块。未来,计划创建5号模块,将网络基础设施与额外计算资源和数据存储系统相结合。
自2024年底起,为改善MIVK工程基础设施,大量工作有序开展,对为计算中心提供电力和冷却的设备进行了必要升级。此次现代化改造在不停止所有现役设备运行的情况下推进,且迅速完成,最大限度降低了时间和效率损失。期间,设计和创建自有配电单元(PDM)成为关键任务,这一复杂而广泛的工作由LIT高级工程师Andrey Evlanov成功完成。2024年底,MIVK第1、2个模块的PDM组装、安装和连接工作顺利结束,由Galaxy 7000不间断电源保证供电的机柜安装并投入运行,每个模块安装8个PDM,随后开始准备将三相电源连接到PDM。2025年3月至4月,1号和2号模块全面转换为三相电源。
作为JINR MICS现代化改造的一部分,2号模块大幅扩展,结构中集成10个用于放置设备的新机柜,并安装10台行间空调,以确保更新后的配置高效冷却。下一阶段,计划在模块1中实施类似改进。
现代化工作还涉及物理迁移五个服务器机柜,这些机柜提供Tier-2 dCache、Tier-2 WN、Main EOS和cvmfs服务。为此,LIT JINR提前宣布全球网格基础设施WLCG(全球LHC计算网格)计划在3月27日至31日期间停机,以防止用户任务丢失并确保数据完整性。
安德烈·多尔比洛夫表示:“通过将电力供应和冷却能力提高约30%,我们提升了整体效率。机架数量的增加为安装新设备、提高Tier-2计算能力以及整体开发MICS提供了更多机会。”
莫斯科计算机科学研究所此次工程基础设施的现代化改造,依据JINR 2024 - 2030年发展七年规划推进。改造将为WLCG项目每年提升10 - 20%的数据存储容量和计算能力,有助于解决与JINR参与CERN实验相关的问题,维持所需的数据处理速度。此次改造为安装新设备和积极更新系统创造了条件,将确保整个MIVK综合设施可靠运行。
阿列克谢·沃龙佐夫特别提及MIVK人员为断开和移除过时设备所做的大量工作,强调年轻工程师和值班人员的高度奉献精神与承诺,他们确保综合设施全天候平稳运行,为综合设施发展做出重大贡献。阿列克谢·沃龙佐夫称,正是这些专家的努力,使JINR计算中心在国际科学界发挥重要作用。
2025年1月,Govorun超级计算机的多级数据存储和处理系统新增两台基于Ruler技术的服务器,总容量达2PB,目前已投入运行,并积极用于执行NICA大科学项目的计算任务。此次升级后,分层数据存储系统超快速部分的总容量达到10.6PB,将显著减少SC Govorun任务的执行时间。
JINR LIT主任Sergey Shmatov(谢尔盖·什马托夫)指出,MICS的计算能力正逐步提高。他评论道:“就众多已实施的解决方案而言,JINR计算中心不仅在类似支持基础研究的综合体中处于领先地位,还具备独特特点,例如在单一计算环境中集成了分布式计算、高性能计算和分布式数据湖的技术解决方案。”