数据中心世界网

   18611334022 [注册]

新闻

技术

您现在的位置是:首页 > > HOT新闻 > IT设备 >正文

银行实战|数据中心IT设备硬件智能化运维探索与实践

来源:       作者:      更新时间: 2021-11-29 10:53:40
在2021中国(北京)数字金融论坛上,中国人民银行副行长范一飞指出,数据中心是数字金融发展底座,金融业要顺应数字技术发展新趋势,从数据 ……
图片
 
在2021中国(北京)数字金融论坛上,中国人民银行副行长范一飞指出,数据中心是数字金融发展底座,金融业要顺应数字技术发展新趋势,从数据中心增效、算力体系扩能、网络通信提速三方面着力打造布局科学、安全可靠的数字基础设施,筑牢金融转型与创新发展的“数字底座”。
当前,数字化越来越成为推动经济社会发展的核心驱动力,并对传统金融行业带来了革命性影响。以云计算、大数据为代表的新技术的深入应用,使得金融机构对数据资源存储、计算和应用的需求不断提升。数据中心作为金融机构的“心脏”,在新形势下的转型与发展尤为关键。传统数据中心迫切需要实现与新技术的融合发展,加快向新型数据中心演进的步伐。
在AI、大数据蓬勃发展的时代,新的业务需求也在推动着数据中心的发展。一般来说,中小型数据中心都有数以万计的IT设备,大型数据中心的IT设备数量甚至超过10万台。面对巨量设备,IT人如何才能实现运维效率的提升。
传统运维模式下,各品牌有独立的IT设备管理平台,而数据中心设备品牌和类型多造成了管理平台多,管理不清晰,缺少集中统一的硬件运维平台。
综合考虑未来数据中心硬件管理演进方向,上海浦东发展银行信息科技部深耕前沿技术,依托带外管理手段,结合大数据、分布式技术,建设一套可以纳管服务器、网络、存储等各类型IT设备的硬件管理平台,实现数据中心运维模式转变,进一步契合当下环境,打造了从人维转向智维、从被动转向主动的规模化IT设备运维体系,达到快速感知硬件设备故障、快速获取设备信息、快速记录设备维护等良好效果,为行内各项业务的稳定运行铸好基础。
-01-
改进传统监控模式,提高运维效率
通过直接监测IT设备独立的带外管理口,采集硬件信息以及内部传感器动态数据。借助该平台采集的设备详细数据,统计分析故障情况,用数据将传统的运维转向运营,保障各类业务正常运行,为数据中心智能化、无人化提供全栈式基础能力。
1.“运筹帷幄”——远程监控排障,减少人员机房出入
依托平台可以实施开关机、重启、固件升级、挂载介质、日志下载等操作,全程录屏敏感行为,无需进入机房即可安全运维。故障定位效率更是实现了大幅度提升,定位故障节点时间从2小时降低至5分钟,节省大量跨专业及与厂家沟通的时间。
2.“鞭辟入里”——精细巡检,杜绝巡检盲区
自定义设备巡检周期,万台设备巡检时长从2小时降至5分钟,巡检耗费人力从5人降低至1人,单台设备巡检次数由1次/天提升至144次/天,全天设备巡检次数115万台次,远大于人工巡检次数,设备告警发现率由50%左右提升至100%。巡检范围覆盖硬盘、内存、阵列卡、设备面板灯、风扇、插槽以及电源模块等部件,及时发现告警并以邮件、电话等形式自动推送至设备管理人员,解决了人力巡检不精细、肉眼有疏漏等问题。
从设备、机柜、机房、业务以及固件版本、设备配置变更等多维度自动化监测IT设备,数据采集时效性强、准确度高,图表形式的可视化监测界面让监控工作变得直观简便。
3.“一目了然”——总览全局,全方位可视化大屏运维
提供设备、机房、机柜、业务、监测、能耗、资产、网络等多维度的大屏展示,为管理者提供统一视角的管理工具,辅助管理者快速获取相关信息,实现管理决策有据可依。
图片
 
图1 大屏视图列表
-02-
数字化管理,支撑运营决策
1.“如数家珍”——全生命周期的IT设备资产管理 ,支撑采购
涵盖IT设备的上线、维护、变更、下线、报废等阶段的全生命周期管理,管理设备达到万台,贯通CMDB平台,实现设备初始配置到变更信息的联动,具体包括:机架、空间、位置变更,部件变更,网络配置变更、维保管理、序列号变更等,及时把控机房IT设备动态,预警相关风险。
依托平台采集数据,统计分析各阶段IT设备数据,包括资产运行状态、故障率、剩余空间、能耗、维保等,支持自定义报表,直观反馈设备/部件故障率、品牌故障率、库存设备占比等信息,为设备选型、配件采购提供数字依据。
图片
 
图2 设备故障率展示
2.“节能减排”——双管齐下,全力打造绿色机房
借助平台加强对机房能耗的管理,从“设备”视角,掌控看不到的能耗数据,辅助设备上架决策,提高机柜利用率;联动动环系统动态调整机房整体温度,节省机房能耗。
实时采集设备的能耗、温度数据,全方位实时监测机房、机柜、设备、业务的能耗信息,为决策、预测提供可靠依据,机柜利用率从50%提升至70%以上,排查能耗异常设备并实时告警,精准控温,减少15%以上的能源消耗,降低PUE,打造绿色数据中心。
-03-
系统联动,打造一体化运维体系愿景
在信息科技发展的背景下,依托大数据、云计算、人工智能、物联网等新技术,进一步完善行内数据中心运维手段,打通硬件管理平台DCM与3D大屏系统、巡检机器人系统的联动接口,创建大数据+AI+自动化驱动下的无人值守机房运维模式,建立故障快速响应和自动化处理机制。
图片
 
图3 3D大屏联动效果
图片
 
图4 机器人联动巡检
从研究机器人参与智能巡检,再到未来探索AR/VR等可视化运维工具,融合现有行内运维流程,打造一体化的运维体系。我们将扎实走好每一步,提高运维质量,保障业务高效运转,为建设数字化银行不断赋能。
-04-
未来展望
5G、大数据、人工智能、图像识别等新技术的蓬勃兴起,推动着数据中心管理技术的发展,势必会给数据中心的数字化运维带来质的突变。如何利用新技术促进运维转型,是值得每个运维人思考的问题。



声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。