银行基于华为DME实现存储智能化统一管理平台应用实践

【摘要】云计算基础设施特性取代了小型机、高性能集中存储设备,随之而来的是大量的PC服务器、中低端存储设备和庞杂的SAN网络。云架构规划体系下,存储系统作为数据的直接容器、IT支撑的重要地基,挑战着银行的运维能力。本文分享了引入了华为DME存储智能管理平台,实现存储全生命周期自动化管理与智能运维,提升数据中心运营效率的实践及运维经验,供银行同业参考。

【作者】徐子晨,华夏银行信息科技部运行中心系统软件室存储维护岗,主要负责存储、SAN网、云环境建设与维护的一线工作,置身于建设具备灵活、自由、可靠等特点的数据中心存储系统。

1 项目背景

我行从2013年起,启动了虚拟化改造工作,提高了硬件的使用效率、降低机房空间、节约用电成本。2015年,我行将大部分的IT资源池化,进行统一的运营,统一的运维。基于性能与成本的考虑,在不同集群中选择使用集中式存储、网络存储或分布式存储。17年我们建成了业内首个云网联动的金融云平台。2018年着重于多元化软件定义的探索,2019年,开始重塑云服务理念,增加了大数据、容器、数据库、安全等9类40多项云服务。

实施科技创新驱动一直是我行长期发展战略,云计算在我行大范围应用使得前端用户诉求响应更及时、更灵活、更弹性。云计算基础设施特性取代了小型机、高性能集中存储设备,随之而来的是擢发难数的PC服务器、中低端存储设备和庞杂的SAN网络。在我行云架构规划体系下,存储系统作为数据的直接容器、 IT支撑的重要地基,其可靠性、稳定性、先进性、可扩展性、开放性和标准化决定了应用服务和业务数据安全、稳定、高效、灵活。如此庞大的IT支撑挑战着我行的运维能力。

2 痛点难点

存储管理主要面临的问题:

面对云平台对IT基础资源发放敏捷和灵活的特性,存储资源池容量保障是重中之重,为防止存储资源超越业务需求导致闲置浪费问题,存储资源统一采用弹性供给原则,由于IT基础资源部门缺乏对业务发展需求的精准评估,设备采购立项、采购流程的规章制度、设备到货安装初始化等等往往需要数月时间,存储资源扩容的购置需求难以预测。

存储资源整合度匮乏,存在大量上线前配置和例行变更值守工作需求,大量人力精力进行着简单重复的工作极易引发人为操作失误问题,需要统一管理界面支持日常运维工作。

存储管理规模大、厂商多样化、设备数量、版本、类型逐渐增多、存储资源管理日趋复杂。硬件设备数量众多,硬盘、电池、电源、控制器、光模块、光纤线路等故障量大,在故障常态化下保障设备可靠性存在挑战。

我行业务系统种类浩如烟海千差万别导致数据类型与性能指标截然不同,业务调优复杂,往往在问题暴露后才能启动分析和调优。存储设备性能信息缺乏统筹且分散,没有统一接口对宏观性能数据进行分析。

3 需求分析

资源宏观把控,准确预测未来

监视存储容量池利用率,跟踪容量变化,监视利用率门限,采集宏观数据进行分析,预测数据落盘趋势,为采购扩容提供重要依据。

整合资源,迈向“自动驾驶”时代

建立可审计、可回滚、可跟踪、可编排的自动化端到端配置流程,提升运维效率,减少简单重复的工作量,避免人为操作失误。

故障预知,全资源图谱可视化

构建存储网络可视化资源图谱, 实时监控存储设备物理部件运行状态,不仅限于硬盘、电源、控制器等重要部件,还要重点关注存储网络光纤链路质量、链路抖动、模块光功率衰减、链路失效和潜在的设备故障隐患等问题,收集故障日志研究分析,更精准的储备备品备件,提高维护效率,节约本地仓储压力。

定义量化服务级别,物善其用

根据存储资源的服务能力,分析业务负载,实现服务级别的量化和定义,以适配不同类型应用的需求。

4 技术方案

为解决上述痛点,在认识到运维平台统一、智能、开放的重要性并结合我行运维工作实际情况之后,我行引入了华为DME(Data Management Engine)存储智能管理平台。

华为DME通过统一的管理界面、开放的API、云上联动的AI使能、多维度智能风险预测与智能调优,实现“规划、建设、运维、优化”存储全生命周期自动化管理与智能运维,简化存储管理,提升数据中心运营效率。

4.1 项目规划

4.1.1 组网规划

华为DME三节点部署场景下,通过浮动IP地址对外提供服务。

华为DME需要接入存储、FC交换机以及主机完成存储资源分配的自动化以及存储智能运维,所以需要保证华为DME和基础设施(存储、FC交换机、主机)管理网络的连通性。华为DME通过独立管理服务网络登录主机系统,与生产业务网络完全物理隔离,不会因平台对设备日常数据采集的网络开销影响生产业务网络环境。

4.1.2 存储管理规划

存储设备接入管理:基于存储设备管理IP、端口、账号、密码以及SNMP相关信息,华为DME系统自动通过Restful协议以及SNMP协议获取存储设备的基础信息以及告警信息。

存储设备接入管理:在大规模场景下,华为DME支持用户通过Excel批量导入存储设备以及批量修改存储设备鉴权信息。

存储信息查看:接入存储设备后,华为DME界面可查看存储设备基础信息、容量信息、容量预测、性能信息、资源列表、热点识别、硬件列表。

存储资源管理:接入存储设备后,华为DME支持对存储资源的操作。

4.1.3 FC交换机管理规划

交换机接入管理:基于交换机设备管理IP地址、端口、SSH账号、密码以及SNMP相关信息,华为DME系统自动通过SSH协议以及SNMP协议获取交换机的基础信息以及告警信息。

交换机信息查看:接入交换机后,华为DME界面可查看交换机详情、交换机端口信息、Fabric信息。

交换机资源管理:接入交换机后,华为DME支持对交换机端口启停和配置增删改及备份等操作。

4.1.4 主机管理规划

主机接入管理:华为DME通过从存储设备侧纳管已有的主机,提供主机IP、账号、端口、密码通过SSH协议接入主机,或手动录入等方式获取主机信息。

主机信息查看:华为DME接入主机后,支持查看主机基础信息、启动器信息、已映射的卷信息。

主机资源管理:华为DME接入主机后,可修改主机名、IP、启动器信息等。

4.1.5 vCenter服务器管理规划

vCenter接入管理:通过vCenter服务器的管理IP、端口、账号、密码信息,华为DME系统自动通过SOAP接口获取vCenter相关信息

vCenter信息查看:华为DME接入vCenter后,支持查看vCenter基础信息。(数据中心、ESXi集群、ESXi主机信息、Datastore信息等)

注:纳管设备账户密码按照我行用户口令管理细则,针对密码有效期、密码复杂度、密码历史、最小长度等规则设置,定期按要求对平台纳管设备进行口令更新。

4.2 项目建设

“建设”阶段包含了存储资源的自动化分配、FC交换机的自动化分配,重点通过自定义的方式实现SAN存储的自动资源发放。

4.2.1 基于管理员自定义的辅助式自动资源发放

华为DME块存储资源基于管理员自定义的辅助式自动资源发放流程如图所示:

通过选择存储设备、存储池、设置LUN的基础信息、LUN参数、映射视图、ZONE策略等完成任务提交,平台执行资源预检后下发请求到存储进行资源分配。

4.2.2 通过待办任务管理进行资源发放

考虑到变更窗口的时间问题,华为DME支持待办任务管理,现场管理员随时提交存储资源发放、交换机资源发放任务,变更窗口到达后通过待办任务启动待办任务。相关流程如下:

管理员提交存储资源发放和交换机发放任务到待办任务,待办管理员可对待办任务执行策略设置, 华为DME系统按照用户定义执行资源发放任务。

4.3 维护管理

4.3.1 告警管理

通过设置各种规则对告警进行自动屏蔽、抑制、聚合、关联,自动确认、重定义、标记状态。相关流程如下:

管理员接入存储和交换机,设置告警自动处理规则,按照告警ID、告警源类型、告警级别、事件分类、根因父告警/子告警,对上报的告警进行过滤;根据预先定义的规则对存储或交换机上报告警进行自动处理;根据上报过滤规则,对告警进行过滤,并通过SNMP Trap的方式上报给短信告警管理平台进行通知。

4.3.2 策略检查

管理员可定义检查条件,对配置、容量、性能、可用性进行检查,在匹配到违规条件时,产生事件。相关流程如下:

通过接入基础架构资源,采集配置数据上报到华为DME配置库,数据集清洗模块从配置库读取资源属性、维度信息、统计信息,存入历史库;定期读取历史容量数据,预测未来容量趋势。

根据存储设备性能阈值、容量阈值、物理部件可用性、运维配置定义策略检查,从而发现超阈值、设备异常和违反规则的生产事件。

4.3.3 智能预测

预测引擎每日对存储池、存储设备、服务等级、主机或主机组的容量数据进行预测,查询历史6个月的数据,预测未来3个月的容量趋势。

预测引擎每日对文件系统性能数据进行预测,查询过去两周性能数据预测未来一周性能数据。

4.3.4 性能端到端关联分析

端到端性能关联分析进行性能问题的定位:分析性能页面、仪表板的性能趋势,按I/O路径自上而下分析性能瓶颈,根据关联事件定性性能问题的根因是否是设备上的事件而引起,通过历史性能数据及时了解存储性能状态。

4.3.5 存储SAN网络拓扑

华为DME通过端到端拓扑定位问题根因、确定问题影响范围:

以卷、主机、存储设备为入口,查看端到端关联对象:主机、启动器、交换机端口、光纤网络、交换机、存储前端端口、控制器、设备、存储池、卷,通过对象图标,查看对象详情、性能分析数据。

5 运维经验

1.梳理整合现有资产按需求纳管设备

我行现有包含华为、EMC、IBM在内多家厂商的存储设备,包含集中式存储、网络存储、分布式存储、存储光纤交换机200余台,运维监控管理平台7套,涉及到的管理服务器、代理服务器、日志服务器等150余台,日常人工维护报表10余个,针对以上资产进行分类。设备按照SAN存储、文件存储 、光纤交换机分类;平台按照运维和监控分类 ;报表按照统计、配置和台账流水分类。根据分类制定新建平台功能需求,异构设备方面先期进行适配和测试以达到纳管要求,利用现有代理服务器避免资源重复申请导致浪费。

2.纳管设备资产

纳管设备后,参照现有CMDB系统导入配置信息,补全不能采集的存储光纤连接线标签信息、设备实际物理位置,还有一些CMDB不关注但是对于存储管理员非常重要的信息,例如HBA卡的location和端口号名称等。参照过去的运维习惯,将统计报表、配置报表、台账流水报表线上功能化,既可动态展示所需内容,还可以导出报表为日后文案工作提供支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。

3.配置规范管理

规范所有命名配置,如设备通用名、存储池命名、LUN命名、存储前端口命名 、映射视图命名、zone命名、alias命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。

4.硬件故障识别主动上报量化分析

收集平台内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集 HBA卡SFP光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。

5.存储资源统筹管理

掌握全环境存储资源裸容量、存储池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备CPU利用率、时延、IOPS、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。

6.基于规则分配资源

根据业务类型将系统分为重要关键系统、非重要关键系统、内部管理系统、备份恢复系统、特种数据需求系统,按照系统分类建立数据服务等级,面向业务需求定位存储服务资源,运维层面只需要在相应的资源池中申请存储服务。重要关键系统提供全闪存储服务,非重要关键系统提供混闪存储服务,内部管理系统提供SAS存储服务,备份恢复系统提供SATA存储服务或生产系统下线后的利旧设备。通过存储资源池的建立绑定计算资源集群,对待下线系统和EOS并行保留系统至于冷数据集群缓冲区,待后期备份完成后下线回收。

6 总结

作为传统行业的存储产业,经历过软件定义,超融合,云计算等技术的洗礼,随着人工智能技术的高速发展,AIOPS在运维工作中将很快普及,我们的工作方式、运维方式和思维方式都会发生巨大变化,这将促使IT支持理念飞跃提升。华为DME存储智能化平台的建设,为提高我行IT基础设施的使用效率、高可用性、灵活弹性以及标准化起到了很大的作用。通过存储资源池化整合、资源规划、自动化配置、定时任务编排、端到端拓扑可视化管理实现了存储从单一维度到 “规划、建设、维护、优化”全生命周期管理,以智能运维模式大幅提升运维效率。

在我行成熟构建基础设施服务云平台的基础上,存储智能化管理平台完成资源集中化与运维自动化,从数据中心资源池组织形式以及整体架构出发,将智能管理平台接入云平台服务目录,由云平台作为统一资源入口,完善我行IT支撑整体规划目标。为进一步提高运维工作效率,我行还将华为DME管理平台进一步扩展到手机平台上,深化“无人值守”、“远程移动办公”的智能化运维建设目标。

如有任何问题,可点击文末阅读原文,到社区原文下评论交流

觉得本文有用,请转发或点击“在看”,让更多同行看到

 资料/文章推荐:

省农信核心系统高端全闪存储POC选型经验分享

银行数据中心高端存储选型的方法论和经验分享

欢迎关注社区 "存储"技术主题 ,将会不断更新优质资料、文章。地址:

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注

*本所发布内容仅代表作者观点,不代表社区立场