1 需求分析
XX银行目前虚拟化平台为3年前建设投产的,版本为vSphere 5.5,一直没有更新。随着XX银行业务的高速发展,原有平台已经满足不了目前的应用需求,而且有些版本老旧,给运维带来很多不便。基于上述原因,现决定构建全新的虚拟化平台,采用较新的vSphere 6.5版本,并考虑到未来的业务扩展。
现阶段规划5个分区,分别为生产业务区、管理区、网银Web区、网银App区、运维基础区。每个业务区承载着不同数量的虚拟机,并且随着业务发展不断增加。随着新业务不断增长要求,未来将逐步把小型机服务器上应用系统迁移到虚拟化平台,最终实现数据中心x86服务器的全部虚拟化。
本方案将根据用户现有虚拟化平台的现状和物理服务器进行评估,给出新数据中心虚拟化平台的详细设计,作为以后项目实施测试和验收的依据。
2 总体架构
XX银行虚拟化平台总体架构由86台主机组成,分别为生产业务区、管理区、网银Web区、网银App区、运维基础区构成,面向正式生产业务,由一个放在运维/基础区的vCenter统一管理。
每个业务区域之间是网络隔离的,但vCenter管理网络是相通的。
2.1 ESXi主机配置
2.1.1 硬件配置规格
2.1.2 BIOS设置
2.1.3 ESXi主机软件版本
Name: VMware ESXi 6.5 Update 2
2.1.4 配置NTP时间源
ESXi使用是UTC(Universal Time/Temps Cordonn 世界标准时间)时区,而且ESXi已经不支持修改时区。如果没有NTP服务器,可以手动调整ESXi主机时间。
安装ESXi主机后,立刻调整时间(未调整时间之前不能建立和迁移新虚拟机)。强烈建议统一配置NTP时间源,所有主机须与时间源同步。
2.1.5 ESXi主机命名规范
bkxx-esxi55-e<编号>
FQDN示例:bkxx-esxi55-e01.bkxx.cn,全小写。ESXi主机与vCenter服务器名称解析,加入XX银行为此项目搭建的DNS服务器(DNS服务安装于vCenter服务器)。
3 群集和资源池设计
3.1 VMware HA群集设计原理
至少2台以上ESXi主机组建为一个HA群集。虚拟机文件放置在由光纤存储组成的共享存储上。ESXi主机产生故障时,虚拟机自动在群集内其他可用的ESXi主机上重新启动。VMware HA为虚拟机中的运行提供快速计划外中断恢复和具有成本效益的高可用性。
VMware HA不需要在应用程序或虚拟机内安装任何特殊软件。HA群集中的所有虚拟机均受 VMware HA 保护。VMware HA要求虚拟机必须驻留在共享存储上。
VMware HA代理会在ESXi主机间相互通信,并监控群集内各台ESXi主机的活跃度。默认情况下,此通信通过每秒交换一次检测信号来完成。如果15 秒过去后仍未收到检测信号,而且 ping 不到该ESXi主机,则系统会声明该ESXi主机发生故障。
网络检测信号是确定主机状态的关键,数据存储检测信号使主机更加正确地判断管理网络不可达的状态。默认情况下,HA会选择2个数据存储心跳,这个选出的的数据存储在集群内所有的主机上有效。
如果连接服务器的物理网络交换机支持 PortFast(或等效)设置,请将其启用。此设置可防止ESX主机在执行冗长的跨树算法期间误认为网络已被隔离。
在虚拟化平台进入运行维护期后,如果需要执行可能会触发主机隔离响应的网络维护,建议首先禁用HA群集中的“主机监控”功能,以挂起 VMware HA。完成维护后,请重新启用“主机监控”。
虚拟机重新启动优先级用于设定在ESX主机发生故障后虚拟机的重新启动相对顺序。这些虚拟机在新主机上按顺序重新启动,首先启动优先级最高的虚拟机,然后是那些低优先级的虚拟机。建议为提供最重要服务的虚拟机分配较高的重新启动优先级。
3.2 集群和资源池的划分
群集为运行的虚拟机提供一个高可用性和冗余环境。虚拟机可以在以资源池为单位的范围内负载均衡,灵活调配。
根据数据中心网络和业务架构,每个业务区为一个独立集群,每个集群即为一个独立的资源池。生产区域共分为5个集群单元:管理区集群、业务区集群、网银Web区集群、网银App区集群和运维基础区集群,所有集群由运维基础区的vCenter统一管理调度。
3.3 群集接入控制策略设置
第一类 指定故障切换主机
使用“指定故障切换主机”,在群集中空置一台ESXi主机备用,指定它做为故障切换ESXI主机。则在ESXI主机发生故障时,VMware HA 将尝试在备用ESXI主机上重新启动其虚拟机。备用ESXI主机CPU和内存配置不得低于群集内的其他ESXI主机。
第二类 群集允许的主机故障数目
使用“群集允许的主机故障数目” ,VMware HA 允许指定数目的ESXI主机发生故障,同时可以确保群集内留有足够的资源来对这些主机上的虚拟机进行故障切换。此类HA规则适用于虚拟机CPU和内存耗用(或保留值)较平均的场景。目前,XX银行项目中采用此种群集设置规则,设置群集允许的主机故障数目为1。
计算插槽大小
插槽大小由两个组件(CPU 和内存)组成。CPU 的方法是选择已启动虚拟机上的 CPU 预留最大值。无CPU 预留,则默认值 256 MHz(使用 das.vmCpuMinMHz 更改)。内存的方法是选择已启动虚拟机的内存预留,然后再选择最大值(使用 das.slotMemInMB 更改)。
确定每台主机可以支持的最大插槽数目
用主机的 CPU/内存资源数除以插槽大小,得出最大插槽数目,计算群集允许的主机故障数目。
示例,下图中主机故障数目为1
第三类 预留的群集资源的百分比
可以将vSphere HA 配置为通过预留特定百分比的群集CPU 和内存资源来执行接入控制,用于从主机故障中进行恢复。
使用“预留的群集资源的百分比”接入控制策略,vSphere HA 可确保预留CPU 和内存资源总量的指定百分比以用于故障切换。
XX银行选择第二种“群集允许的主机故障数目”接入控制策略,值为“1”,即“允许1台主机出现故障”。
注:如果vCenter不可用,它不会影响到群集的现有配置。故障切换时没有vCenter加入,HA只是依赖vCenter配置和监视群集。
3.4 VMware DRS功能
VMware DRS监控群集内所有主机和虚拟机的 CPU 和内存资源的分布情况和使用情况。在给出群集内资源池和虚拟机的属性、当前需求以及不平衡目标的情况下,DRS会将这些衡量指标与理想状态下的资源利用率进行比较。然后,DRS会相应地执行虚拟机迁移(或提供迁移建议)。群集中首次启动虚拟机时,DRS 将尝试通过在相应主机上放置该虚拟机或提出建议来保持适当的负载平衡。
DRS 的自动化级别:
手动 :初始放置位置:显示推荐的主机。
迁移:显示迁移建议。
半自动:初始放置位置:自动。
迁移:显示迁移建议。
全自动:初始放置位置:自动。
迁移:自动执行迁移建议。
在目前设置下,考虑到虚拟机与驻留主机的固定配置关系,暂不启用DRS功能或者选择“手动”DRS方式。启用DRS功能,只需在群集配置中勾选启用DRS,以及配置相应规则。在正确规划和操作的情况下,DRS的配置不影响虚拟机的正常运行。
4 管理中心vCenter设计
管理软件vCenter是整个虚拟化平台管理控制的核心,考虑其考虑重要性和可管理性,我们设计把域控制器,vCenter服务器和数据库服务器分离,逻辑架构图如下:
4.1 安装vMA
4.2 用户、组、权限和角色
4.2.1 vCenter角色
4.2.2 vCenter服务器域用户组
4.2.3 vCenter角色与用户组关联
4.3 vSphere监控事件报警
5 虚拟化网络设计
6 存储规划
6.1 设备连接冗余设计
6.2 共享存储容量规划
6.3 存储命名规范
7 备份规划
7.1 vSphere Data Protection 具有优势
7.2 vSphere Data Protection 体系结构
8 虚拟机设计
8.1 安装和配置VMware Tools
8.2 虚拟机模板管理
8.3 虚拟机磁盘格式选择
8.4 虚拟机文件系统选择
8.5 虚拟机集群共享存储配置
该设计方案较详尽,因篇幅原因,后面的章节,有兴趣的朋友可以加关注,私信索要word版。