Lustre集群运维-基于zfs集群的主备模式切换
lustre版本:2.15.4
1. 概述
Lustre没有高可用机制,当集群出现故障时,需要运维人员手动处理。本文详细介绍基于zfs的主备容灾模式的集群出现故障后(比如mgs服务出现故障),如何手动进行主备切换。
2. 主节点
2.1. 关闭mds服务
umount /lustre/mdt/mdt0
2.2. 导出mdtpool
zpool export mdtpool
2.3. 检查mdtpool是否已经被导出
zpool list
- 以上是模拟主节点中mgs服务由于某种原因导致其无法正常工作。如果主节点出现故障,比如出现断电,可以直接忽略以上步骤。
- 如果在
zpool list列出的pool中没有mdtpool,说明已经正确从主节点中导出mdtpool。 - mdtpool必须可以通过网络在主备节点中共享,否则上述操作无法执行。
3. 备节点
3.1. 导入mdtpool
zpool import -o cachefile=none mdtpool
注:mdtpool只能同时被一个节点导入。
3.2. 检查mdtpool是否已经被导入
zpool list
如果在列出的pool中出现mdtpool,说明已经正确导入mdtpool。
3.3. 启动mds服务
mkdir -o /lustre/mdt/mdt0
mount -t lustre mdtpool/mdt0 /lustre/mdt/mdt0 -v