故障现象
生产 2 节点 RAC(19.22),节点 2 异常宕机,重启后集群卡在 ora.storage 资源,启动超时,节点 2 无法加入集群,业务单节点运行压力飙升。
排查过程
查看集群日志
定位 GI 日志
cd /u01/app/grid/diag/crs/节点名/crs/trace/
grep -i "ora.storage" crsd.log # 发现超时与ASM挂载失败报错
手动启动 ora.storage(强制)
# 停止集群栈(节点2)
crsctl stop crs -f
# 修复磁盘组权限( grid 用户授权)
chown grid:asmadmin /dev/asm/*
chmod 660 /dev/asm/*
# 启动集群并强制加载 storage
crsctl start crs
crsctl start res ora.storage -init
验证集群状态
crsctl stat res -t # 所有资源ONLINE,节点2正常加入集群
原因分析
ora.storage 资源依赖异常:GI 集群栈中,ora.storage 负责管理 ASM 存储与磁盘组,19.22 版本存在 GI 资源启动顺序 BUG,导致节点重启后 ora.storage 无法初始化 ASM 磁盘组;
解决方法
更新补丁至19.23+ RU