主从复制不是灾备,仅是高可用基础;真正灾备需满足异地、离线、可验证三条件,须依赖物理备份+xtrabackup+binlog归档,并定期演练验证。
很多人把 MySQL 主从同步当成“灾备”,其实它连 RPO=0 都做不到:网络抖动、主库崩溃未刷盘、从库延迟都可能导致数据丢失。真正的灾备必须满足异地、离线、可验证三个条件。
实操建议:
binlog_format 必
ROW,否则 DDL 或非确定性函数会导致从库数据不一致read_only=ON 和 super_read_only=ON,防止误写入污染复制链路pt-heartbeat 或 SHOW REPLICA STATUS 中的 Seconds_Behind_Master(注意:MySQL 8.0.22+ 已改名 Seconds_Behind_Source)持续监控延迟,超过 60 秒应告警逻辑备份(mysqldump)恢复慢、无法精确到秒、不支持大库(>100GB 易超时或锁表),而物理备份(如 xtrabackup)配合 binlog 流式归档,才能实现 RPO
关键配置与陷阱:
xtrabackup 全量备份需在低峰期执行,并用 --no-lock(仅适用于 InnoDB 且无 DDL);否则必须加 --lock-ddl,否则备份期间 DDL 可能导致不一致binlog 必须开启 log_bin、expire_logs_days=7(至少保留 7 天),并用 mysqlbinlog --read-from-remote-server 实时拉取到异地存储(如 S3 / OSS)sha256sum backup_20260124_0200.xbstream > backup_20260124_0200.sha256,避免介质损坏后才发现不可用90% 的灾备失败发生在“第一次真正切换时”——因为备份没校验、权限缺失、时区/字符集不一致、或者 my.cnf 中漏配 innodb_log_file_size 导致启动失败。
最低成本验证方式:
binlog 到隔离环境,跑 SELECT COUNT(*) 对比主库关键表行数(误差 > 0.1% 即告警)root;连接串中显式指定 time_zone='+00:00' 和 character_set_server=utf8mb4
xtrabackup --prepare --dry-run 提前暴露日志文件缺失问题主库到灾备中心的链路常有丢包、带宽限速、防火墙重置连接。直接 rsync 或 scp 传输备份会中断即失败,必须设计容错传输层。
推荐组合方案:
rclone 同步到对象存储,配置 --transfers=4 --retries=10 --low-level-retries=20,失败自动重试且支持断点binlog 归档进程用 systemd 管理,启用 Restart=on-failure 和 StartLimitIntervalSec=600,防止单次崩溃导致归档停滞ls -t /backup/binlog/*.00000* | head -n1 获取最新位点,再对比远程 SHOW BINARY LOGS 结果,跳过已存在文件灾备最易被忽略的不是技术,而是“谁在什么时候触发哪一步”。没有明确的《灾备切换 SOP》和每季度一次的无通知演练,再好的架构也只是纸面 RTO。