반응형
# 문제 발생한 태블릿 서버를 디스크 교체하는 동안 다운타임을 예상하여 임시로 늘리기
sudo -u kudu kudu tserver set_flag <tserver_address> follower_unavailable_considered_failed_sec <num_seconds>
# 태블릿 서버 중지
TS_UUID=$(sudo -u kudu kudu fs dump uuid --fs_wal_dir=<wal_dir>
--fs_data_dirs=<data_dirs>)
$ sudo -u kudu kudu tserver state enter_maintenance <master_addresses> "$TS_UUID"
# 해당 태블릿 서버에서 고장난 디스크 제거 & 디스크 복구
sudo -u kudu kudu fs update_dirs --force --fs_wal_dir=/wals --fs_data_dirs=/data/1,/data/2,/data/3
# 태블릿 서버 시작
sudo -u kudu kudu tserver state exit_maintenance <master_addresses> "$TS_UUID"
# ksck 로 클러스터 상태 확인
sudo -u kudu kudu kudu cluster ksck ${tablet_server_list}
# 다운타임 복구
sudo -u kudu kudu tserver set_flag <tserver_address> follower_unavailable_considered_failed_sec <original_value>
본 게시글은 참고용으로 작성한 글이니 실제 사용하시려는 분은 아래 공식 doc을 확인해주세요.
docs.cloudera.com/runtime/7.2.0/administering-kudu/topics/kudu-recovering-from-disk-failure.html
반응형
'장애 대응' 카테고리의 다른 글
Hadoop 디스크 fault 발생시 (0) | 2021.03.22 |
---|