장애 대응

Kudu 디스크 fault 발생시 장애 처리 방법

Sencia 2021. 3. 22. 15:48
반응형
# 문제 발생한 태블릿 서버를 디스크 교체하는 동안 다운타임을 예상하여 임시로 늘리기 
sudo -u kudu kudu tserver set_flag <tserver_address> follower_unavailable_considered_failed_sec <num_seconds>

# 태블릿 서버 중지 
TS_UUID=$(sudo -u kudu kudu fs dump uuid --fs_wal_dir=<wal_dir> 
--fs_data_dirs=<data_dirs>) 
$ sudo -u kudu kudu tserver state enter_maintenance <master_addresses> "$TS_UUID"

# 해당 태블릿 서버에서 고장난 디스크 제거 & 디스크 복구 
sudo -u kudu  kudu fs update_dirs --force --fs_wal_dir=/wals --fs_data_dirs=/data/1,/data/2,/data/3

# 태블릿 서버 시작 
sudo -u kudu kudu tserver state exit_maintenance <master_addresses> "$TS_UUID"

# ksck 로 클러스터 상태 확인  
sudo -u kudu kudu kudu cluster ksck ${tablet_server_list} 

# 다운타임 복구 
sudo -u kudu kudu tserver set_flag <tserver_address> follower_unavailable_considered_failed_sec <original_value>

 

본 게시글은 참고용으로 작성한 글이니 실제 사용하시려는 분은 아래 공식 doc을 확인해주세요. 

docs.cloudera.com/runtime/7.2.0/administering-kudu/topics/kudu-recovering-from-disk-failure.html

반응형

'장애 대응' 카테고리의 다른 글

Hadoop 디스크 fault 발생시  (0) 2021.03.22