본문 바로가기
IT운영/재해복구

[재해복구시스템 운영] 가용성 구현 절차 (3) 현황 분석

by Torobeen 2023. 4. 5.
반응형

타이틀

 

 

(1) 가용성 요구 분석

[재해복구시스템 운영] 가용성 구현 절차 (1) 요구 분석

 

(2) 가용성 계획 수립

[재해복구시스템 운영] 가용성 구현 절차 (2) 계획 수립

 

(3) IT 서비스 현황 분석

1) IT 서비스 자원 식별

IT 서비스 자원이란 서버 등의 물리적 자원과 애플리케이션 등 서비스를 제공하기 위한 구성 요소들을 말한다.

 

I. 자산 관리 대상 파악

- 하드웨어 : 서버, 스토리지, 백업 장비
- 네트워크 : L4 스위치, 라우터, VPN, 방화벽
- 소프트웨어 : OS, DBMS, 개발 툴, 미들웨어
- 시스템 : ERP, BPM, WMS, MES, Sales Portal, 메일서버

 

IT 자산은 고가용성, DR 및 DB 백업에 대해서 계속 고려하며 비즈니스 연속성을 우선시해야 한다.

 

II. IT 자산 관리 현황 분석

IT 자산은 자원의 사용량 현황 및 설치 장소, 이중화 방법 등에 대한 속성 데이터를 기반으로 관리한다.

 

- 업무 시스템 현황 : 업무 시스템 현황 및 각 시스템 간 상관관계를 분석하고, 업무별 운영 현황을 파악한다.
- 시스템 현황 : 시스템 소프트웨어가 어떻게 구성되었는지 파악하고, 시스템 사양을 확인한다.
- 데이터베이스 현황 : 데이터베이스의 종류와 일일 아카이브 용량, 피크 시 용량, 아카이브 적용 여부 등을 파악한다.
- 스토리지 현황 : 스토리지 용량 및 RAID 구성 현황, 캐시와 드라이브의 용량 및 개수를 파악한다.
- 성능 현황 : CPU, 메모리, 디스크의 피크 시 사용량과 지연 속도 등을 분석한다.
- 네트워크 현황 : 통신 장비 종류와 본사 및 지점 사이의 회선 사용 현황, 그리고 LAN, WAN 구성 현황을 파악한다.
- 백업 시스템 현황 : 백업 동작 유형과 백업 주기, 백업 시 영향도, 백업 용량 등을 파악한다.
- 서버 환경 현황 : 서버의 제조사와 모델명, 설치 장소, CPU 및 메모리 용량, 운영 체제 등을 확인한다. 이중화 여부와 이중화 방안 및 백업 서버, 장소, 위치, 소프트웨어 등을 파악한다.

 

2) IT 서비스의 취약성 및 위험 분석

IT 시스템의 위험 요소에는 서버의 물리적인 장애 및 애플리케이션의 논리적인 장애 등이 있으며, 이를 통해 IT 서비스의 취약성 및 위험 요소들을 분석할 수 있다.

취약성이란 IT 자산에 부정적인 영향을 줄 수 있는 IT 자산의 속성이고, 위험(Risk)이란 시스템의 자산 가치, 취약성, 위협 등을 포괄한 개념이다.

위험을 분석하기 위해서는 위협 분석(Threat Analysis)을 수행하는데, 이는 IT 자산에 어떠한 위협 요소가 있는지 알아내고 각 위협의 발생 빈도와 영향도 등을 분석한다.

 

I. IT 자산의 위협 요소

- 자연재해 : 재해, 정전
- 의도적 공격 : 하드웨어 파손, 위조나 위장을 통한 해킹 기법
- 비의도적 휴먼 에러 : 조작 미숙, 조작 실수, 부주의로 인한 데이터 누출
- 시스템 결함 : 운영체제 결함, 프로그램 결함, 과부하, 하드웨어 고장

 

II. IT 자산의 취약성 요소

- 물리적 자산 : 모니터링 시스템, 출입통제 시스템
- 네트워크 자산 : 라우터, 스위치, 방화벽
- 시스템 자산 : 서버
- 애플리케이션 자산 : 웹서버, 미들웨어, DBMS, 개발 툴
- 자료 및 정보 : 데이터, 문서

 

III. IT 자산의 취약성 분석

- 설문 : 간략한 방법을 통해 핵심이 되는 사항을 수집하여 활용하는 방법으로,  많은 인원이 참여할 수 있음
- 면담 : 필요 인원으로 국한하여 중요한 자료를 수집하기에 좋은 방법으로, 수집된 자료에 대해 즉각적인 피드백이 가능함
- 기존 자료 수집 : 다량의 데이터가 필요할 때 사용하며 수집되지 않은 데이터는 설문이나 면담을 통해 보충 가능
- 육안 관찰 : 객관적인 관찰 방법으로서 확인할 수 있는 사항에 대해 적용하기 좋으므로, 외부적으로 확인이 가능한 시설의 현황이나 출입 현황 시스템 등에 적절

 

도출된 내용을 바탕으로 위험 수준을 산정하여, 기업에 영향을 미치는 요인에 대해 분석해야 한다. 위험이 현실화되어 사고가 발생할 경우, IT 서비스에 미치는 영향에 더해 기업에 미치는 영향까지 상세하게 분석한다. 위험 수준을 산정하는 방법은 위험 정도를 상, 중, 하로 나누거나 전문가의 판단을 통해 1~10단계 등으로 나누는 방법과 주관적으로 추정하는 방법이 있다.

또 정량적인 방법으로 위험 수준을 산정할 수도 있는데, 정량적 방법이란 사고가 발생할 경우 예상되는 손실을 비용으로 표시하는 방법을 말한다. 과거 자료를 근거로 한 통계적 분석, 수학 공식 접근법, 확률 분포(추정법, 델파이법, 순위법 등) 접근법 등이 있다.

 

3) 서비스별 업무 영향력 분석

서비스 연관 관계, 서비스 업무 중요도 등을 종합적으로 분석하여 핵심 업무를 식별한다.

 

- 업무 프로세스의 계층적 관계와 주요 업무 프로세스를 위주로 식별한다. 또한 업무 프로세스 간 상호 연관성을 통해 업무 간 선후 관계나, 참조 관계 등을 분석한다.

 

- 재해 유형별 발생 빈도나 발생 일수를 파악하고 재해 시 업무 프로세스 중단에 따른 손실을 평가한다. 업무 중단에 따른 주요 손실은 고객 서비스와 직결된 프로세스에서 발생한다.

 

- 업무 중요성의 우선순위 및 복구 대상의 업무 범위를 설정하고 중요도 레벨에 대해 관리자들과 협의한다. 업무 연속성과 업무 복구 및 재개를 위해 필요한 주요 문서를 기록하고 관리한다. 이 중에는 업무 의존도 조사서, 업무 상관도 조사서 등이 있다.

 

- 주요 업무 프로세스별 복구 목표 시간을 설정한다. 우선순위를 통해 재해 시 우선 복구해야 할 대상을 그룹화하고, 그룹에 따른 RTO(업무 중단 허용 시간)을 설정한다. 또한 업무 수행 시 수집 및 기록되는 데이터의 중요성을 근거로 하여 RPO(업무 손실 허용 시간)을 설정한다. 이 복구 대상에는 IT 시스템 뿐만 아니라 매뉴얼, 계약서, 채권/구매 관련 서류와 같은 중요한 문서들도 포함된다.

반응형