‘노후장비’ 아닌데 손상…일일 육안점검에도 사전예방 못해

일주일새 바뀐 장애 원인도 논란…행안부 “분석결과 신뢰 높이고자 시간 소요”

전문가들 “장애 예측장치 미흡…세부 원인 규명 보고서 내놔야”

지방행정전산서비스 장애 원인 및 대책 브리핑
지방행정전산서비스 장애 원인 및 대책 브리핑

(서울=연합뉴스) 류영석 기자 = 25일 오후 정부서울청사에서 열린 지방행정전산서비스 장애원인 및 향후 대책 브리핑에서 송상효 TF 민간팀장이 발표를 하고 있다. 2023.11.25
ondol@yna.co.kr

(서울=연합뉴스) 양정우 김은경 기자 = 정부가 최근 행정전산망 먹통 사태의 원인을 네트워크 장비인 ‘라우터’의 포트 불량에 따른 것으로 최종 결론을 내면서 일주일이나 넘게 이어진 전산망 사고 원인 분석이 일단락됐다.

정부 발표대로라면 라우터 장비의 물리적 손상으로 인해 대규모 국가 전산망 마비 사태가 벌어졌다는 것인데, 매일 점검하는 장비인 하드웨어의 관리가 부실했던 것 아니냐는 논란이 제기된다.

정부는 전산망 사고 복구를 하던 초기에는 트래픽을 분배해주는 네트워크 장비인 ‘L4스위치’의 오류를 장애 원인으로 추정한 바 있다.

하지만 분석 결과 L4 장비가 아닌 라우터의 포트 이상으로 확인되면서 사고 초기 원인을 제대로 찾지 못한 채 ‘헛다리’를 짚으며 시간을 지체한 것 아니냐는 지적도 나온다.

◇ ‘매일 육안점검’에도 못 찾은 라우터 손상…’관리 부실’ 논란 전망

정부는 평일에 전국의 행정전산망을 마비시킨 원인을 네트워크 장비인 ‘라우터’의 물리적 손상에서 찾았다.

이 라우터는 전산망의 통합검증 서버와 연결된 장비다. 패킷(데이터 묶음)을 서버로 전송할 때 용량이 큰 패킷이 유실되는 현상이 발견됐고, 그 원인을 라우터 장비의 케이블을 연결하는 포트 중 일부의 이상에서 찾았다.

쉽게 말하자면 소프트웨어적인 문제가 아니라, 전원 콘센트에 코드를 꽂았는데도 전기가 통하지 않은 하드웨어적인 문제가 있었다는 얘기다.

이상민 장관 '지방행정전산서비스 개편 TF 2차 회의' 주재
이상민 장관 ‘지방행정전산서비스 개편 TF 2차 회의’ 주재

(서울=연합뉴스) 이상민 행정안전부 장관이 24일 오후 ‘지방행정전산서비스 개편 TF 2차 회의’를 주재하고 있다. 2023.11.24 [행정안전부 제공. 재판매 및 DB 금지]

행안부 ‘지방행정전산서비스 개편 태스크포스(TF)’ 공동 팀장인 숭실대 송상효 교수는 “패킷이 유실됨으로써 통합검증 서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 됐고, 지연이 중첩돼 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것”이라고 설명했다.

해당 라우터는 2016년 미국 시스코에서 도입한 제품으로, 사용 계약이 만료되지 않은 제품이다. 국내 업체인 대신정보통신이 관리해왔다.

전산 시스템을 총괄 관리해온 행안부 국가정보자원관리원이나 유지·보수업무를 맡아온 업체에서 라우터 손상을 사전에 감지했더라면, 전산망 마비라는 초유의 사태까지 이어지지는 않았을 것이라는 지적이 나온다.

이와 관련해 국가정보자원관리원의 이재용 원장은 “매일 전산실 장비를 육안으로 체크하지만, 미처 예상하지 못한 것은 잡아내기가 어렵다. 제조사와 협의해서 선제적으로 (문제를) 발견하고 모니터링할 수 있는 체계를 만들겠다”고 했다.

◇ ‘L4스위치 이상→라우터 포트 손상’…달라진 장애 원인 ‘왜’

전산망 장애 원인이 일주일 사이를 두고 ‘L4스위치’ 오류에서 ‘라우터 포트 손상’으로 바뀐 배경도 궁금증을 낳는다.

정부는 지난 19일 전산망 완전 정상화를 발표하면서 장애 원인을 다른 네트워크 장비인 ‘L4스위치’의 이상으로 추정한 바 있다.

당시 서보람 행안부 디지털정부실장은 “장애 원인으로 L4 장비에 문제가 생겼다는 걸 발견했는데, 그 안에 어떤 부분이 실제로 문제를 일으켰는지에 대해서는 저희가 조금 더 면밀한 조사를 거쳐서 확정을 할 수 있을 것 같다”고 말했다.

지방행정전산서비스 장애 관련 브리핑하는 행안부 차관
지방행정전산서비스 장애 관련 브리핑하는 행안부 차관

(서울=연합뉴스) 류영석 기자 = 25일 오후 정부서울청사에서 열린 지방행정전산서비스 장애원인 및 향후 대책 브리핑에서 고기동 행정안전부 차관이 발표를 하고 있다. 2023.11.25

전산망 사고가 나기 전날인 16일 L4장비 운영체제(OS) 업데이트 작업이 있었는데, 이후 L4장비에 문제가 생겼고, 업데이트 이전 상태로 되돌리는 롤백(roll back) 작업을 해도 장애가 나타나 L4장비 교체를 통해 시스템을 복구했다는 얘기였다.

하지만 서 실장은 이날 브리핑에서 “(19일) 브리핑을 하면서 원인은 L4로 추정된다고 말씀드리며 ‘추정된다’, ‘판단된다’고 했지 100퍼센트(%)라는 것은 아니었다. 가능성이 높다고 했던 것”이라고 이전과 다른 입장을 보였다.

그러면서 “(원인을) 찾는 과정에서 나온 게 라우터 모듈이었다고 보면 된다”고 덧붙였다.

이 때문에 사고 원인을 L4장비 장애에서 찾다가 장비 교체에도 불안정한 요소가 완전히 해소되지 않자 근원적인 문제를 찾는 데 시간이 더 걸릴 수밖에 없었고, 장애 원인 분석결과 발표도 일주일이나 늦어진 것 아니냐는 의문이 제기된다.

송상효 교수는 “L4 장비를 경유하는 네트워크 대역폭을 변경하는 경우 등 다양한 시나리오 상황에서 네트워크 영역에서의 접속 지연 및 이상 유무를 확인했으나, 라우터 장비의 불량 외에는 다른 이상 현상을 발견할 수 없었다”고 말했다.

이어 “결과에 대한 재확신을 가지기 위해 당초 장애 원인으로 지목됐던 L4장비 및 라우터를 이용해 장애 당시와 유사한 환경을 구현해 검증했고, 그 결과 동일하게 라우터에서 장애를 유발하는 현상이 재현됐다”고 했다.

송 교수는 “확인된 사실을 신속히 발표해야 했으나, 결과에 대한 신뢰를 높이기 위해 명확한 검증과정이 필요했고 이에 따라 상당한 시간이 소요됐다”며 양해를 구했다.

◇ “전문가도 납득할 보고서 내야…장애 예측장치 미흡” 지적

정보통신(IT) 전문가들은 분석 결과를 두고 미흡하다는 반응을 내놓으면서 장애에 신속 대응할 수 있는 방안이 시스템 개발 때부터 고려돼야 한다고 강조했다.

김용대 한국과학기술원(KAIST) 전기 및 전자공학부 교수는 “라우터가 원인이라는 이번 발표조차 맞는 건지 의문”이라며 “미시적인 부분을 콕 집어서 이게 문제라고 할 때가 아니라, 제대로 된 규명을 내놔야 할 때 아닌가 싶다”고 했다.

복잡한 시스템에서 특정한 부분이 원인이 돼 이번 사태가 일어난 것이라는 정부 해명을 납득하기 어렵다는 얘기다.

그는 “‘이게 문제’라고 단정적으로 얘기할 거 아니라, 전문가들도 납득할 수 있는 세부적인 보고서를 내놔야 한다”며 “근본적인 대책 마련은 그 이후에나 이뤄질 수 있을 것”이라고 말했다.

김영갑 세종대학교 정보보호학과 교수는 “소프트웨어든 하드웨어든 장애를 미리 예측할 수 있는 장치가 있어야 하는데, 미흡했던 것 같다”며 “장애가 일어난 후에라도 어디에서 시스템 이상 일어났는지 감지할 수 있어야 하는데, 그런 장치가 갖춰지지 않은 것”이라고 지적했다.

김 교수는 “현재는 시스템 개발 시 초점이 ‘기능 구현’에만 맞춰져 있는데, 장애가 발생했을 때 대처할 수 있는 방안 또한 개발 때부터 고려해야 한다”며 “사태가 일어난 후 대응책을 마련하기보다, 사업을 공고할 때부터 ‘대응책 마련’을 기본 요건으로 넣어 신속하고 효과적인 대응이 가능하게 해야 할 것”이라고 강조했다.

eddie@yna.co.kr

이 기사에 대해 어떻게 생각하시나요?
+1
0
+1
0
+1
0
+1
0
+1
0

댓글을 남겨주세요.

Please enter your comment!
Please enter your name here