내부정보 유출 시나리오와 Data Analytics 기법을 활용한 내부정보 유출징후 탐지 모형 개발에 관한 연구
박현출, 박진상, 김정덕
Vol. 30, No. 5, pp. 957-966, 10월. 2020
DOI: 10.13089/JKIISC.2020.30.5.957
Keywords
Internal information leak, scenario, data analytics, Anomaly Detection, risk indicators
Abstract
최근 산업기밀보호센터의 통계에 의하면 국내 기밀유출 사고의 경우 전·현직 직원에 의해 기업기밀유출의 약 80%를 차지하고 이러한 내부자에 의한 정보유출 사고의 대다수가 허술한 보안 관리체계와 정보유출 탐지기술의 이유로 발생하고 있다. 내부자의 기밀유출을 차단하는 업무는 기업보안 부문에서 매우 중요한 문제이지만 기존의 많은 연구들은 내부자에 의한 유출위협보다는 외부 위협에 의한 침입에 대응하는데 초점이 맞추어져 있다. 따라서 본 논문에서는 기업 내에서 발생하는 다양한 비정상 행위를 효과적이고 효율적으로 탐지하기 위해 내부정보 유출 시나리오를 설계하고 시나리오에서 도출 된 유출 징후의 핵심 위험지표를 데이터 분석(Data analytics)함 으로써 정교하지만 신속하게 유출행위를 탐지하는 모형을 제시하고자 한다.
Citation
[IEEE Style]
박현출, 박진상 and 김정덕, "A Study on Development of Internal Information Leak Symptom Detection Model by Using Internal Information Leak Scenario & Data Analytics," Journal of The Korea Institute of Information Security and Cryptology, vol. 30, no. 5, pp. 957-966, 2020. DOI: 10.13089/JKIISC.2020.30.5.957.
[ACM Style]
박현출, 박진상, and 김정덕. 2020. A Study on Development of Internal Information Leak Symptom Detection Model by Using Internal Information Leak Scenario & Data Analytics. Journal of The Korea Institute of Information Security and Cryptology, 30, 5, (2020), 957-966. DOI: 10.13089/JKIISC.2020.30.5.957.
본 논문은 관련 분야의 컨설턴트 입장에서는 굉장히 매력적이다. ("II. 관련 연구"에서의 분석처럼) "데이터 분석"을 통해 보안 침해 사고를 탐지할 때, 통계와 기계 학습(machine learning)을 활용한다는 점은 최신 경향이 어느 정도 고려된 것으로 느껴진다.
다만 구체적인 정보가 많지 않다는 점은 아쉽다(Article 내에서 담아내기 어려운 제약으로 인한 것 같다). 물론 "IV. 연구 검토"에서 프로젝트 수행 사례가 인용되고 있기는 하다. 하지만 (Key) Risk Indicator의 예시가 너무나 제한적이고(일반적으로는 "Fig. 4"와 같은 목록을 도출하기도 쉽지 않다), 군집("Fig. 5" 중 Risk Group)을 이룬 징후자들("Table 3") 중 A연구원 외 다른 내부자의 경우는 어떠한 특징이나 차이가 있었는지 알기 어렵다. 또한 "Fig. 5"를 보면 기계 학습으로는 supervised learning model 중 SVM(support vector machine)을 적용한 것으로 추정되는데, 나처럼 기계 학습을 잘 모르는 사람이더라도 모형에 관한 궁금증은 얼마든지 발생할 수 있을 것 같다.
사실 비슷한 업무를 다룬 경험이 있어서 본 연구에 대해 알고 싶은 부분이 많지만, 적어도 다음과 같은 점은 (개인적으로) 충분히 의미가 있었다고 생각한다.
- 선행 연구 분석. 관련 연구들을 살펴볼 때, 저자는 나와 사전 지식이나 관점의 차이가 있을 수 있기 때문에, 나열된 연구들에는 보다 많은 정보가 있을지도 모른다고 생각했다.
- 데이터 분석(data analytics) 방법의 분류 및 정의. 본 연구에서는 "Rule-based method", "Statistical-based method" 및 "Machine learning-based method"로 구분하여 정리하고 있다.
- 내부정보 유출징후 탐지 모형(개요) 정의. 본 연구에서 정의된 프로세스, 그 중에서도 "데이터 수집 및 분석환경 구축"의 경우는 굉장히 새로운 것은 아닐 수 있지만, 전처리 후 분석 데이터베이스로 적재하는 단계는 기존의 Rule-based method와 구분되는 절차가 아닐까 생각한다.
논문의 마지막 부분에서는 향후 연구 과제로서 "데이터 분석 역량이 부족할 수 있는 조직을 위한 모델"과, "치밀한 유출행위까지도 탐지 가능한 알고리즘 개발"을 제시하고 있다. 개인적으로는 모형 상 마지막 단계인 포렌식 관련 절차와 관련한 추가 연구에도 관심이 있다. 후속 연구가 지속되어 공유되기를 기대해본다.