로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS마이닝 챔피언쉽 > 체험기
[14회] SAS분석챔피언십 후기 - 홍익대학교 산업공학과 임지원 2016.10.18
MYSAS 1066 0
http://www.mysas.co.kr/sas_mining/d_interview.asp?b_no=7039&gotopage=1&con=subject&keyword=&cmd=content&bd_no=10&gubun=

[입선] 홍익대학교 산업공학과 임지원 (SA200)

‘SAS분석챔피언십’. 처음에는 데이터에 대한 관심으로만 시작했던 공모전이었습니다. 마음이 맞은 팀원들이 있었기에 지금 이 소감을 작성하고 있는 것 같습니다.
 생소한 의학적 지식이 요구되는 약 4,200만개의 데이터로 3개월 동안 장기 프로젝트를 진행하면서, 가장 중요한 것은 ‘주제 파악’과 ‘데이터 전처리 작업’이라는 것을 알게 되었습니다.
<주제파악>
 분석에 앞서 생소했던 의료데이터를 읽는 것이 필요했기에 부족한 의학지식을 공부했습니다. 의학논문과 건강보험심사평가원의 자료를 바탕으로, 명세서로 되어있는 데이터를 읽는 방법부터, 질병의 종류와 각 칼럼의 값들이 의미하는 내용을 파악했습니다.
<분석노드 학습, 그에 따른 전처리 작업>
 다음으로 데이터 분석에 사용되는 모형들에 대해 학습했습니다. 공모전을 시작하며 수강했던 'SAS School'교육과 SAS E-Miner 가이드북을 기초로 하여 데이터마이닝 관련서적을 참고했습니다. 질병 간의 대응짝을 찾는 것부터 동반 질병 발생의 위험률 예측을 최종 주제로, 각 주제에 맞는 분석기법을 선정하고, 정제되지 않은 데이터를 바탕으로 데이터 전처리 작업에 몰두했습니다. 서버 상의 효율화를 위해 사용되지 않는 칼럼들과, 데이터상의 오류로 발견되는 이상치를 제거했습니다.
 각 주제마다 사용되는 분석기법에 맞게 SAS EG를 통해 주제별 데이터 셋을 만드는 작업을 했습니다. 분석기법마다 입력되는 데이터의 형태가 다르기 때문에, 데이터 형 변환에 초점을 맞추어 작업했습니다. 연관성분석, BN, 로지스틱회귀분석, 의사결정트리 등 사용된 대부분의 기법들은 binary, interval 입력변수를 사용해야 했기에, nominal변수로 되어있는 칼럼들을 이산형 변수로 변환하며 유의미한 값을 만들어갔습니다.
<결론도출>
 단순히 데이터 셋에서 질병발생의 선후관계 및 발생빈도수를 바탕으로 하는 직관적인 판단의 대응짝을 이루었고, 연관성분석 및 BN노드를 통해 질병네트워크를 그렸습니다. 결과로 흥미롭고 관계가 높다고 판단되는 대응짝을 대상으로 예측모형들을 사용하여 연구결과를 내었고 제출을 하자는 목적을 이루게 되었습니다.

 프로젝트 기간 중 거의 모든 시간을 데이터 전처리작업을 하는데 사용했던 것 같습니다. 실제로 SAS분석 챔피언십의 Q&A가 주제의 답을 찾는데 많은 도움이 되었습니다. 또한, MY SAS페이지에서 E-Miner의 노드를 기초적으로 학습하는데 유용했습니다.
정말 대학생활의 마지막이라는 도전으로 했던 경험인데 뜻 깊은 결과를 받게 되어 뿌듯합니다. 진행 도중 막바지에 시간이 부족해서 밤샘도 많이 하며 힘들었지만, 끝까지 포기하지 않고 제출하자는 목표를 함께 해준 팀원들이 있었기에 가능했던 것 같습니다.

 
  
 
 [15회] SAS분석챔피언십 후기 - 계명대학교 경영정보학과 최인혁
 [14회] SAS분석챔피언십 후기 - 홍익대학교 산업공학과 김원겸