로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS마이닝 챔피언쉽 > 체험기
[14회] SAS분석챔피언십 후기 - 연세대학교 응용통계학과 조정경 2016.10.18
MYSAS 651 0
http://www.mysas.co.kr/sas_mining/d_interview.asp?b_no=7036&gotopage=1&con=subject&keyword=&cmd=content&bd_no=10&gubun=

[입선] 연세대학교 응용통계학과 조정경 (SA237)

안녕하세요. 제 14회 SAS 분석 챔피언십에서 입선을 수상한 SA237 팀장 조정경이라고 합니다.
이번 공모전의 목적은 크게 2가지가 있었습니다. 첫째, 한국인의 질병 네트워크를 그리고 둘째, 그 질병 네트워크를 기준으로 몇 가지 합병증 집단을 선정하여 동반 질병의 위험율을 예측하는 모형을 만드는 것이었습니다. 저희 팀은 7월 초부터 8월 말까지 두 달의 공모전 기간 중 한 달은 데이터를 탐색하고 네트워크를 어떻게 그릴지 아이디어를 모았고, 8월 초부터 중후반까지 네트워크를 만들 데이터셋을 구성하고 여러 종류의 네트워크를 만들었습니다. 마지막 1-2주는 예측모형에 넣을 독립변수, 파생변수를 만들어 머신러닝을 이용해서 예측모형을 구축했습니다. 통계학 전공자로서 수행했던 과제 중에 예측모형을 만들어야 했던 적은 많았지만, 네트워크를 구축해야 했던 때는 한 번도 경험한 적이 없었기에 상당히 도전적이었습니다. 특히나 네트워크 내에서도 순서를 고려하는지 여부, 단순연관성인지/통계적 관련성 인지에 따라 네트워크를 세분화해야 했었습니다. 때때로 저희가 정답을 찾아가고 있는지 확실치 않은 상황이었지만 최대한 논리적인 틀 안에서 과제를 수행하고자 노력했기에 합리적 근거가 있는 결과물을 만들어 낼 수 있었다고 생각합니다. 이 과정을 통해 제가 경험한 몇 가지 느낀 점을 나누고자 합니다.

1. 시작이 어렵습니다.

건강보험심사평가원의 약 5천만 건에 해당하는 빅데이터는 상당히 압도적입니다. 또한, 네트워크를 그리는 과제는 나름 간단한 것으로 보이지만 처음 접했기에 생소했습니다. 도대체 어떻게 접근해야 할지 모르실 때는 SAS Visual Analytics를 이용해서 변수 하나씩 막대그래프라도 그려보기 추천합니다. 남자가 많은지 여자가 많은지/ 어떤 질병이 많은지 등등 간단한 기초통계로 데이터의 구조를 파악해볼 수 있었습니다. 또는 해당 데이터를 잘 알만한 전문가를 찾아가 자문을 구하는 것도 한 방법이라고 생각합니다.

2. 데이터 탐색결과에 합리적 의심을 해보시길.

가령, 저희 데이터는 여러 연령대 중 노인이 가장 많이 나왔었습니다. 하지만, 그 결과는 노인 환자가 다른 연령대 환자들보다 여러 번 병원에 찾아갔었기 때문에 많이 입력된 것이었습니다. 1인당 중복 질병이 없는 데이터를 만들었을 때 청장년 층이 가장 많았던 것으로 기억합니다. 1인당 가공데이터로 할지 아니면 원래 데이터로 분석할지는 여러분의 판단 하에 달렸습니다.

3. 주어진 과제 외에 여러분 만의 특별한 분석을 추가하면 좋습니다.

저희의 경우는 전체 네트워크 외에도 연령별, 성별 네트워크도 그렸고, 각 집단간의 의미 있는 차이점을 발견할 수 있었습니다. 이처럼 다른 팀들과 약간의 차별점을 주는 것도 좋다고 생각합니다.

4. SAS 프로그램을 다루어 보신 분이 작업하는데 더 수월하실 것 같습니다.

당연한 얘기일수도 있지만 이번 공모전을 통해서 느낀 것은 SAS를 거의 몰랐다면 정말 난감했을 것 같다는 것입니다. 한 번이라도 수업, 프로젝트를 통해 SAS Studio나 SAS E-Miner를 돌려보신 분이 하셔야 그래도 할만한 도전이 될 것 같습니다. SAS School에서는 개괄적으로 배우기에 너무 큰 기대를 하지 않는 게 좋을 것 같습니다.

5. 직접적으로 평가를 받게 될 분석보고서 정리가 가장 중요합니다!

이 부분이 저희 팀에서 가장 아쉬웠던 부분입니다. 비록 많은 생각과 노력을 거쳐 완성된 네트워크와 예측모형 및 활용방안이 있었지만 그 모든 노력의 과정을 담아낼 분석보고서를 작성하는 것에 시간적 여유가 없었습니다. 저희가 어떤 식으로 생각을 해서 이 결과가 나왔는지, 그래서 이 결과의 의미는 무엇인지 모든 과정을 다 담아내고 싶었으나 시간상 분석결과를 붙여 넣기 바빴습니다. 결과만 첨부하는데도 오래 걸리는 과정이니 최소 마감 3일 전에는 시작하시길 제안합니다.

이 외에 주제정의서 필독, Q&A 상주, OT 참가, 시간관리, 역할배분 등등 다들 잘 하실 것 같아 따로 언급하지 않고자 합니다. 여기까지 읽어주신 분들 감사하며, 제 작은 개인적인 팁들이 여러분이 후에 참가하실 공모전에 작은 도움이 되었으면 좋겠습니다. 한편, 졸업 전 체계적인 네트워크 과제를 수행할 수 있게끔 문제를 구성해주신 SAS 담당자 분께 감사 드립니다. 머리가 지끈지끈 아팠지만 때때로 무릎을 탁 치면서 ‘아하’할 정도로 지적 자극이 많이 되었던 공모전이었습니다. 마지막으로, 그 누구보다도 같이 함께 일한 이지수 팀원에게 고맙고 정말 대단하다고 말하고 싶습니다. 항상 논리적인 생각으로 분석을 합리적인 방향으로 가게끔 도왔고, 분석의 기초인 데이터셋 정제 및 구성을 담당하여 정말로 일을 잘 수행해냈습니다. 이 친구와 같이 일한 것을 진심으로 영광스럽게 생각합니다.

 
  
 
 [14회] SAS분석챔피언십 후기 - 인하대학교 통계학과 정현명
 [14회] SAS분석챔피언십 후기 - 서울시립대학교 통계학과 전현우