로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS마이닝 챔피언쉽 > 체험기
[14회] SAS분석챔피언십 후기 - 인하대학교 통계학과 정현명 2016.10.18
MYSAS 547 0
http://www.mysas.co.kr/sas_mining/d_interview.asp?b_no=7037&gotopage=1&con=subject&keyword=&cmd=content&bd_no=10&gubun=

[HIRA상] 인하대학교 통계학과 정현명 (SA377)

안녕하세요 ‘14회 SAS 분석 챔시언십 한국인의 질병네트워크를 그리다’ HIRA상을 받은 인하대학교 통계학과 정현명입니다.
많은 시간과 노력의 결실로 이렇게 후기를 작성 할 수 있게 상을 받았던 것에 대해 우선 정말 큰 감사말씀 올립니다. 저는 나름대로 이번 대회 수상에 관련해서 다른 사람들보다 좀 더 감회가 새롭습니다. 물론, 다른 팀들 분들도 모두 정말 노력도 많이 하고 공부도 많이 했을 테지만 저는 이번 대회가 세 번째 대회였습니다. 처음에 3학년때 아직 분석이 먼지 아무것도 모르는 상태에서 첫 도전 이였고 그 후 4학년때 어느 정도 자신감이 붙어있던 때에 대회를 나왔지만 떨어졌습니다. 그때, 정말 큰 자신감 하락과 함께 내가 분석을 정말 못하는 것인가 라는 회의감도 들고 했었지만 정말 마지막으로 나가보자 라고 생각하고 올해 대회를 나와 수상하게 되었습니다. 이렇게 정말 끊임 없이 노력하고 도전한다면 이 글을 보는 모든 분들이 좋은 결과가 있으실 거라고 생각됩니다.
세 번이나 대회에 나온 입장에서 글을 보시는 분들이 최대한 빠른 시간 내에, 저처럼 돌아가지 않고 어떻게 분석을 해야 하는가에 대해서 말씀 드리겠습니다.

<참고문헌 조사는 절대적이다>
처음 분석을 시작하기 전에 주제에 대해 잘 모르는 부분이 있다면 많은 사람들이 웹서치를 통해 참고문헌 조사를 실시합니다. 하지만 의외로 처음 조사하는 단계에서는 큰 소득이 될 만한 문헌이나 내용을 찾지 못해 조금의 조사만 끝내고 분석을 시행하고 결론을 내 보내는게 일반적입니다. 하지만 초반 조사에서 큰 소득을 올릴만한 내용을 얻지 못하는 이유는 아직 내용에 대한 완전한 이해가 되지 않았을 뿐더러 분석방향을 정확히 잡지 않았기에 좀더 구체적인 서칭을 못했기 때문입니다.
분석을 진행하다 틈틈이 지속적으로 참고문헌을 조사하다 보면 예전에 발견하지 못했던 도움이 될만한 문헌을 찾게 되고 어쩔 때는 앞으로 내가 할 분석방향에 대해 어느 정도 분석을 실시했던 선행 연구를 얻게 됩니다. 이런 중간중간에 지속적인 문헌조사를 통해 분석 시간을 줄이고 좀 더 확장된 다양한 분석을 실시 할 수 있습니다.

<파생변수는 더하고 곱하고 빼는 것만이 아니다>
분석을 실시하면서 많은 사람들이 고민하는 것 중 하나가 바로 이 파생변수입니다. 그런데 분석을 처음 해보는 단계에서는 이 파생변수를 대체 어떻게 만들어야 하는가에 대해 감이 잡히지 않기 때문에 있는 변수들간의 선형결합 및 조금의 변형으로만 파생변수를 생성하게 됩니다. 하지만 분석에 사용되는 파생변수는 정말 많은 방법으로 만들 수 있습니다.
예를 들면 저희가 사용한 건강보험심사평가원 데이터경우 저희는 질병들간의 관계를 나타내기 위해 새로운 척도 Phi_coefficient, Condition_number라는 질병관계정보를 얻기 위해 명세서 내역을 이용하여 질병들의  matrix를 만들어 표현했고, 이를 명세서에 join 하는 식으로 진행 하였습니다. 그리고 좀 더 데이터 핸들링을 잘하게 된다면 수진자 별로 과거 1년동안의 특정 질병의 내역을 만드는 등 이런 파생변수도 만들게 된다면 큰 도움이 될 수 있을 거라고 생각합니다. 항상 이러한 파생변수를 만들기 위해서 참고문헌도 많이 찾아보고 만들어진 데이터 틀 안에서만 생각하는 것이 아니라 필요에 의해 데이터를 쪼개서 변수를 생성한 후 원래 분석 데이터에 join하는 등 좀 더 넓게 생각할 필요가 있습니다.

<스토리를 찾아라>
어디서나 마찬가지이지만 아무리 결과가 좋더라도 그 결과를 사람들이 관심 갖게 만드는 것과는 별개라고 생각합니다. 나름 합리적인 판단으로 분석을 실시하였지만 다른 사람들이 보기엔 개연성이 부족하고 연결고리가 부족하다고 생각 되는 순간 흥미를 잃고 중간부터 관심이 줄어들게 마련입니다. 하지만 오히려 분석 결과가 좋지 않더라도 분석 모델링까지 진행하는 과정의 개연성이 좋고 흥미를 유발 할 수 있는 그러한 주제를 찾는다면 좀 더 좋은 결과가 있을 거라고 생각합니다. 이를 위해 항상 어떠한 방식으로 어떠한 과정을 걸쳐 결과를 나타낼 것인가에 대해 고민을 할 필요가 있습니다.
특히 분석의 활용방안 측면이 중요한 분석의 경우 전체 흐름과 활용방안과의 연관성이 어떠한지를 판단하는 key 포인트가 될 것입니다. 항상 분석을 진행하기 앞서 혹은 진행 중에 자신이 하고자 하는 이야기 즉 스토리가 어떻게 진행되고 있는지 돌이켜 보며 스토리를 탄탄하게 한다면 좋은 결과가 있을 겁니다.

지금까지 예전부터 지금까지 sas 대회를 준비하고 수상하기까지 느꼈던 가장 중요한 세 가지에 대해서 언급했습니다. 이를 통해 조금이라도 공모전 준비하시는 분들에게 도움이 됐으면 좋겠습니다. 모두 파이팅 하시고 정말 꾸준히 노력한다면 좋은 결과가 있을 거라고 확신합니다.
화이팅!

 
  
 
 [14회] SAS분석챔피언십 후기 - 홍익대학교 산업공학과 김원겸
 [14회] SAS분석챔피언십 후기 - 연세대학교 응용통계학과 조정경