로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS마이닝 챔피언쉽 > 커뮤니티 게시판
[기타] 제 14회 분석챔피언십 그 대단원의 막을 올리며 / SAS를 공부를 위한 컨텐츠 소개 2016.07.04
한노아 1493 0
http://www.mysas.co.kr/sas_mining/f_mining.asp?b_no=6877&gotopage=1&con=subject&keyword=&cmd=content&bd_no=39&gubun=

안녕하세요 제 13회 수상자 한노아입니다

 

오늘 게시글은 사전에 공지해드렸던 내용과 별개로 오늘 오리엔테이션 현장에서 개인적으로 많이 받았던 질문 중 하나인 

 

"어떻게 SAS를 공부해야 하나요?"

 

와 관련 된 내용입니다

 

사실 저 역시 SAS를 전문적으로 다뤄오신 분들에 비하면 정말 보잘것없는 실력이지만제 나름대로 우여곡절 끝에 알게 된 좋은(특히 이번공모전의 성격과 잘 맞는)컨텐츠들을 여러분과 공유하고 싶어 이렇게 글을 적게 되었습니다

 

"SAS 공부를 위한 도서 및 참고자료"

 

1) EDA관련(Visual Analytics)

VA의 경우 아직 출시 된지 그렇게 오래된 책이 아니라 국내에 한글 서적은 그렇게 많지 않은 것으로 알고 있습니다그래서 저 같은 경우에도 주로 유저 가이드나 기타 SAS에서 생산하는 특정 주제를 중심으로 한 Paper들을 이용해 공부를 합니다

 SAS의 경우 유저가이드를 통해서 거의 모든 기능을 알 수 있고아래와 같은 Paper들을 이용해 특정 기능에 대한 심도있는 학습을 하기에 적합하도록 컨텐츠를 생산하고 있는 것으로 보입니다 .

 

Visual Analytics User's Guide

http://support.sas.com/documentation/cdl/en/vaug/68648/PDF/default/vaug.pdf

 > 앞서 말씀드렸든 VA는 출시된지 얼마 되지 않아 User's Guide가 거의 유일한 학습컨텐츠인 것 같습니다영어로 되어있다는 단점이 있지만 설명이 어렵게 되어 있는 것이 아니라 아마 기능을 힉히시는 데에는 큰 어려움이 없을 것 같습니다

 

Sankey Diagram

http://support.sas.com/resources/papers/proceedings15/SAS1808-2015.pdf

 > VA Sankey Diagram은 주로 Path Analysis에서 주로 쓰이는 시각화 방법으로 주로 마케터들이 고객 유입경로를 확인하고 싶을 때 많이 사용하는 것으로 보입니다이번 공모전의 주제의 경우 결국 질병들 간의 관계를 보기위한 것이기 때문에 다양한 관점에서 이 시각화 기법을 응용할 수 있을 것으로 보여 첨부했습니다.   

 

Network Diagram

http://support.sas.com/resources/papers/proceedings15/3323-2015.pdf

 > 본 공모전의 주제는 "한국인의 질병네트워크를 그리다"이어서 이번에 이 시각화 툴을 이용하면 도움이 될 것 같아 첨부했습니다계층과 비계층을 잘 구분하여 사용하시는 것이 좋을 것 같습니다

 

 

2) Data Manipulation(Base SAS, Enterprise Guide)

데이터 처리의 경우 저는 주로 Base SAS를 많이 이용하지만코딩에 익숙하지 않으신 분들은 Enterprise Guide(이하 EG)를 이용하는 것도 매우 좋은 방법입니다. EG의 경우 데이터 처리 프로세스를 한 눈에 알 수 있고대부분의 통계학과 학생들이 SQL에 아마 익숙하지 않은 점을 고려했을 때 "질의빌더"라는 기능을 잘 활용하면 일반적인 코딩보다 훨씬 가독성이 뛰어나고간편한 처리가 가능할 수 있습니다

 

CASE1 : Base SAS를 이용하는 경우

<예제로 배우는 SAS 프로그래밍>

http://book.naver.com/bookdb/book_detail.nhn?bid=6966870

이 책은 그야말로 데이터 분석을 위한 전처리에서 꼭 필요한 대부분의 내용을 포함하고 있는 책입니다. Macro SQL에 대한 내용은 없지만 그 외 Base SAS를 활용해 할 수 있는 대부분의 데이터 처리방법을 다루고 있습니다.

 

<예제로 배우는 SAS 고급프로그래밍>

http://book.naver.com/bookdb/book_detail.nhn?bid=1275238

데이터 처리를 위한 SAS의 고급 기술들은 내포하고 있는 책입니다. SQL프로시저를 다루는 거의 유일한 책이고, Macro에 대한 설명 역시 상당히 상세하게 되어있어 더 효율적인 코드작성이 필요한 경우 매우 유용한 책입니다

 

CASE2 : Enterprise Guide를 이용하는 경우

손쉽게 따라 하는 SAS 가이드,기능편 분석편>

http://book.naver.com/bookdb/book_detail.nhn?bid=6598853

 > EG의 경우 기능편/분석편으로 크게 두 파트로 나눠져 있습니다기능편의 경우 주로 데이터 처리와 관련 된 내용이고분석편은 EG를 이용한 간단한 통계분석 방법론을 담고 있습니다. EG의 경우 고급분석을 하는 경우에는 제약사항이 존재하지만 가벼운 빈도분석이나 간단한 회귀분석분산분석 등을 지원하고 있으니 데이터 전처리 과정에서 필요한 탐색적 분석은 충분히 수행이 가능할 것으로 보입니다.  

 

3) Data Modeling 관련(E-miner)

데이터 모델링의 경우 크게 예측력인과관계 이 두가지 요인에 따라 선택할 수 있는 모형의 종류가 매우 다양하게 갈리게 됩니다만약 예측력을 최대로 하고 싶을 경우에는 주로 Black-box모형인 Neural Network SVM, Random Forest가 통계학적 모형인 Regression보다 좋은 성능을 보이는 경우가 많습니다하지만 이런 Black-box 모형의 경우 종속변수와 독립변수의 관계를 설명하기가 쉽지 않기 때문에 인과관계 규명이 목적인 경우에는 Regression이나 GLM과 같은 설명에 유리한 모형을 선택하는 것이 좋습니다.

※ 물론 예외적으로 인과관계 규명이 끝난 경우 도출한 변수들을 Black-box모형에 적합 시켜 퍼포먼스를 높이는 것도 하나의 방법이 될 수 있을 것 같습니다

 

손쉽게 따라 하는 SAS 가이드>

http://book.naver.com/bookdb/book_detail.nhn?bid=7520987

 > E-miner관련 스테디 셀러 중 하나인 것으로 알고 있는 책입니다이 책의 경우 실제 SAS직원으로 구성된 "에반젤리스트"라는 그룹에서 만든 책으로 정말 알차게 꾹꾹 눌러 담은 책 중 하나라고 생각합니다두께는 상당히 얇은 편이지만 좋은 예제와 실무에서 자주 사용하는 분석방법론을 다양하게 다루고 있어서 항상 추천하는 책 중 하나입니다이 책의 경우 SAS School에 참여하는 학생에 한하여 기념품으로 제공된다고 하니 SAS School에 참여하는 학생은 별도로 구매하지 않으셔도 될 것 같습니다.

 

<데이터마이닝 방법론 빅데이터 분석을 위한,SAS Enterprise Miner 활용사례를 중심으로>

http://book.naver.com/bookdb/book_detail.nhn?bid=7520290

구판의 경우 "고객관계관리(CRM)를 위한 데이터마이닝 방법론이라는 이름의 책입니다이 책의 경우 학부 3학년 때 교수님께서 추천해 주셨던 책입니다사실 내용면에서는 어디에 내 놓아도 손색이 없고사례중심적으로 쓰여 있어 데이터마이닝을 처음 접하는 학생이라도 손쉽게 방법론을 익히고 실습할 수 있을 것으로 보입니다

 

Advanced Modeling Skill Paper

아래에 링크한 Paper들의 경우 국내에 소개 된 한글자료로는 커버가 되지 않는 내용을 담고 있는 자료들입니다가령 Deep Learning이라든지 Ensemble 모형 같은 경우 위에 추천해 드린 책의 경우에는 상세하게 설명이 되어있지 않습니다아래 Paper들을 참고하시면 더욱 심도 깊은 분석 방법을 익힐 수 있으실 것으로 보입니다

기계학습 관련(deep learning )

http://support.sas.com/resources/papers/proceedings14/SAS313-2014.pdf

 

Bagging Boosting  Ensemble Modeling Method

http://support.sas.com/resources/papers/proceedings14/SAS133-2014.pdf

 

Boosting 관련 

http://support.sas.com/resources/papers/proceedings13/093-2013.pdf

 

Random Forest 관련

http://support.sas.com/resources/papers/proceedings15/3361-2015.pdf

 

SAS Group processing

http://support.sas.com/resources/papers/proceedings10/123-2010.pdf

 

4) 자료 찾는 노하우

구글에 "찾고자 하는 내용 + in SAS or Using SAS" 이용하면 원하는 Paper를 쉽게 찾을 수 있습니다그리고 SAS 도움말은 매우 친절하게(영어이기는 하지만거의 대부분의 내용을 설명하고 있습니다

 

끝으로 오늘 오리엔테이션에 제 허접한 경험담에도 고개를 끄덕여 주시며 경청해주신 모든 분들께 진심으로 감사의 말씀을 올립니다. 여러분의 관심덕분에 무사히 발표를 이어나갈 수 있었던 것 같습니다감사합니다.(__)

 

Preview

다음 게시글에서는 이전 게시글에서 말씀드렸던 공모전 프로세스에 대한 컨텐츠를 준비해 게시하도록 하겠습니다감사합니다.

 

  

 
 
  
 
 [강좌] 엑셀보다 쉬운 SAS 엔터프라이즈 가이드
 제 14회 분석챔피언십 그 대단원의 막을 올리며 / 공모전 준비 전략(1)