사이트맵  |  Contact Us
 
홈 > SAS Stories > SAS 활용 노하우
SAS VDMML 한 눈에 알아보기 (2) 모델링 과정 2020.01.30
김규리 1129 1
http://www.mysas.co.kr/SAS_club/d_freeboard.asp?b_no=11264&gotopage=1&con=subject&keyword=&cmd=content&bd_no=04&gubun=

안녕하세요, Marketing 부서에 근무하고 있는 인턴 김규리입니다.


이번에는 이전 게시물에 이어서 ② 모델링 과정 대해 알아보도록 하겠습니다








1. 파이프라인 생성

 

 


 

프로젝트에서 [파이프라인]을 클릭하면 위와 같이 새로운 파이프라인을 만들 수 있습니다.

 


 

왼쪽 노드 버튼을 클릭하면 원하는 과정을 선택할 수 있습니다.

 

 

 

노드는 크게 데이터 마이닝 사전 처리, 지도 학습, 사후 처리, 기타로 나눠져 있습니다.

 

데이터 마이닝 사전 처리는 모델링 전에 변수에 대한 전체적인 처리를 하는 과정으로 결측값 처리, 대체, 변수선택 등이 있습니다.

 

또한, 지도 학습은 사전 처리된 데이터를 모델링 하는 과정으로 선형 회귀, 의사결정트리, 그래디언트 부스팅 등이 있습니다.

 

드래그--드롭(drag and drop)방식을 통해 본인이 원하는 노드를 추가하여 쉽게 파이프라인을 생성할 수 있습니다.

 


 

저는 노드를 드래그 앤 드롭하여 다음과 같은 파이프 라인을 생성하였습니다.

 

각 노드에 대한 옵션도 간단히 살펴볼까요?

 

 

2. 파이프라인 설정

 

 


 

첫 번째, 결측값 처리 노드입니다.

 

결측값이란, 입력이 누락된 값을 의미하는데, 결측값이 존재한 상태로 모델을 만들게 될 경우 변수 간의 관계가 왜곡될 수 있습니다.


따라서 모델의 정확성을 높이기 위해 결측값 처리 노드를 사용합니다. 😊 

 

이 노드를 사용하면 Class(범주형) Interval(수치형) 데이터에 대한 결측치 처리를 원하는 방식으로 설정할 수 있습니다.

 

Class(범주형) 데이터의 경우 개수나 분포 등으로, Interval(수치형)인 경우 평균이나 중앙값 등으로 처리할 수 있습니다.




저는 범주형 데이터를 개수에 따라, 수치형 데이터를 평균으로 결측값을 처리할 수 있도록 설정하였습니다. 다르게 설정하고 싶은 분들은 오른쪽 창을 통해 변경하실 수 있습니다.

 


 

두 번째, 값 대체 노드입니다.

 

값 대체 노드는 결측값과 마찬가지로 분석의 용이성을 위해 이상치 등을 대체하는 노드입니다.


이 노드를 사용하면 이상치 등의 데이터에 대한 값을 원하는 방식으로 대체할 수 있습니다.

 

Interval(수치형) 데이터의 한계점은 평균으로부터의 표준편차, 극 백분위수 등으로 설정할 수 있고 그 이외 설정도 오른쪽 창을 통해 변경하실 수 있습니다.

 

저는 위의 사진과 같이 값을 대체를 할 수 있도록 설정하였습니다.

 


 

세 번째, 변수 선택 노드입니다.

 

예측 변수가 많으면 분석이 까다로울 수 있기 때문에 변수 선택 노드를 사용합니다.


위의 노드를 사용하면 설명 변수가 적어져서 모형이 좀 더 간명해질 수 있다는 장점이 있습니다.


변수 선택 기준을 원하는 방식으로 설정할 수 있는데요, 저는 *빠른 지도 선택법으로 설정하였습니다.

 

*빠른 지도는 일정 짧은 시간동안 변수 선택법을 수행해서 최적의 입력 수로 줄이게 하는 지도 방법입니다.

 


 

네 번째, 모델 노드입니다.

 

위에서 설명 드렸듯이, 지도 학습 노드에는 여러 가지 모델들이 존재합니다.

 

저는 그래디언트 부스팅, 선형 회귀, 의사결정트리 노드를 선택하여 파이프 라인을 설정 하였습니다.

 

l  그래디언트 부스팅 : 여러 개의 결정 트리를 묶어서 모델을 만드는 앙상블 기법

l  선형 회귀 :  종속 변수 Y와 한 개 이상의 설명 변수 X와의 선형 상관 관계를 모델링하는 지도학습 기법

l  의사결정트리 : 설명 변수들의 규칙 등으로 목표 변수를 분류하는 나무 구조의 모델을 만든 뒤, 설명 변수들의 관측값을 그 모델에 대입하여 목표 변수를 예측하는 지도학습 기법

 

그리고 각 모델 노드의 설정도 가능합니다.

 

예를 들어, 그래디언트 부스팅의 트리 수나 학습률, 최대 가지 수 등 많은 옵션들을 최적의 모델을 만들 수 있도록 조절할 수 있습니다.

 


 

또한, *자동 조율 수행으로 모델링 옵션을 설정할 수도 있습니다.

 

*자동 조율 수행은 일정 짧은 시간내 최대한으로 적합한 모델을 만들어 도출해내는 옵션입니다.

 

저는 자동 조율 수행으로 모델링 하도록 설정하였습니다.

 

 

3. 파이프 라인 실행

 


 

각 노드에 대한 설정이 끝나면, 재생 버튼을 눌러 파이프라인을 실행시킵니다.

 

어떤 노드가 실행되고 있는지, 완료가 되었는지를 한 눈에 확인할 수 있습니다.

 

-      초록색 원 : 실행 완료

-      시계 : 대기중

 


 

모든 노드의 실행이 완료되면 전부 초록색 원이 나타납니다.

 

 

 

 

 

위의 순서에 따라 진행하시면 모델링 과정을 모두 마치셨습니다.

 

다음 시간에는 ③ 모델 비교 및 결과 도출에 대해 알아보도록 하겠습니다.

 

감사합니다. 

 
 
휴대폰 번호
휴대폰 인증번호
 
 SAS VDMML 한 눈에 알아보기 (3) 모델 비교 및 결과 도출
 SAS VDMML 한 눈에 알아보기 (1) 모델링 준비과정