사이트맵  |  Contact Us
 
홈 > SAS Stories > SAS 활용 노하우
SAS VDMML 한 눈에 알아보기 (3) 모델 비교 및 결과 도출 2020.02.26
김규리 7151 1
http://www.mysas.co.kr/SAS_club/d_freeboard.asp?b_no=11284&gotopage=1&con=subject&keyword=&cmd=content&bd_no=04&gubun=

안녕하세요, Marketing 부서에 근무하고 있는 인턴 김규리입니다.


이번에는 이전 게시물에 이어서 ③ 모델 비교 및 결과 도출에 대해 알아보도록 하겠습니다.


1.    모델링 결과 도출

 


 

 

 

파이프라인 실행이 모두 완료되면 각 노드에 대한 결과를 조회할 수 있습니다.

 

노드의 〯버튼을 누르고 [결과]를 선택하시면 결과 요약 내용과 출력 데이터를 조회할 수 있습니다.

 

각 노드의 결과가 어떻게 나타났는지 간단히 살펴볼까요?

 


 

첫 번째, 결측값 처리 노드 결과입니다.

 

위의 화면과 같이 결측값이 처리된 변수에 대한 결과를 확인할 수 있습니다.

 

제가 진행한 프로젝트에서 결측값이 처리된 변수는 Cylinders 1개이고 해당 변수에 대해 처리된 데이터 개수는 6개로 나타났습니다. 😊

 

그리고 결측값이 처리된 변수 이름은 IMP_(변수이름)으로 변경됩니다.

 


 

또한 결과 요약 내용을 통해 자동 생성된 SAS 스코어 코드도 한 눈에 볼 수 있습니다.

 

자동으로 SAS 스코어 코드를 생성하므로, SAS 코드를 전혀 모르더라도 SAS VDMML을 초보자분들도 충분히 다룰 수 있습니다. 😊

 


 

두 번째, 값 대체 노드 결과입니다.

 

위의 화면과 같이 값을 대체한 변수에 대한 결과를 확인할 수 있습니다.

 

결과를 통해 대체된 변수는 어떤 것인지, 몇 개가 대체가 되었는지 등을 한 눈에 볼 수 있습니다.

 


 

제가 진행한 프로젝트에서 값이 대체된 변수는 8, 각 변수마다 대체된 데이터 개수는 0~4 개 사이로 나타났습니다.

 

그리고 값이 대체된 변수 이름은 REP_(변수이름)으로 변경됩니다.

 


 

결측값 처리 결과 창과 마찬가지로 SAS 스코어 코드가 자동으로 생성됩니다.

 


 

세 번째, 변수 선택 노드 결과입니다.

 

위의 화면과 같이 선택된 변수에 대한 결과를 확인할 수 있습니다.

 


 

그리고 선택한 변수들에 대한 설명 분산 비율도 자세히 확인할 수 있습니다.

 


 

또한, SAS 코드뿐만 아니라 선택된 변수들에 대한 정보들(SSE, MSE, AIC )도 살펴볼 수 있습니다.

 

제가 진행한 프로젝트에서 선택된 변수는 총 6개로 나타났습니다. 😊

 


 

네 번째, 모델 노드 결과입니다.

 

저는 그래디언트 부스팅, 선형 회귀, 의사결정트리 총 3가지의 모델링을 진행하였는데요, 각 모델의 결과를 살펴보도록 하겠습니다.

 

그래디언트 부스팅 경우, 위의 화면과 같이 오차 도표와 변수 중요도를 확인할 수 있습니다.

 


 

트리 수에 따른 MSE(평균제곱오차)train, validate, test 그래프별로 조회할 수 있습니다.

 


 


 

두 번째 게시물에서 저는 자동 조율 방법을 사용했는데요, SAS VDMML이 최적의 옵션(학습률, 트리 수 등)을 설정하여 실행한 결과도 자세히 확인할 수 있습니다.

 


 

마찬가지로, 모델에 대한 SAS 스코어 코드도 자동으로 생성됩니다.

 


 

또한 Train, Validate, test에 따른 예측 평균과 적합 통계량도 확인할 수 있습니다.

 


 


 

x=y에 가까울수록 예측이 잘되었다고 말할 수 있습니다.

 


 

선형 회귀의 경우, t값 등을 통해 모델링 결과를 보여주고 있습니다.

 


 


 

그래디언트 부스팅과 같이, 적합 모델에 대한 상세 정보와 예측 그래프도 조회할 수 있습니다.

 


 

마지막으로 의사결정트리 경우, 트리 다이어그램과 트리맵을 통해 시각적으로 편하게 예측 기준을 확인할 수 있습니다.

 


 


 

구간을 클릭하면 해당되는 기준과 데이터 개수를 보여주며, 색이 진할수록 예측력이 높은 구간으로 이해하시면 좋을 것 같습니다. 😊

 



 


 

 

다른 모델과 마찬가지로, 자동 조율 결과 등도 조회할 수 있습니다. 😊

 

 

2.    모델 비교

 


 

파이프라인의 맨 밑의 모델 비교 노드를 통해 비교 결과를 조회할 수 있습니다.

 


 

저는 3가지의 모델을 실행한 결과, 평균제곱오차, 제곱근 평균제곱오차가 가장 작은 선형회귀가 가장 좋은 모델로 나타났습니다.

 


 

그래프와 적합통계량을 통해 모델을 비교하여 가장 좋은 모델을 선정할 수 있습니다.

 

 

 

위의 순서에 따라 진행하시면 모델 비교 및 결과 도출을 모두 마치셨습니다.

 

지금까지 VFLSAS VDMML 활용 과정을 3가지의 시리즈로 나눠서 게시물을 작성하였는데요,

여러분께 많은 도움이 되길 바랍니다.

 

감사합니다. 

 
 
휴대폰 번호
휴대폰 인증번호
 

 더 이상 글이 존재하지 않습니다.

 SAS VDMML 한 눈에 알아보기 (2) 모델링 과정