기타

변수 선택법

스노(Snow) 2019. 11. 20. 22:26

 회귀 모델을 만들 때 주어진 여러 변수 중, 어떤 변수를 설명 변수로 해야할 지는 모델링을 수행하는 사람의 배경 지식에 따라 결정됩니다.

 

하지만 이러한 배경 지식이 없거나, 배경 지식은 있어도 여전히 어떠한 변수들을 선택해야할지 정확히 결정하기 힘들다면, 변수의 통계적인 특성을 고려해 기계적으로 설명 변수를 선택하는 방법이 있습니다.

이러한 방법들을 통틀어서 변수 선택법이라고 합니다.

 

변수선택법에는 다음과 같은 알고리즘이 있습니다.

 

부분집합법(all subset) : 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법입니다. 번수의 개수에 따라 검증해야하는 회귀분석이 많아지기에 엑셀, R, 파이썬에서 모두 추천하지는 않지만, 변수의 개수가 적거나 최대한 설명력을 높이려면 생각해 볼 만 합니다.

 

후진제거법(Backward Eilmination) : 모든 변수를 넣은 모델에서 p 값을 기준으로 전체에서 1 개씩 제거하여 모든 변수가 유의미하며, 더 이상 제거할 변수가 없을 때 까지 제거하는 방법입니다. 파이썬과 액셀에서는 변수선택법 함수를 지원하지 않기에, 개인적으로는 이 방법을 추천드리고 싶습니다.

 

전진선택법(Forward Selection) : 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법입니다.

 

단계적 선택법(Stepwise Selection) : 예측변수를 연속적으로 추가/삭제하면서 AIC (AIC 지표 : 회귀모델에 항을 추가할수록 불이익을 주는 지표)가 낮아지는 모델을 찾는 방법입니다. 후진제거법과 전진선택법이 가지고 있는 단점을 보완하기 때문에 가장 좋은 모델에 가까운 모델을 얻을 수 있는 방법이라고 생각하며, R에서 사용하는 것을 추천드립니다.