Statistics & Mathematics

Permutation test 비모수 검정

taeeyeong 2024. 1. 22. 20:51

Permutation을 이용한 significance 검사는 주로 비모수적(non parametric) 방법입니다. 이 방법은 데이터의 label를 무작위로 교환(permute)하여, 실제 관찰된 효과가 무작위 분포에 비해 얼마나 특이한지를 평가합니다. 여기서는 permutation test의 기본적인 절차를 설명하겠습니다.


1. Null Hypothesis 설정: 먼저, 귀무 가설(null hypothesis)을 설정합니다. 귀무 가설은 보통 '관찰된 효과가 우연에 의한 것이다' 또는 '두 집단 간에 차이가 없다'와 같이 설정됩니다. 또는 다중 선형 회귀에서는 "회귀 계수가 0과 다르지 않다"라고 설정합니다. 


2. Test Statistic 계산: 실제 데이터에 대해 test statistic (예: 평균 차이, 중앙값 차이 등)을 계산합니다. 이는 두 집단 간의 차이를 나타내는 지표로 사용됩니다.

3. Permutation 수행: 데이터의 label를 무작위로 교환하여 새로운 데이터 세트를 생성합니다. 이 과정을 여러 번 반복하여, 많은 수의 permutation 샘플을 생성합니다.

4. Permutated Test Statistics 계산: 각각의 permutation 샘플에 대해 test statistic을 다시 계산합니다.

5. P-value 계산: 원래 데이터의 test statistic과 permutation에서 생성된 test statistics를 비교하여, 원래의 test statistic이 permutation으로부터 얻은 값들 중 얼마나 극단적인지를 평가합니다. 예를 들어, 원래 test statistic이 permutation 결과의 상위 5% 안에 들면, p-value는 0.05 또는 그 이하가 됩니다.

6. 결론 도출: 계산된 p-value를 기반으로 귀무 가설을 기각할지 말지를 결정합니다. 일반적으로 p-value가 0.05 이하면 귀무 가설을 기각하고, 통계적으로 유의미하다고 판단합니다.

 


Permutation test는 데이터 분포에 대한 가정이 적기 때문에, 전통적인 parametric test보다 유연하다는 장점이 있습니다. 하지만, 많은 permutation을 수행해야 하므로 계산량이 많을 수 있으며, 이는 데이터의 크기나 permutation의 반복 횟수에 따라 달라질 수 있습니다.