본문 바로가기
전문가가 되는 길(심화)

언제까지 p-value만 볼 거야?

by 올뉴핏 2019. 9. 18.

포스팅 타이틀

연구 결과가 통계적으로 유의하다. 하지만..

트레이닝의 질을 높이기 위해 논문을 찾아보는 현장가는 '이 논문의 결과가 유의한지, 의미 있는 결과인지, 현실에 적용할 수 있을 정도인지'와 같은 고민을 할 것이다. 연구자의 입장이 아닌 논문을 보는 현장가의 입장에서 말이다.

이런 고민을 해결하기 위해서는 일단 이 논문에서 내세운 가설이 검증되었는지를 먼저 봐야 한다. 가설이 검증 되었다는 것은, 해당 연구자가 매우 고생하여 연구를 설계했고 그 실험 결과가 통계적으로 유의했다는 것을 의미한다. 통계적으로 유의하다는 것은 p < 0.05가 성립 한다는 것을 의미한다. 따라서 현장가는 자신이 찾은 연구의 결과가 통계적으로 유의한지만 확인하면 된다.

 

 

정말 그런가?

우리는 통계적으로 유의한 결과를 현장에서 바로 써도 되는가?

 

p-value는 어디서 나왔나

가설 검증과 관련된 내용을 간단하게 이야기해보자. 연구자들은 실험을 설계하기 전에 Null Hypothesis, Alternative Hypothesis 이 두 가지 가설을 세우게 된다. 전자는 대조군과의 유의한 차이가 없다를 의미하고 후자는 대조군과의 유의한 차이가 있다를 의미한다고 생각하면 편하다 (실험 방법에 따라 통계적 검증법이 달라지고, 또 그 통계적 검증법에 따라 두 가지의 가설이 의미하는 바가 달라질 수 있다. 나도 잘 모른다). 여러 복잡한 통계적인 테스트를 거쳐서 우리는 Null Hypothesis를 기각할지 채택할지를 선택하게 된다. 이것을 결정하는 것이 p-value이다. 유의 수준이라 불리는 이 확률은 귀무가설이 사실일 때 어떤 데이터 패턴을 관찰할 수 있는 확률의 상한을 나타낸다.

 

p-value의 함정

우리는 연구를 진행할 때 표본집단을 설정하게 된다. 이 과정에서 Sample Size (n)가 크면 클수록 통계적으로 유의한 결과가 나올 확률이 높다. 하지만 금전적, 시간적인 제한에 의해 많은 사람을 채택하지 못한다. 모집단을 대표하는 표본집단을 설정하는 대표적인 이유가 여기에 있다 (통계적인 내용이므로 더이상 말하면 글의 목적을 벗어나게 된다).

 

p-value, 두말할 것도 없이 중요한 값이다. 하지만 해당 논문의 결과가 통계적으로 유의한 것이 현장에서도 의미 있는 결과임을 의미하는 것은 아니다. 오히려 생명과 건강을 다루는 분야에서는 통계적으로 유의하다는 사실은 그리 중요하지 않을 수도 있다 (유의하지 않아도 된다는 것은 아니다. 당연히 유의하면 좋다). 왜냐하면 통계학적 유의성이 변수간 연관관계의 크기에 대해서 말해주는 것은 아니기 때문이다.

 

유의성과 크기는 다르다

어떤 연구에서 "하루에 통밀빵을 스무 개 이상 소비하는 것과 결장암 발병률을 낮추는 것 사이에 통계적으로 유의한 관계가 있다" 는 결론을 내렸다고 가정해보자. 이것은 '하루 스무 개의 통밀 빵을 먹는 것이 결장암을 막아준다'는 것을 의미하는 결론일까? 아니다. 위의 결론은 통계학적 연관성을 보여주는 것일 뿐, 통밀 빵이 건강을 증진시키는 결과를 초래했다는 것을 보여주는 충분한 증거가 되지 못한다.

 

물론 통밀빵을 많이 먹는 사람들에게서 결장암 발병률이 낮을 수 있다! 하지만 얼마나 낮은가? 통밀빵을 먹은 사람과 먹지 않는 사람 사이의 결장암 발병 비율 차이는 굉장히 사소할 수 있다는 것이다. 결국 우리가 통계적으로 유의한 결과에 물어야 할 것은 '얼마나 큰 효과가 있는 것일까?'이다.

 

그 반대의 상황도 마찬가지이다. 새로운 Plyometric Training의 효과를 검증한 연구의 통계적 유의성이 p < 0.06 으로 나왔다 가정해보자. 이 결과가 통계적으로 유의하지 않기 때문에 이 논문에서 설계한 Plyometric Training을 우리가 현실에서 쓸 수 없는 것으로 여겨서는 안 된다는 것이다.

 

Effect Size

이러한 의문점을 조금이나마 해결하기 위해 Effect Size (ES)라는 것이 존재한다. ES는 해당 논문에서 사용한 중재(Intervention)가 현실에서 얼마나 강한 효력을 발휘할 수 있을지 추측할 수 있게 해준다. 즉, 현실에서 얼마나 의미있는 것인지를 생각하게 해준다 (ES를 구하는 공식이 있는데 나도 잘 모른다). ES는 현장가의 입장에서 굉장히 유용한데, 논문 안에 데이터를 가지고 자신이 직접 구해볼 수 있기 때문이다. 더불어 그 값이 표준화(standardization)되어 있으므로 우리가 보고 있는 다른 논문과 그 효과를 비교해 볼 수 있다. 보통 ES가 8점 이상이면 임상적으로 매우 강한 중요함을 가진다고 여겨진다. 5~8점이면 중간, 2~5점이면 다소 약함 그리고 2점 미만이면 상당히 약한 중요성을 가진다고 본다. 이 구분은 연구 분야에 따라 다를 수 있으니 맹신할 필요는 없다.

 

p.s. ES는 논문의 질을 평가하는 데 중요한 역할을 하기도 하는데,

대표적으로 Systematic and Meta Analysis에서 ES가 쓰인다.

 

p-value와 Effect Size, 둘 다 확인해야 한다.

자신이 보는 논문의 결과가 통계적으로 유의하며 ES 또한 높다면, 그 결과는 현장에서 유의할 확률이 그만큼 높다는 것을 의미한다. 만약 통계적으로는 유의하나 ES가 약하다면? 해당 실험의 여러 조건과 현실의 조건이 비슷하다면 현장에서 충분히 의미있는 결과일 수 있다. 하지만 실험의 조건과 현실의 조건이 너무 다르다면 그 실용성에 의문을 가질 필요가 있다. 통계적으로 유의하지 않으나 ES는 높은 상황은 어떨까. 현장에서 보았을 때는 그 결과가 충분히 중요한 결과일 수 있다. 왜냐하면 통계적으로 유의하지 않았다는 것은 실험 설계상 sample size의 부족 때문일 확률이 높기 때문이다. 통계적으로 유의하지 않고 ES도 매우 낮다면 그 결과는 굳이 따를 필요 없다 (그렇다고 논문을 한 편만 보지는 않을 거라 믿는다).

 

결론적으로, p-value와 ES를 같이 고려하여 논문을 검토한다면 현장을 위한 결정을 하는 데 큰 도움이 될 것이다. 유의할 점이 있다. 통계적으로 유의하며 ES도 높다고 해서 바로 현장에 적용해서는 안 된다. 현장에서의 결정은 이론과 연구 결과는 물론 경험, 직관, 추론 등을 토대로 내려야 한다. 하지만 과학적인 결과물에서 뽑아낼 수 있는 질 좋은 정보가 아주 많음에도 불구하고 그것을 굳이 무시할 필요는 없지 않은가?

 

올뉴핏 운동 디자이너 권준형

 

올뉴핏 인스타그램 @allnewfit.official

권준형 인스타그램 @jh_sportsmedi

 

올뉴핏 로고

댓글