데이터 공부/2025_하계_학연생

“평균이 48.3%입니다”가 전부가 아닌 이유

superpetit 2025. 7. 2. 22:56

8.2 신뢰구간

우리는 지금까지 추정'값'(하나의 숫자!)(estimates)을 구하고, 그 불확실성(표준편차)까지 함께 제시하는 것이 왜 중요한지를 배웠고, Measurement Model을 통해 이러한 추정값들이 이론적으로 신뢰할 수 있는 이유도 확인했다.

 

추정이란 무엇인가 — 통계적 추론의 첫걸음

8.0 Intro우리는 매일같이 불완전한 정보 속에서 판단을 내리며 살아간다. 날씨 예보를 믿고 우산을 챙길지 말지 결정하고, 친구들이 맛있다고 한 식당에 가볼지 고민한다. 이렇게 불완전한 정보

nevermind22.tistory.com

 

하지만 하나의 숫자(점 추정)만 제시하는 것은 여전히 제한적이다.

왜냐하면 우리는 모집단의 진짜 값이 어디에 있는지 알 수 없고, (4시에 도착해! 보단)

단지 "이 정도 범위 안에 있을 가능성이 높다"는 식으로 표현해야 할 때가 많기 때문이다. (4시에서 4시반쯤 도착해 가 더 많듯이)

이럴 때 사용하는 것이 바로 신뢰구간(confidence interval)이다.

신뢰구간은 추정값을 중심으로, 모집단의 진짜 값(모수)이 포함될 가능성이 높은 구간을 제시함으로써,

단순한 점 추정보다 훨씬 더 풍부한 정보를 제공해준다.

특정 부분(값) 만을 감사(추정)하는 망원경(점추정) 보단
지역(구간)을 감시(추정)하는 헬기(구간추정)이 얻는 정보가 더 많다

8.2.1 신뢰구간의 구성

사실 신뢰구간이라는 말 자체는 수도없이 많이 들어왔다.

이번 출구조사는 한국리서치·입소스·코리아리서치인터내셔널에서 이날 오전 6시부터 오후 8시까지 전국 325개 투표소에서 투표를 한 8만146명의 유권자를 대상으로 진행됐다. 오차범위는 95% 신뢰 수준에 ±0.8%포인트다.

뭐 대충 정확해 보이긴 한다.. 하지만 정확한 그 의미를 아는 사람은 드물다..

신뢰구간을 한문장으로 정의하면 무엇일까?

“그나마 내가 확실히 말할 수 있는 정도”

를 구간으로 표현해준 것, 이라고 말하고 싶다

아직 직관적으로 그 의미를 받아들이기란 쉽지 않다. 일단 아래의 그림을 보며 그 의미를 따라가 보자

위 그림처럼 모집단에서 여러 번 표본을 뽑고, 각 표본의 평균을 구해보면

그 평균들의 분포는 중심극한정리(CLT)에 따라 정규분포 형태를 띄게 된다.

정규분포이기 때문에, 아래와 같은 분포 특성도 자연스럽게 따르게 된다.

이때, 표본 평균들의 퍼짐 정도를 나타내는 지표를

우리는 **표준오차(SEM: Standard Error of the Mean)**라고 부른다.

그 계산식은 다음과 같다:

SEM=  

여기서

  • σ\sigma는 모집단의 표준편차,
  • n은 표본의 크기(샘플 수)이다.

이제 이걸 바탕으로 이런 결론을 낼 수 있다:

“지금 내가 얻은 표본 평균은, 95% 확률로 모평균으로부터 ±2 * SEM 범위 안에 있을 것이다.”

그런데, 여기서 아주 큰 문제가 있다. 우리는 모평균을 모른다는 것이다.

만약 우리가 모평균을 알았다면 굳이 이렇게 표본을 뽑아가면서 표본 평균을 계산해야 했을 이유도 없었을 것이다.

그래서 우리는 조금 색다른 방식의 관점에서 표본 평균과 모평균의 관계를 생각해 보도록 하자.

 

그림에서 볼 수 있듯이 우리가 만약 모평균으로부터 ±2 SEM 만큼 떨어진 구간을 표본 평균을 중심으로 할 수 있게 이동시킨다면, 모평균이 표본 평균으로부터 ±2 SEM 만큼 떨어진 곳에 95% 확률로 들어온다는 것을 알 수 있다.

여기서 표본 평균 ± 2 SEM 구간 안에 95% 확률로 모평균이 들어온다는 것을 조금 다른 방식으로 생각해보면 아래와 같이 생각해볼 수도 있겠다.

표본 추출은 무수하게 많은 조합으로 추출할 수 있으므로, 100번 정도 반복 샘플링을 해 보았을 때 95번 가량은 2 * 표준 오차안에 모평균이 들어있다는 뜻이라고 생각할 수도 있다.

95% 확률로 모평균이 ± 2 SEM 안에 들어있다는 것은 100번 반복 샘플링 시 95번 가량은 모평균이 ± 2 SEM 안에 포함되어 있다는 것을 의미한다.

여기서 빨간색 수평 점선은 모평균값을 의미하며, 수평선과 겹치는 검은색 수직 구간에는 모평균이 포함된다. 빨간색 수직 구간에는 모평균이 포함되지 않는다. -> 95% 의 수직선은 수평선을 지나간다 

 

결론

우리는 표본 평균이라는 하나의 숫자만으로 모집단의 특성을 설명하기엔 부족하다는 걸 알게 되었다. 그래서 더 정확하고 풍부한 정보를 담기 위해, **신뢰구간(confidence interval)**이라는 개념이 등장했다.

정리하면 다음과 같다:

왜 신뢰구간이 필요한가?

  • 점추정(point estimate)은 하나의 숫자만 제시하기 때문에 불확실성이 크다.
  • 우리는 불확실성을 줄이고자, "이 정도 범위 안에 있을 것이다"라는 방식으로 표현할 필요가 있다.
  • 즉, 모평균이 포함될 가능성이 높은 범위를 제시해주는 것이 신뢰구간이다.

신뢰구간의 구성

  • 중심: 표본 평균
  • 너비: 약 ± 2 × SEM (Standard Error of the Mean)

직관적으로 생각해보면

  • 우리가 수없이 많은 표본을 추출해 신뢰구간을 만든다고 가정하면,
  • 그 중 약 95%의 신뢰구간은 실제 모평균을 포함하게 된다.

이제 우리는 이 글을 해석할수 있다 

“이번 출구조사는 전국 325개 투표소에서 투표한 8만146명을 대상으로 진행됐다.
오차범위는 95% 신뢰 수준에 ±0.8%포인트다.”

  • 이 조사는 모든 유권자를 조사한 게 아니라, 일부(8만여 명)만 뽑아서 표본조사를 한 것이다.
  • 그 결과 A후보의 지지율이 48.3%라고 나왔다면,
  • 진짜 득표율(모수)은 47.5%에서 49.1% 사이에 있을 가능성이 95%라는 뜻이다.

다시 말해, 이런 조사를 100번 반복한다면
그 중 95번 정도는 진짜 득표율이 ±0.8% 안에 들어 있을 거라는 의미다.