8.0 Intro
우리는 매일같이 불완전한 정보 속에서 판단을 내리며 살아간다. 날씨 예보를 믿고 우산을 챙길지 말지 결정하고, 친구들이 맛있다고 한 식당에 가볼지 고민한다. 이렇게 불완전한 정보를 기반으로 무언가를 추론하거나 결론을 내리는 과정, 이것이 바로 통계적 추론이다.
통계적 추론은 단순히 데이터를 분석하는 것에 그치지 않는다. 제한된 표본을 통해 전체를 이해하고자 하는 시도, 그리고 그 속에서 어떤 결정을 내릴 수 있을지 판단하는 방법론이다.
이 글에서는 통계적 추론이 어떤 원리로 작동하는지, 그 기본적인 아이디어에 대해 설명하고자 한다
8.1 추정의 기본적인 아이디어
추정의 본질은 간단하다.
“아는 것을 바탕으로, 모르는 것을 추정한다.”
이 문장을 조금 더 뜯어보면, 다음과 같이 바꿔 말할 수 있다:
“표본을 바탕으로, 모집단의 특성을 이해하려는 시도”
- 아는 것은 우리가 직접 수집한 표본 데이터,
- 모르는 것은 전체 집단의 특성을 나타내는 모집단 파라미터,
- 그리고 추정이란, 그 파라미터의 값을 이해하거나 예측하는 행위다.
결국 통계적 추정은, 작은 정보를 통해 큰 그림을 그리는 작업이라고 볼 수 있다.
8.1.1 Estimator 와 Estimates
그렇다면 어떻게 우리는 모집단을 이해할 수 있을까?
이제는 방법론적인 관점에서 추정을 살펴보자.
바로 이때 등장하는 개념이 추정량(estimator) 이다.
추정량은 마치 요리의 레시피와도 같다 — 주어진 재료(표본 데이터)를 어떤 방식으로 처리할지를 정하는 공식이다.
(아무 레시피를 써도 가능은 하지만, 주로 사용하는 맛있는 레시피가 있듯, 국룰(MLE)개념이 존재한다)
가장 대표적인 추정량은 우리가 자주 접하는 평균과 분산이다.
이들은 각각 모집단의 평균(μ), 분산(σ²)이라는 파라미터를 추정하기 위해 사용되는 통계량(statistics)이다.
그리고 이 추정량을 실제 데이터에 적용해 얻은 수치가 바로 추정값(estimate) 이다.
즉,
Estimator(추정량) 는 레시피,
Estimate(추정값) 는 그 레시피로 실제로 만든 요리 결과물이라고 할 수 있다.
우리는 이렇게 구한 평균, 분산과 같은 추정량(estimates)을 통해 모집단의 분포를 어느 정도 규정할 수 있고,
이를 바탕으로 다양한 통계적 검정(hypothesis test)을 수행할 수 있다.
그런데 이 과정에서 우리는 두 가지 중요한 질문에 직면하게 된다:
- 어떤 추정량(estimator)을 사용할 것인가? → 여러 가지 가능한 추정 방법 중 가장 적절한 방법을 선택하는 문제다. 그 대표적인 방법론이 바로 최대우도추정법(MLE)이다.(MLE 는 그 분량이 방대하기에 따로 이 글에서 다루진 않는다)
- 선택한 추정량이 좋은가 → 이를 위해 우리는 추정량의 편향(bias), 분산(variance), 평균제곱오차(MSE) 같은 기준을 통해 평가한다.
8.1.2 Reporting Estimator
MLE 같은 방법으로 추정량을 선택했다면(선택했다 치자) ,
이제는 그 추정량이 얼마나 정확한지, 얼마나 불확실한지를 말해줘야 한다.
다시 말해 얼마나 "흩어져 있는가"를 평가해야 한다. 바로 이 지점에서 등장하는 개념이 표준편차(Standard Deviation) 다.
이는 추정값이 어느 정도의 불확실성을 갖고 있는지를 나타내주는 지표로,
단순히 "평균이 30이다"라고 말하는 것보다 "평균이 30이고, 표준편차는 2다"라고 말할 때 훨씬 더 정확한 그림을 제공하게 된다(최소한 어떻게 생겼구나 정도는 알수 있을거다). 그래서 추정값만 제시하는 것이 아니라,
그 추정량의 표준편차까지 함께 보고(reporting) 해야 한다
8.1.3 Measurement Model
우리는 지금까지 추정값과 그에 대한 불확실성(표준편차)을 함께 제시하는 것이 왜 중요한지를 배웠다. 하지만 여기서 한 걸음 더 나아가, 이 추정값들이 왜 신뢰할 만한지를 뒷받침해주는 이론적 기반이 필요하다.
바로 그 지점을 설명해주는 것이 Measurement Model이다.
Measurement Model은 관측된 데이터가 어떤 확률 분포를 따른다고 가정하고,
그 가정을 바탕으로 모집단의 파라미터(예: 평균, 분산 등)를 추정하는 틀이다.
이 모델은 우리가 사용하는 대표적인 추정량(평균, 분산 등)이 실제 모집단의 특성을 얼마나 잘 반영하고 있는지, 왜 편향되지 않은(Unbiased) 추정량이 될 수 있는지를 수학적으로 설명해준다.
예를 들어:
- “데이터는 평균 μ, 분산 σ²인 정규분포를 따른다”고 가정하면, 표본평균은 μ에 대한 추정량이 되고,
- “데이터는 성공확률 p인 베르누이 분포를 따른다”고 가정하면, 성공 비율은 p에 대한 추정량이 된다.
즉, Measurement Model은
"표본을 바탕으로 모집단을 이해한다"
는 통계적 추론의 핵심 아이디어를 이론적으로 정당화해주는 역할을 한다.
결론: 작은 정보로 큰 그림을 그리는 힘
우리는 이 글을 통해 통계적 추론의 출발점인 추정(estimation)에 대해 살펴보았다.
- 추정이란, 표본을 바탕으로 모집단의 특성을 이해하려는 시도이며,
작은 정보를 통해 큰 그림을 그리는 작업이라고 할 수 있다. - 이러한 추정을 위해 사용하는 것이 바로 추정량(estimator)이다.
추정량은 주어진 표본 데이터를 어떤 방식으로 처리할지를 정해주는 공식이며,
실제 데이터를 통해 계산된 수치를 추정값(estimate)이라고 부른다. - 추정값만 제시하는 것은 한계가 있기 때문에,
그 불확실성(흩어짐 정도)을 함께 제시하는 것이 중요하다.
이때 사용하는 지표가 바로 표준편차(Standard Deviation)이다. - 마지막으로, 이런 추정값과 표준편차가 왜 신뢰할 수 있는지를 이론적으로 설명해주는 틀이
바로 Measurement Model이다.
이는 관측된 데이터가 어떤 분포를 따른다고 가정하고,
그 분포로부터 모집단 파라미터를 추정하는 이론적 기반이 된다.
결국 이 모든 과정은
“표본을 바탕으로 모집단을 이해한다”
는 통계적 추론의 핵심 아이디어를 정당화하는 여정이다.
다음 이야기 예고: “점”보단 “구간”
하지만 현실에서 하나의 숫자(점 추정)만으로 결론을 내리기란 쉽지 않다.
그래서 통계는 숫자 하나가 아니라, “이 정도 범위 안에 있을 것이다”라는
신뢰구간(confidence interval)이라는 방법을 함께 사용한다.
'데이터 공부 > 2025_하계_학연생' 카테고리의 다른 글
SLR, 단순선형회귀 이해하기 (5) | 2025.07.11 |
---|---|
회귀분석 시작 전 꼭 알아야 할 개념과 흐름 (1) | 2025.07.07 |
통계적 유의미성의 판단: 가설검정과 검정 방법 총정리 (2) | 2025.07.05 |
가설검정 : p-value로 통계적 의미를 해석하는 법 (1) | 2025.07.03 |
“평균이 48.3%입니다”가 전부가 아닌 이유 (0) | 2025.07.02 |