(1) 통계학의 목적
DATA를 수집 정리 기술(요약) 분석 하고 해석하는 학문
So what? : 불확실한 상황에서 통계적 사고를 통해 최선의 의사결정을 만드는 것
(2) 통계학의 역할
통계학은 크게 기술과 추론 두가지 역할을 한다 각각의 역할에 대해 알아보자
기술 = 요약 -> 설명
추리 = 예측, 일반화
기술통계학은 데이터의 특성을 요약하고 설명하는 데 중점을 두었다
데이터의 중심 경향성(평균, 중앙값, 최빈값), 산포도(표준편차, 분산, 범위), 데이터의 분포(도수분포표, 히스토그램) 등을 계산하거나 시각화하여 데이터를 이해하고 설명한다. 기술통계는 데이터의 특성을 직관적으로 파악하고 요약하여 통계적인 정보를 제공한다. 이는 데이터의 특징을 파악하거나 데이터 간의 비교, 패턴의 발견에 도움을 준다
추리통계학은 주어진 데이터를 바탕으로 모집단에 대한 일반화와 예측을 수행합니다.
추리통계학은 불완전한 정보인 표본 데이터를 통해 모집단의 특성을 유추하고 일반화하는 작업을 수행합니다. 이를 위해 가설 검정, 신뢰구간 추정, 회귀분석, 분산분석 등의 통계적 기법을 사용합니다. 추리통계는 표본을 통해 얻은 결과를 모집단에 일반화하거나 미래의 사건을 예측하는 데 사용됩니다.
두 분야는 서로 상호 보완적인 역할을 하며, 정확한 이해에 있어 같이 사용된다
(3) 통계학의 기본 용어
최선의 의사결정을 하기 위해선 상황을 알아야 한다
즉 모집단을 정확하게 파악할 필요가 있다, 하지만 모집단을 파악하기란 굉장히 어렵다.. 모집단 (ex_ 5000만 인구 전체)을 조사하는 것은 거의 불가능의 가깝기 때문이다. 그래서 우린 모집단의 일부를 뽑아 표본이란 것을 만들고 이 표본(통계량)을 통해 모집단의 통계적 특성(모수)를 추론(통계적 추론) 한다
대표적인 모수 평균, 분산, 표준편차, 분위수, 모비율
대표적인 통계량 표본 평균, 표본 표준편차, 표본 비율
즉 통계량을 통해 모수를 추정한다
이때 얼마나 정확히 모수를 추정하는지를 보여주는 것이 : 신뢰구간이다
즉 신뢰구간 95% 라는 것은 해당 추정치가 모수를 95%의 확률로 포함한다는 의미이다. 즉, 동일한 방법으로 여러 번 표본을 추출하고 모수를 추정할 경우, 이러한 표본들 중 95%의 경우에 모수가 해당 신뢰구간에 속할 것으로 기대되는 것을 말한다.
물론 추론하는 과정에 있어 다양한 오류 또한 존재한다 다음은 그 오류들에 대한 설명이다
(4) 통계적 오용
1. 수집의 오류
루즈벨트는 떨어져
잡지 구독자와 전화기보유자를 대상으로 조사 실시 민주당인 루즈벨트의 낙선 예측, 하지만 루즈벨트가 당선
당시 잡지 구독자, 전화기 보유자는 상류층 , 보수 성향을 가진 사람들을 조사한 결과 민주당인 루즈벨트 낙선 결과가 나옴 즉 표본 추출을 편향되게 해서 이러한 문제가 발생
2. 수집자료수의 부족
우리 학과 1/3 은 CC야
하지만 공대라 여자가 학과에 3명밖에 없다면? (3명중 1명이 CC인 경우) -> 이는 충분한양의 조사가 이뤄지지 않은 상태에서 일반화를 해버린 케이스.. 즉 충분한 양의 수집 자료가 필요하다
3. 비교근거의 오류
뉴욕보다 전쟁터가 안전해요
스페인과 미국의 전쟁에서 미군은 뉴욕의 사망자가 1000명당 16명, 전쟁터인 쿠바에서의 사망률이 1000명당 9명이라는 자료를 비교해 전쟁터가 더 안전하니 미군으로 입대하라는 홍보를 했다, 하지만 쿠바에서의 표본은 미군이고 뉴욕에서의 표본은 유아, 노인이 합쳐진 수라는 것을 알아야 한다. 즉 표본의 성격이 다르기 때문에 정확한 비교가 불가능 하다
4. 제시방법의 오류
A는 B보다 3배 더 팔았어요
과연 진실일까? 단순히 막대의 크기만 비교한다면 그렇다 하지만 우린 데이터가 8000부터 시작된다는 것을 알아야 한다 A는 B보다 고작 1500많을 뿐이다
5. 부적절한 통계
가장 대표적인 오류가 평균의 오류이다. 이상치가 하나 섞여 있는 경우 평균은 매우 민감하게 반응한다. 따라서 이를 방지하기 위해 ‘절삭’을 하는데 예를 들어 10% 절삭 평균은 데이터의 작은 쪽 5%, 큰 쪽5%를 절삭한 것을 의미한다.
'데이터 공부 > 통계학' 카테고리의 다른 글
회귀분석 공부 계획 (0) | 2023.10.26 |
---|