데이터 공부 (9) 썸네일형 리스트형 카리나와 이재용으로 이해하는 이산 선택모형의 특성 (Properties of Discrete Choice Models) 0. Intro우리 주변엔 수많은 선택이 있다.버스를 탈지 지하철을 탈지, 어떤 브랜드의 커피를 살지, 혹은 점심으로 돈까스를 먹을지 국밥을 먹을지.이런 ‘선택’들을 수학적으로 모델링하고 예측하는 게 바로 이산 선택 모형이다. ‘선택’이 일어나는 메커니즘을 이해하고, 그걸 예측 가능한 수학적 구조로 바꾸는 과정에 대해 앞으로 배워볼것이다 -> 우리의 마음속에서 일어나는 과정을 수학적 수식으로 바꾼다는 아이디어는 꽤 놀랍다1. 선택 집합 (choice set) 이산 선택 모형의 출발점은 간단하다:"사람이 무엇을 선택할 수 있는가?"사람이든, 가구든, 회사든 어떤 결정 주체가 있을 때,그들이 선택할 수 있는 옵션들의 집합을 선택집합(choice set)이라고 부른다.예를 들어 커피를 사러 간다면 ‘아메리카노.. MLE는 신이에요 0. Intro데이터를 분석한다는 건 결국 모수(파라미터)를 추정하는 일이다.모집단의 평균, 분산, 성공확률 같은 값들은 직접 관찰할 수 없기 때문에,우리는 표본을 통해 그 값들을 '추정'해야만 한다.이런 추정을 숫자 하나로 표현하면 그걸 점추정(point estimation)이라고 불렀다https://nevermind22.tistory.com/32 그런데...그 점은 대체 어떻게, 어떤 기준으로 골라야 가장 "그럴듯"할까?이 질문에 답하는 고전적이면서도 '강력한' 방법이 바로 최대우도추정법(MLE, Maximum Likelihood Estimation)이다.1. MLE 의 아이디어 최대우도추정법의 아이디어는 단순하다.“현재 내가 관측한 데이터가, 특정 파라미터 하에서 발생했을 가능성이 가장 높은 값이 .. 회귀분석의 가정 https://nevermind22.tistory.com/36 SLR, 단순선형회귀 이해하기https://nevermind22.tistory.com/35 회귀분석 시작 전 꼭 알아야 할 개념과 흐름TV 광고를 많이 하면 정말 매출이 오를까?지금 매출 데이터를 보면, 다음 달에는 얼마나 팔릴까?이런 질문들은 모두 하나의nevermind22.tistory.com앞서 SLR, 단순선형회귀를 살펴보았다. 이제 MLR, 다중선형회귀를 배워야 하지만https://nevermind22.tistory.com/35 회귀분석 시작 전 꼭 알아야 할 개념과 흐름TV 광고를 많이 하면 정말 매출이 오를까?지금 매출 데이터를 보면, 다음 달에는 얼마나 팔릴까?이런 질문들은 모두 하나의 공통된 갈증에서 시작된다.지금의 현상을 더.. SLR, 단순선형회귀 이해하기 https://nevermind22.tistory.com/35 회귀분석 시작 전 꼭 알아야 할 개념과 흐름TV 광고를 많이 하면 정말 매출이 오를까?지금 매출 데이터를 보면, 다음 달에는 얼마나 팔릴까?이런 질문들은 모두 하나의 공통된 갈증에서 시작된다.지금의 현상을 더 잘 이해하고, 앞으로를nevermind22.tistory.com앞서 적은 글에서 모델의 종류는 크게 2가지 가 있다고 했다 단순 선형 회귀와 다중 선형 회귀 다중을 이해하기 위해선 단순의 구조를 확실히 알아야 한다. 따라서 이번 시간엔 단순 선형 회귀를 이해하기 위한 선행지식을 알고 SLR 을 이해해보는 시간을 가져보고자 한다 2. SLR(Simple Linear Regression) 의 이해 2.1 Cor(공분산)과 Cov(상관계수) .. 회귀분석 시작 전 꼭 알아야 할 개념과 흐름 TV 광고를 많이 하면 정말 매출이 오를까?지금 매출 데이터를 보면, 다음 달에는 얼마나 팔릴까?이런 질문들은 모두 하나의 공통된 갈증에서 시작된다.지금의 현상을 더 잘 이해하고, 앞으로를 더 잘 예측하고 싶다는 욕구.회귀분석은 바로 이 두 가지 목적을 위한 도구다.이해하기 — 무엇이 결과에 영향을 주는가?예: 날씨, 요일, 위치, 광고비가 카페 매출에 어떤 영향을 주는지 분석예측하기 — 앞으로 어떤 일이 일어날까?예: 광고비를 30만 원 쓸 예정이라면 예상 매출은 얼마일까? 현실의 질문을 수학적 모델로 바꾸는 과정,즉 회귀분석의 전체 흐름을 단계별로 소개하고 그 기본적인 아이디어에 대해 설명하고자 하며각 단계에 대해 자세한 글은 추후 하나씩 적을 계획이다일단 지금은 이해보단 그 흐름과 용어에 익숙해 지.. 통계적 유의미성의 판단: 가설검정과 검정 방법 총정리 10.0 Intro데이터를 보다 보면, 어느 순간 이런 질문이 생긴다:"이게 진짜 우연일까? 아니면 뭔가 의미 있는 차이일까?"예를 들어, 새로운 약을 썼더니 환자들이 더 빨리 나았다면, 그게 약의 효과일까, 아니면 그냥 운 좋게 그런 결과가 나온 걸까?이처럼 우리가 관찰한 결과가 ‘우연’인지 ‘의미 있는 차이’인지를 판단하는 게 바로 가설 검정(hypothesis testing)이다.표본 데이터를 바탕으로, 우리가 세운 가설이 맞는지 틀린지를 판단하는, 즉 통계적 의미를 찾는 과정이다여러 가설검정 방법이 있지만 이번 장에서는 통계에서 특히 자주 쓰이는 가설 검정들을 정리해보려 한다.데이터를 다루는 사람이라면 한 번쯤은 마주치게 되는 검정들이고, 다양한 분야에서 이미 널리 쓰이고 있다.우리가 살펴볼 검정.. 가설검정 : p-value로 통계적 의미를 해석하는 법 Chapter 09. 가설검정 (Hypothesis Testing): 연구자가 내린 주장(가설)이 통계적으로 의미가 있는지를 판단하는 방법 우리는 데이터를 분석하면서 늘 질문을 던진다.“이게 정말 우연이 아닐까?”“눈에 보이는 이 차이가 ‘진짜’일까, 아니면 그냥 운이었을까?”가설검정은 바로 이 질문에 답하는 절차다.실험에서 어떤 결과가 나왔을 때, 그걸 ‘믿어도 되는지’ 결정해주는 논리적 장치다.예를 들어, 어떤 약을 먹고 나서 평균 체중이 줄었다고 하자.이 결과가 단순한 우연인지, 아니면 정말 약의 효과인지를 판단하는 것 —그게 바로 가설검정(Hypothesis Testing)의 역할이다.이 장에서는 가설을 세우고, 그 가설을 검정하며,그 결과를 가지고 통계적으로 "기각할 것인가, 유지할 것인가"를 .. “평균이 48.3%입니다”가 전부가 아닌 이유 8.2 신뢰구간우리는 지금까지 추정'값'(하나의 숫자!)(estimates)을 구하고, 그 불확실성(표준편차)까지 함께 제시하는 것이 왜 중요한지를 배웠고, Measurement Model을 통해 이러한 추정값들이 이론적으로 신뢰할 수 있는 이유도 확인했다. 추정이란 무엇인가 — 통계적 추론의 첫걸음8.0 Intro우리는 매일같이 불완전한 정보 속에서 판단을 내리며 살아간다. 날씨 예보를 믿고 우산을 챙길지 말지 결정하고, 친구들이 맛있다고 한 식당에 가볼지 고민한다. 이렇게 불완전한 정보nevermind22.tistory.com 하지만 하나의 숫자(점 추정)만 제시하는 것은 여전히 제한적이다.왜냐하면 우리는 모집단의 진짜 값이 어디에 있는지 알 수 없고, (4시에 도착해! 보단)단지 "이 정도 범위 안.. 이전 1 2 다음