사람들은 내가 가장 만족할 선택을 한다
아주 기본적인 가정이다.
정부, 병원, 제약회사도 같은 가정을 한다
“사람들은 왜 어떤 병원을 택하지?”
“어떤 약을 선호하지?”
“신약이 출시되면 얼마나 쓸까?”
그걸 데이터로 예측하는 게 바로 오늘 다룰 핵심 개념,
바로 이산선택실험(Discrete Choice Experiment, DCE)이다.
흔히하는 밸런스 게임도 이산선택 실험의 한 예시라고 볼수 있다
속성(attribute)들을 저울질하고,
그걸 바탕으로 효용(utility)을 계산해서
‘나한테 더 나은 쪽’을 택하는것
밸런스 게임 그 자체이다.
물론 이걸로 DCE(이산선택실험의 준말, 앞으로 이렇게 이야기 할거다)를 정확하게 설명하기엔 무리기 있기에
Lancsar & Louviere (2008)의 논문
「Conducting Discrete Choice Experiments to Inform Healthcare Decision Making」를 바탕으로,
왜 DCE가 필요한지
어떻게 실험 설계가 이루어지는지
DCE로 무엇을 분석하고 해석할 수 있는지
에 대해 심도있게 배워보도록 하자.
(절대 어려운 내용이 아니다,
우리들 모두 밸런스 게임이 어떻게 작동하는지 충분히 이해하고 있다.
다만 DCE는 이를 좀 일반화 하는 과정이라 생각해보자)
참고로 MLE, 이산선택모형, 로짓모형에 대한 선행학습이 이루어졌다 생각하겠다. (모르겠다면 복습하고 오자)
1. 이산선택실험(DCE)과 경제평가, (DCE 예찬론)
이산선택실험(Discrete Choice Experiment, DCE)이란 무엇인가
"사람들에게 여러 옵션 중 하나를 고르게 하고,
그 선택을 통해 그들이 뭘 중요하게 여기는지를 추정하는 방법.”
예를 들어보자.
"어떤 인생을 선택하시겠습니까?"
1000억부자 유병재
VS 무일푼 차은우
이런 식으로 선택지를 주고, 사람들이 어떤 걸 고르는지를 관찰하면
→ “사람들이 돈보다는 얼굴을 더 중요하게 여기는구나!”
→ 혹은 “1000조가 있다면 얼굴을 이길수도 있지 않을까?”
이런 자연스러운 생각의 흐름이 따라오게 된다
이런 식의 속성 간의 '트레이드오프'를 수학적으로 계산할 수 있다.
(정말 놀라운 일이 아닌가 밸런스 게임을 수학적으로 계산한다니)
선택에 있어 트레이드 오프의 계산은 정말 너무 중요하다,
사실 자원이 한정된 현실세계에서 모든게 트레이드 오프라 봐도 무방하다
그럼 착각을 할수 있다
DCE는 단순히 “어떤 게 좋아요?”라고 묻는 게 아닌가?
그렇지 않다
선택 상황을 인위적으로 구성하고,
속성(attribute)과 수준(level)을 조작하면서,
실제 시장에서는 존재하지 않는 가상의 옵션들까지 만들어볼 수 있다.
좋은건 알겠지만... 직관적으로 와 닿지는 않는다. 차은우와 유병재를 다시 데려와 보자
선택상황을 인위적으로 구성 -> 1000억부자 유병재 VS 무일푼 차은우 (유병재가 1000억을 가질 경우, 차은우가 무일푼일 경우는 말 그대로 인위적으로 구성된 상황이다)
속성과 수준을 조작 -> 1000억부자 유병재 + 키 180 -> 10조부자 유병재 + 키 190 (이런식으로 속성과 수준을 조작할수 있다)
아주 정확한 내용은 아닐수도 있다
그래도 지금은 이런게 있구나 정도로 익숙해 지는데 초점을 두자 (앞으로 이야기 하는 내용들 또한 마찬가지 이다)
또한 DCE 의 핵심은 경제적 가치 평가까지 확장할 수 있다는데 있다
즉 가치 평가를 기분으로 우선순위를 설정할 수 있다. 다음은 그 방식들과 예시 이다
CEA (비용-효과 분석) | 단위 효과당 비용 | 혈압 강하, 암 발견율 등 |
CUA (비용-효용 분석) | QALY(삶의 질 + 수명) 기준 | 1 QALY당 비용 |
CBA (비용-편익 분석) | 편익을 화폐로 환산 | WTP(지불의사금액) 등 |
DCE는 이 중에서도 특히 CUA와 CBA 쪽에서
결과 지표(효용, 편익)를 직접 생성할 수 있는 잠재력을 가진다.
예를 들어, DCE를 이용해
“사람들은 이 치료를 위해 얼마까지 낼 의향이 있는가?”
“QALY 1단위는 대체 얼마짜리 가치가 있는가?”
이런 걸 추정할 수 있다.
이러한 특징을 가지기에
→ 기존의 관찰 데이터(리얼 월드)를 쓸 수 없거나
→ 시장에 아직 나오지 않은 서비스라면
DCE는 정말 유용한 수단이 될 수 있다.
(특히 비시장재(의료, 공공재)에선 매우 유용 -> 정책결정과 밀접한 연관)
2. 이론적 기반
앞선 글에서는 이산선택실험(Discrete Choice Experiment, DCE)를 간단하게 훑어보았다
간단하게 훑어본 만큼 어떻게 쓰이는 지는 알지만 그 작동원리에 대해서는 직관적으로 와 닿지 않는다.
이걸 이해하려면 두 가지 이론적 기둥을 알아야 한다:
랜서스터(Lancaster)의 수요이론
무작위 효용 이론(Random Utility Theory, RUT)
2.1 속성에 대한 수요: Lancaster의 시선
전통 경제학에서는 소비자가 상품 그 자체를 소비한다고 본다.
예: "사람은 차를 산다", "사람은 병원을 선택한다."
하지만 Lancaster는 "사람이 원하는 건 상품이 아니라, 상품이 지닌 속성이다." 라고 말한다
예를 들어 유병재와 차은우중 유병재를 고른다고 할 때,
중요하게 여겨지는 것은:
1000억
유머
앙증맞음
착함...
뭐 더 있을거다..
즉, ‘유병재’라는 대안은 여러 속성의 묶음일 뿐이고,
선택은 이 속성들의 조합에 따라 이루어진다.
-> 익숙한 내용 아닌가? 맞다 이산선택모형의 유틸리티 = 관측 가능한 속성(1000억) + 관측 불가능한 속성(유머,앙증맞음,착함의 정도) 이다.
이 개념이 DCE의 핵심이 된다.
→ 실험에서는 속성(attribute)과 수준(level)을 조작하여 선택지를 만든다.
2.2 무작위 효용 이론 (Random Utility Theory)
이거 우리가 이전에 배운 내용과 같다.
Uij=Vij+εij
Vij: 관측 가능한 체계적 효용 (속성에 기반한 선호)
εij: 관측 불가능한 무작위 오차항 (개인적 기호, 컨텍스트, 측정오차 등)
기억이 안난다면 다음을 참고하자. 기억나야 한다.
https://nevermind22.tistory.com/39
카리나와 이재용으로 이해하는 이산 선택모형의 특성 (Properties of Discrete Choice Models)
0. Intro우리 주변엔 수많은 선택이 있다.버스를 탈지 지하철을 탈지, 어떤 브랜드의 커피를 살지, 혹은 점심으로 돈까스를 먹을지 국밥을 먹을지.이런 ‘선택’들을 수학적으로 모델링하고 예측
nevermind22.tistory.com
2.3 조건부 로짓모형 (Conditional Logit Model)
이것도 배운 내용이다 간단하게 정리하고 잘 모르겠다면 참고 링크를 꼭! 참고해서 읽어보아야 한다
RUT의 구조를 바탕으로 특정(Gumbel)분포를 가정하면,
선택 확률을 구하는 수식이 딱 떨어진다.
로짓 모델의 형태다. (시그모이드 func)
간단히 말하면:
Vni가 높을수록 (즉, 효용이 높을수록)
선택될 확률도 기하급수적으로 커진다
다른 모든 대안 j들과의 상대적인 효용 차이에 따라 결정된다
예시를 생각해보자
이게 로짓 모델의 민감도이다.
아직 잘 모르겠다면 다음 글을 참고하자
https://nevermind22.tistory.com/40
점심메뉴선택으로 이해하는 Logit 모델
1. 로짓 모델의 유도https://nevermind22.tistory.com/39 카리나와 이재용으로 이해하는 이산 선택모형의 특성 (Properties of Discrete Choice Models)0. Intro우리 주변엔 수많은 선택이 있다.버스를 탈지 지하철을 탈
nevermind22.tistory.com
3. DCE 수행 절차 (본격적인 시작) -> 설문지 설계
이재부턴 논문의 내용을 좀 본격적으로 살펴보고자 한다
3.1 선택 데이터 생성 실험 설계
앞서 이산선택실험(DCE)의 개념과 이론적 기반을 다뤘다.
효용이란 게 속성들의 조합에서 나오며, 그걸 수학적으로 모델링할 수 있다는 것도 확인했다.
이제 그 프로세스를 하나하나 뜯어가며, 구동 방식을 정확히 이해해 보자
3.1.1 선택 과정 개념화:
사람들이 실제로 하는 선택과 최대한 닮아 있어야 한다.
즉 응답자가 마치 진짜 선택을 하고 있는 것처럼 느껴야 한다.
병원 선택 DCE를 설계하면서 "서비스 A vs B"만 강제로 고르게 한다면,
실제론 "나는 그냥 가까운 동네 의원 갈래"가 진짜 선택일 수도 있다.
이걸 무시하면 응답자의 선택 전략이 왜곡될 수 있다.
이러한 고민 속에서 강제 선택 vs. 선택 회피(opt-out) 옵션 또한 고려해야 한다
강제 선택 (forced choice): "무조건 하나 골라!"
→ 통계적으로 깔끔하고, 모형 식별이 쉬움
선택 회피 (opt-out): "어떤 것도 고르지 않을 수 있어요"
→ 현실 반영도 높고, 후생 측정이 가능
최대한 현실을 고려해, '내가 만약 선택자라면' 이라는 고민을 끊임없이 생각하여 선택과정을 개념화 해야 한다.
3.1.2 속성과 수준 정의:
이제 그 구체적인 첫 스탭이다. 어떤 속성을, 어떤 수준(level)으로 넣을 건가에 대해 답하는건
DCE 설계의 기반이다 (모형의 추정 가능성과 정책 해석력을 결정짓는 가장 핵심적인 단계)
속성(attribute) = 사람들이 고려하는 요소들 (ex. 가격, 대기시간, 병원 종류)
수준(level) = 각 속성이 가질 수 있는 구체적인 값 (ex. 가격: 0원, 1만 원, 2만 원)
속성은 어떻게 고를까?
문헌 검토 + 인터뷰 + 포커스 그룹 등을 활용하여 다음과 같은 포인트를 고려해야 한다
이론적 타당성: 경제학적으로 의미 있어야 함
→ 사람들이 진짜 고려할 만한 요소인가?
정책적 연관성: 정책 설계나 평가에 활용될 수 있어야 함
→ 선택 결과를 바탕으로 실질적 의사결정이 가능한가?
응답자 중심 관점: 사람들이 실제로 이해하고 판단 가능한가?
→ 너무 기술적이거나 추상적이면 무의미
수준은 어떻게 설정할까?
속성을 골랐으면, 그 속성의 "구체적인 값"인 수준을 정해야 한다.
현실성을 고려하여 수준을 설정하는게 중요하다
속성: 대기시간 → 수준: 10분, 30분, 60분
속성: 진료비용 → 수준: 0원, 5천 원, 1만 원
속성: 병원 종류 → 수준: 개인의원, 종합병원, 보건소
그외에도 현실성을 최대화 할수 있는 다양한 방법을 사용해야 한다. -> 핵심이다
현직자 인터뷰, 현장 답사 등등..
3.1.3 실험 설계 생성:
지금까지 사람들이 무엇을 고려하는지(속성), 그걸 어떤 단위로 표현할지를 정했다(수준).
이제 속성과 수준들을 조합해서 사람들이 실제로 고를 선택지를 만들어야 한다.
이게 바로 실험 설계(experimental design)다
전수조합(Full Factorial): 이론적으로 완벽하지만 현실은 무리
예를 들어 속성이 4개고,
각 속성마다 수준이 3개씩 있다면? 3×3×3×3=81개의 조합이 만들어진다
이걸 모두 응답자에게 보여준다면... 아무도 응답하지 않을것이다...
부분조합(Fractional Factorial): 꼭 필요한 비교만 뽑아내기
따라서 속성과 수준의 ‘전체 조합’ 중 일부만 선택해서도 충분히 정보 추론이 가능하도록
통계적으로 잘 짜인 하위셋을 만들어야 한다. 그때 고려해야 할것이 있는데 그 중심이 되는것이 다음과 같다.
D-효율성(D-efficiency)
D-효율성은 설계가 β 계수들을 얼마나 정확하게 추정 가능하게 하는지를 수치화한 지표다.
좀 어려운 소리일수 있는데, 중복을 최소화한 질문을 하라는 뜻으로 받아들여도 좋을듯 싶다
직관적으로 받아들이기 힘든 내용이기에 예시를 들고왔다.
예시 1) 문제: 속성 변화 없음 → 정보행렬의 행렬식 = 0
→ D-효율성 = 0 → 나쁜설계
1 | 1만 | 30분 |
2 | 1만 | 30분 |
3 | 1만 | 30분 |
4 | 1만 | 30분 |
예시 2) 다양한 속성 수준의 조합 → 파라미터의 식별성 확보
→ D-효율성 ↑, 추정 정확도 ↑ → 좋은설계
1 | 1만 | 10분 |
2 | 2만 | 30분 |
3 | 1.5만 | 20분 |
4 | 0.5만 | 15분 |
설계가 좋으면: β 추정의 분산이 작고 정확도 높음
설계가 나쁘면: 추정 불안정, p-value 안 나옴, 해석 무의미
→ 효율성 100이 가장 이상적이고, 떨어질수록 정보가 덜 효율적이다.
차단(Blocking): 나눠서 보여줘라
응답자에게 16개의 선택지를 한꺼번에 보여주면?
→ 집중력 떨어지고 무작위 선택 가능성 증가.
그래서 차단(blocking)이라는 전략을 사용한다
보통 실험 설계를 하면,
16개, 24개, 심지어 36개 선택셋이 생길 수 있다.
그런데 사람은 한 번에 8~12개 이상 선택질문을 처리하기 어렵다.
따라서 전체 실험설계를 여러 그룹(block)으로 쪼개서,
→ 응답자 1인당 몇 개만 보여주는 전략
예시는 다음과 같다
전체 설계: 24개의 선택세트
1개 응답자에게 24개 질문을 모두 던지면?
→ 중간부터 무의식적으로 답하거나, 무작위 선택할 확률 ↑
→ 신뢰도 ↓
차단 전략:
24개를 6개씩 나눠 4개 블록(block) 생성 각 응답자에겐 랜덤하게 1개 블록만 할당
→ 각 응답자는 6개 선택셋만 응답
결과:
응답자는 덜 피곤함 전체 데이터는 여전히 24개의 선택셋에 대해 고르게 수집됨
지금까지 내용은
안겹치고 다양하게, 단순화 하여 구성한다.
로 정리할수 있다.
3.1.4 파일럿 테스트:
속성과 수준을 정하고,효율적인 설계도 끝냈다
이제는 진짜 현장에 내보낼 준비를 해야 한다.
DCE는 ‘설문처럼 생긴 실험’이다.
수학적으로 완벽해 보여도, 실제로 사람들이 이해 못하면 무용지물이기에
정식 설문에 들어가기 전, 반드시 사전 점검을 한다. 그것이 파일럿 테스트다.
다음과 같은 질문을 확인해 봐야 한다.
이해도
질문이 논리적으로 이해되는가? 용어가 헷갈리지 않는가?
속성·수준의 적절성
현실적인가? 너무 극단적이거나 무의미한 조합은 없는가?
응답 시간
한 세트당 몇 초 걸리는가? 총 설문 시간은 적절한가?
인지 부담
“아 몰라요…”라는 반응이 나오지 않는가?
3.1.5 샘플링:
실험이 잘 작동하는 걸 확인했다면,
이제는 누구에게서 데이터를 얻을지를 결정해야 한다.
어떤 집단의 선호를 측정할 것인가? 에 대해 답변할 수 있어야 한다
환자: 치료나 서비스 이용자
납세자: 공공 자금 사용의 부담 주체
의료인: 정책 실행의 실무자
정책결정자: 자원 배분의 설계자
선택 기준: 기회비용 관점
"누구의 선택이 자원 배분에 영향을 미치는가?"를 기준으로 샘플을 정해야 한다.
즉 이해관계자를 정확하게 파악하는게 중요하다 (정말 중요하다)
표본의 대표성 또한 고려해야 하며 → 일반화를 위한 인구통계학적 분포를 고려해야 한다.
3.1.6 자료 수집:
우편조사, 인터뷰, 웹조사 등 다양한 채널을 통해 실시한다. 이때 각 채널의 특성과 장단점을 고려할 필요가 있다
웹조사 | 저렴하고 빠름 | 디지털 접근성 편향 우려 |
우편조사 | 고연령층 접근 가능 | 응답률 낮고 시간 오래 걸림 |
인터뷰 조사 | 심층적 피드백 가능 | 인건비 높고 진행 복잡 |
또한 응답률 향상과 편향 최소화 고려해야 하며 다음과 같은 방식으로 응답율을 향상시키고 편향을 최소화 시킬수 있다
응답률 향상 전략: 리마인더 이메일, 소정의 보상 등
응답 편향 방지: 익명성 보장, 설명문 명확화 등
지금까지 질문을 어떻게 구성해야 하는지에 대해 알아보았다. 사실 상식적인 내용도 있고
질문지를 한번쯤 만들어본 사람들이라면 더 이해하기 쉬웠을 것이다.
이전에 적은 유저인터뷰 관련 질문지 작성법이다. 추가로 고려한다면 더 좋은 질문을 설계할수 있을것이라 생각한다
https://nevermind22.tistory.com/10
유저 인터뷰 총정리 1탄, 유저 인터뷰 기초 개념과 인터뷰 준비
유저 인터뷰를 준비하기 위한 많은 글들이 존재하지만 막상 그 글들을 읽기엔 양이 너무나 방대해 쉽게 건드리지 못하는 것이 현실이다.. 그래서 이번 프로젝트엔 인터뷰를 제대로 준비해 보자
nevermind22.tistory.com
https://nevermind22.tistory.com/11?category=1335587
유저 인터뷰 총정리 2탄, 실전에 적용할 포멧 만들기
저번주에 배우고 정리한것을 바탕으로 실제 인터뷰를 설계해 보았습니다 인터뷰 포멧을 다음과 같이 구성했습니다 인터뷰의 목적 가설과 가정 목적을 달성하기 위해 어떤 질문을 할 것인가 후
nevermind22.tistory.com
https://nevermind22.tistory.com/12?category=1335587
유저 인터뷰 총정리 3탄, 실제 질문지
저번 포멧을 바탕으로 실제 질문지를 제작해 보았다 하나하나 질문지를 뜯어가며 분석해 보자 목표 : 중소기업 사장님들의 고졸 채용 방식에 대한 도메인 지식 획득 가설검증 가설 : 중소기업은
nevermind22.tistory.com
3.2 이산선택 분석
3.2.1 변수 코딩:
텍스트로 쓰여 있는 속성과 수준을 수학적으로 모델에 넣으려면,
변수를 숫자로 코딩해야 한다. 흔히 생각하는 인코딩을 생각하면 될듯 싶다.
예를 들어 병원 유형이 다음과 같이 3개 있다고 하자:
공공병원 민간병원 대학병원
이걸 단순히 텍스트로 분석에 넣을 순 없으니,
0/1로 구성된 변수로 바꿔야 한다. 그 방식에 대해 설명하고자 한다
2) 더미 코딩 (Dummy Coding)
가장 많이 쓰이는 코딩 방식으로
기준(reference) 범주를 하나 정하고 나머지를 0/1로 표시.
공공병원 | 0 | 0 |
민간병원 | 1 | 0 |
대학병원 | 0 | 1 |
→ 공공병원이 기준 범주로 해석되고,
민간병원·대학병원은 그 기준 대비의 효용 차이로 해석된다.
해석 직관적 → 기준 수준이 명확한 경우 적합한 경우에 사용한다.
3) 이펙트 코딩 (Effects Coding)
기준 범주를 0으로 두는 대신, –1로 코딩해서
모든 수준의 계수가 평균을 중심으로 해석되도록 만드는 방식.
공공병원 | –1 | –1 |
민간병원 | 1 | 0 |
대학병원 | 0 | 1 |
→ 공공병원의 계수는 **β₀ = –(β₁ + β₂)**로 추정됨.
즉, 해석은 수준들 간의 중심(평균) 기준의 차이로 바뀜.
평균 중심 해석이 필요할때 사용한다
3.2.2 모형 형태:
기본적인 로짓 모델(Conditional Logit)은 다음 두 가지를 가정한다:
모든 사람은 같은 방식으로 선택한다
→ 예: 모두가 ‘대기시간 10분’이 ‘5분’만큼 좋다 느낀다 (기호 차이 없음)
선택지 간에 독립적이다
→ 예: A를 선택할 확률은 B가 있든 말든 똑같다 (대체재 상관 없음)
하지만 현실은 그렇지 않다. 그래서 이 가정을 완화한 모델들이 필요하다.
앞으로 그 대표적인 예시 몇가지를 살펴볼 것이다
1) 혼합 로짓 (Mixed Logit, Random Parameters Logit)
"모든 사람이 같은 취향일 리 없다"
그래서 아예 개인마다 β(선호 계수)가 다르다고 가정하는 모델입니다.
즉,
βn∼확률분포
예: 정규분포, 로그정규분포 등
이렇게 되면, 각 개인은 자신만의 효용 함수를 갖게 됩니다.
직관적으로 이해하기 힘들기에 예시를 가져왔다
의료 서비스에 대한 선호
사람마다 "가격"에 대한 민감도가 다르다
학생: 1천 원 차이도 크게 느끼는 사람 (β가격 = –2.0)
직장인: 비교적 둔감 (β가격 = –0.5)
이런 이질성(taste heterogeneity)을 모형이 직접 반영할 수 있다.
또한, 동일한 사람이 여러 번 응답했을 경우에도,
그 사람 고유의 β가 반복 선택에 영향을 주게 됩니다.
→ 개인의 일관된 성향을 반영할 수 있으며
한줄로 정리하면 선택 데이터를 보고, 사람들이 속성 중 어떤 걸 얼마나 중요하게 생각하는지를 수치화하는 과정이라 생각하면 될 듯 싶다.
다항 프로빗 (Multinomial Probit)
이번에는 무작위 오차항 εij를 Gumbel 분포가 아니라 정규분포로 가정한다
그런데 중요한 건,
정규분포는 서로 상관관계를 가질 수 있다
즉, 두 선택지 간 오차항이 연관되어 있다는 게 모델에 반영될 수 있다
예: 피자와 치즈피자 → 선택지 간 오차가 상관되어 있음 (비슷하게 느껴짐)
예: 이비인후과 A와 B → 대체 관계가 강함
MNP는 이런 "비대칭 대체패턴"을 반영할 수 있다
3.2.3 타당성 검증:
Discrete Choice Experiment로 추정한 결과가 현실에서 유용하려면,
그 모형이 이론적·실제적 맥락에서 신뢰할 수 있는가?
를 검증하는 해야 하며 이를 타당성 검증(validation)이라고 한다.
1) 내적 타당성 (Internal Validity)
“내가 설계한 모형이 내가 의도한 경제학적 논리와 일치하는가?”
추정된 계수들이 이론적 직관에 부합하는지 확인한다
예를 들어
가격 계수는 음수여야 함 (가격 ↑ → 효용 ↓)
효과(치료율) 계수는 양수여야 함 (효능 ↑ → 효용 ↑)
교호작용(interaction) 항의 방향과 의미도 이론에 맞는지 검토
예를들어
고소득자 × 가격 = 민감도 ↓ → 부호는 양수
모형 적합도 지표 확인한다. 다음과 같은 방식들이 있다.
로그우도(Log-likelihood)
맥파든 R² (pseudo R²)
AIC/BIC 등 정보기준
중복 선택지(validity traps) 활용 (... 중복을 최소화 해야하는데... 이게 맞나 싶음)
일부 선택셋을 반복 제시해서 응답의 일관성 확인하는 방법이다
예를들어 같은 질문 두 번 주고, 다른 답을 하면 내적 타당성 낮다고 판단할수 있다 (일관성이 없음)
2) 외적 타당성 (External Validity)
“모형이 실제 세상에서 일어나는 행동을 얼마나 잘 설명하는가?”
현실 선택 데이터(real-world choices)와 비교한다.
예를들어 병원 방문 기록, 약 처방 기록과 비교할수 있다.
시장 점유율 예측과 비교
예: DCE로 "이 약이 60% 점유율일 것"이라 했는데 실제 시장에서 20%라면 → 외적 타당성 낮다고 생각할 수 있다
현장 실험(field experiment)이나 정책 시뮬레이션과 비교
→ 정책 개입 전/후의 실제 변화와 DCE 예측의 일치 여부
검증용 데이터셋(out-of-sample test) 사용 (머신러닝 테스트, 트레인셋 활용하듯이)
→ 모형 추정에 쓰지 않은 데이터로 예측력 평가
3.3 해석 및 정책적 응용
이제 다 와간다(진짜 길고도 험악한 분량이다)
이산선택실험(DCE) 결과를 어떻게 해석하고, 정책·실무에 활용할 수 있는가를 이야기 해보고자 한다
DCE는 단지 “사람들이 뭘 골랐는가”를 분석하는 게 아니라,
앞으로 무슨 일이 일어날지 예측하고,
그 선택에 얼마만큼의 가치가 있는지를 추정하는 데 그 목적이 있다. 하나하나 살펴보자
선택확률 예측:
DCE에서 추정된 효용 모형과 β를 사용하면,
특정 대안 j가 선택될 확률을 계산할 수 있다
이를 통해 정책 수용률 예측, 수요 예측이 가능해진다
예를들어
“모든 병원의 대기시간을 10분 줄이면, 이용률이 몇 % 증가할까?”
→ 새로운 Vij계산 후, 확률 변화를 시뮬레이션 할 수 있다
한계대체율 (Marginal Rate of Substitution, MRS)
“응답자는 어떤 속성을 다른 속성과 얼마나 바꿀 의향이 있는가?” 즉 두 속성 간의 교환 비율을 계산할 수 있다.
예를 들어
, β비용=−0.01 이라면
MRS = 5 → 사람들은 10분 줄이기 위해 5천 원까지 낼 의향이 있다 로 해석할 수 있다
WTP / CV (Willingness To Pay / Compensating Variation)
“응답자는 이 속성 조합에 대해 얼마를 낼 의향이 있는가?” 정말 중요한 질문이다
WTP (지불의사금액)
속성 하나에 대해 “얼마까지 지불할 의향이 있는가”에 대한 답을 할 수 있다
예를 들어
β대기시간=−0.03 β비용=−0.01 이라면
→ WTP = 3 → 사람들은 1분 줄이기 위해 3천 원까지 낼 의향이 있음 으로 해석할 수 있다
CV (보상변화량, Compensating Variation)
속성 전체가 변할 때 그 변화가 주는 효용을 화폐 가치로 환산하는 방법으로
→ 정책 도입 전/후 효용차를 돈으로 바꿔보는 방법이다
예를 들어
A 서비스를 개선하여 V가 0.5만큼 증가
β비용=−0.01
→ CV = 0.5/0.01=50,000
→ “이 개선은 사람들에게 5만 원의 가치를 주었다”는 뜻 으로 해석할 수 있다.
4. 결론
이산선택실험(DCE)은 사람들이 실제로 어떤 선택을 하는지를 통해 그들의 선호를 추정하고,
속성 간의 상대적 중요도를 수치화하는 방법이다.
가격, 대기시간, 병원 유형과 같은 속성(attribute)을 조합해 선택지를 만들고,
사람들이 어떤 선택을 하는지 관찰함으로써 각 속성이 효용에 미치는 영향을 추정할 수 있다.
이로부터 선택 확률을 예측할 수 있고,
속성 간 교환비율(MRS), 지불의사금액(WTP), 보상변화량(CV) 등 다양한 경제적 해석이 가능해진다.
이를 통해 정책 수용성, 수요 예측, 복지 변화 측정 등 실질적인 의사결정에 활용할 수 있다.
DCE는 특히 관찰 불가능한 시장 상황이나 비시장재(의료, 공공재 등)에 대해 유용하며, 이론적 기반(랜서스터 수요이론, 무작위 효용 이론)과 통계모형(조건부 로짓, 혼합 로짓, 다항 프로빗 등)을 통해 구조화된 분석이 가능하다.
핵심은 사람들이 ‘선택’을 통해 표현하는 정보를 정량화하고,
그로부터 실질적인 정책적 시사점을 끌어낼 수 있다는 데 있다.
'데이터 공부 > 2025_하계_학연생' 카테고리의 다른 글
Stata를 활용한 LCL (3) | 2025.07.24 |
---|---|
점심메뉴선택으로 이해하는 Logit 모델 (2) | 2025.07.21 |
카리나와 이재용으로 이해하는 이산 선택모형의 특성 (Properties of Discrete Choice Models) (1) | 2025.07.17 |
MLE는 신이에요 (5) | 2025.07.14 |
회귀분석의 가정 (1) | 2025.07.11 |