The idea of approximation

Treatment Effect / 계량 더미와 샘플의 범위 본문

경제

Treatment Effect / 계량 더미와 샘플의 범위

Econoim 2008. 9. 29. 22:17
* 다음은 국회예산정책처 전문가 간담회(2008.9.29) 자료, Treatment Effect Analysis for Observational Data: Dealing with Unobserved Differences (이명재, 고려대)에 관한 정리 + 생각입니다.

Treatment effect는 말 그대로 'treatment'에 의해서 종속변수가 얼마나 영향을 받는가에 관한 것이다. 예를 들면, 박사학위의 존재가 소득의 상승효과를 가져오는가에 대해 다른 변수들이 동일할 경우에, 박사학위라는 treatment의 income에 대한 효과를 측정하는 것. 즉, E(y|d=1)과 E(y|d=0)의 차이를 의미, 두 그룹은 다른 모든 측면에서는 유사하다.

E(y1)=E(y0)임에도 불구하고, E(y|d=1)과 E(y|d=0)은 다를 수 있는데, 이러한 차이는 관찰가능하기도(GDP, 인구 등)하고, 관찰가능하지 않기도(문화, 유전자, 개인의 능력) 하다. 전자는 overt bias라고, 후자는 covert(hidden) bias라고 한다.

관찰가능한 X 변수에 대해서 matching 하는 기법에 관한 연구가 많이 이루어지고 있다. 예를 들면 mathing을 어떻게 1:1로 하느냐, 혹은 여러가지 가능한 쌍들을 모두 matching 하되, X가 비슷한 경우 가중치를 많이 주고, 비슷하지 않은 경우 가중치를 작게 주는 방법 등. 이 matching 의 quality를 판별하는 방법은 Xi 변수들의 분포가 얼마나 비슷한지, 예를 들면 성비나 나이 등의 분포가 balanced 되었는지를 보면 된다.

그렇다면,

1) 더미변수와의 차이점은?

dummy 변수를 사용하는 것은 parametric한 방법이고, 모델이 틀렸을 경우에는 추정결과를 신뢰할 수 없으며,
matching 기법은 non-parametric한 방법인데, 모형의 제약이 존재하지 않아 더 일반적으로 사용할 수 있다고 한다.

물론 모델이 틀리면 결과도 틀렸다는 건 알겠지만, 그래서 최대한 이론적 배경을 바탕으로, 통제변수 X 들을 설정해서 모델화하는 거 아닐까? matching 기법이 unknown function of x1, x2를 허용한다고는 하지만, matching 기법에서 E(y|x1, x2)가 local weight average of y with x1, x2 라는 정의는 이해가 간다만, x1, x2의 함수 모양에 대해서는 알기 어렵다면 결국엔 더미변수만 사용하게 되지 않을까란 생각이 자꾸 들었는데, 물론 이해의 깊이가 낮아서일테다.-_-

2) Difference in Differences (DD) 방법은

d1,e->y, d2,e->y 라면, e를 빼버리면 d1과 d2의 차이만 남는다는 건데, 막연한 생각에는 공통요소를 뺌으로써 일어나는 문제가 있지 않을까 싶다.

3) 덧붙여 생각난 것

더미를 공부하다보면 항상 궁금한 점인데 제대로 해결(?)된 적은 없는 것 같아 메모해 본다. 산업별 유효세율 부담의 차이를 분석할 때, 산업을 더미별로 넣는 것과, 산업별로 따로 회귀계수를 구하는 것과의 차이점은? 아마도 전자는 각 산업별 유효세율로 유의한 차이가 있는가를 분석할 때, 후자는 'y의 수준'을 더 중요하게 볼 때 사용하는 것 같은데 또 차이점이 있을 것 같다. 그리고 Chow test: 같다 다르다 여부만 보는 반면, 더미는 절편만/ 기울기만/ 혹은 둘다 다른지 검정할 수 있는 차이인 것과 같을 것 같다. 그리고 자유도도 차이가 날 것이고... 또....