The idea of approximation

STATA 기초 복습 본문

경제

STATA 기초 복습

Econoim 2013. 6. 8. 15:08

 

STATA 기초통계와 회귀분석
국내도서
저자 : 민인식,최필선
출판 : 한국STATA학회 2009.02.10
상세보기

 

휴일을 맞아 이 책을 복습해보고 있다. 많은 옵션을 몰라서 여러번 일했었구나 라고 감탄-_-하면서 오랫동안 stata 안쓰면 잊어먹어버리는 옵션이나 명령어들을 정리해두려고 한다.

 

** 이 책의 진짜 좋은 점은 회귀식을 돌렸을 때의 결과와 그 회귀식 결과를 직접 구하는 결과를 비교하게 하는 것이다. 계량 공부에도 좋은 책 같아 추천. 예를 들면 본 포스팅 맨 아래 있는 것처럼 이렇게 구한 것과 저렇게 구한 것의 차이를 잘 설명해준다.

 

* 표준화된 추정계수 구하기 (p131)

reg csat percent income, beta

, beta라는 옵션을 추가하면 각 X변수가 Y변수에 미치는 절대적 크기를 비교할 수 있다.

예를 들어서 소득이 sat 점수에 미치는 영향이 percent의 1/5 배라는 식으로.

 

* fitted value 만들기 (p134)

reg csat percent income

predict yhat

predict ehat, resid

일반적으로 위와 같이 predict 명령어를 써서 fitted value를 구하는데, 사실은 다음과 같이 구할 수도 있다.

gen yhat1= _b[_cons] + _b[percent]*percent + _b[income]*income

gen ehat1 = csat - yhat1

 

* 계수값 가설검정 (p142)

일반적으로 b1=0 을 검정하니까 이런 가설검정을 할 일이 없는데 가끔 b1=1 을 검정하거나 b1+b2=1 과 같은 결합검정을 할 때에는 test 를 쓴다.

reg lprice lnox ldist lproptax crime 

test lnox=1

test lnox+ldist=1

 

* outlier 진단 (p183) 은 다음 세 가지 방법 중 하나 (책에는 더 많은 방법이 나와있다.)

1) predict young, leverage  *여기서 young은 내가 만든 변수 이름

scalar meanh=3/74  *여기서 74는 데이터포인트, 3은 상수항을 포함한 설명변수 갯수

gen lev = 1 (young>2*meanh)

tab lev1

list young if lev1=1

 2) 표준화된 잔차

predict young, rstandart

gen sta1=(abs(young)>2)

list young if sta1==1

3) 스튜던트화 잔차

predict young, rstudent

gen stu1=(abs(young)>2)

list young if stu1==1

 

* 잔차, fitted value 그래프 그리기

statistics > linear models and related > regression diagnostics > residual versus fitted plot

 

* 다중공선성 확인 (p198)

vif 는 상관관계가 높은 변수로 인해 추정계수의 표준오차가 커지는 정도를 측정한다

reg hrs age nein asset

vif

일반적으로 vif가 10보다 크면 다중공선성을 의심한다. 또한 모형 각 변수들의 vif가 모두 10보다 작더라도 평균(mean vif)이 1보다 상당히 크면 역시 다중공선성의 문제를 고려해야 한다.

 

* 도구변수를 stata 명령어를 써서 하는 것과 2stages 로 내가 직접하는 것의 차이(p234)

1) ivregress 2sls lnwage exper exper2 (educ = fathereduc)

2) reg educ exper exper2 fathereduc

predict educ_hat

reg lnwage educ_hat exper exper2

여기서 1)과 2)의 차이는 추정계수는 같지만 추정계수의 표준오차가 다르다는 것이다. 또한 1)도구변수추정 에서는 추정계수의 유의성 검정을 정규분포(z분포)를 이용하여 수행한 반면, 2)2단계추정 에서는 t분포를 이용한다. 이는 ivregress 2sls 명령어를 이용하여 추정할 경우, 유의성 검정시 추정량의 점근적 분포(aymptotic distribution)를 사용하기 때문이다. 그러나 만약 추정에 사용된 관측치의 갯수가 그리 많지 않다면, small 옵션을 이용하여 추정함으로써 좀 더 정확한 가설검정이 가능하다. small 옵션을 부가하면 z분포 대신 t 분포를 사용하여 유의성을 검정한다.

3) ivregress 2sls lnwage exper exper2 (educ= fathereduc), small

 

또 여기서 도구변수의 적합성을 판단할 때 corr educ mothereduc fathereduc 과 같이 상관관계를 구해볼 수도 있고, 다른 방법으로, 경험법칙에 따르면, 위에서 방법2의 1단계 추정에서 도구변수의 t값이 3.3보다 크면 적절한 상관관계를 갖고 있다고 판단한다. 그런데 여기서 도대체 왜 3.3 일까???, 암튼 또 다른 세번째 방법으로는 ivreg 를 한 뒤에, estat first 의 실행결과로, 도구변수의 F값 유의성을 통해 도구변수 적합성을 살펴볼 수도 있다.