티스토리 뷰
예측이 잘 될지 판단하는 요소
- 영향을 주는 요인을 얼마나 잘 이해할 수 있는지
- 사용할 수 있는 데이터가 얼마나 많은지
- 예측이 우리가 예측하려는 것에 영향을 줄 수 있는지 여부
그러나 환율처럼 예측 자체가 영향을 주기도 함. -> “효율적인 시장 가설(efficient market hypothesis)”
예측은 정량, 정성 두가지 방법으로 나뉨.
정성은 짐작이 아님.(나중에 배움)
정량적인 예측은 다음 두 가지 조건이 필요함
- 과거 수치 정보를 사용할 수 있을 때
- 과거 패턴의 몇 가지 양상이 미래에도 계속될 것이라고 가정하는 것이 합리적일 때
예측변수와 시계열 예측
예측변수 : 예측하는데 사용되는 변수
시계열 예측 : ED값을 예측한다고 하면 과거의 ED값을 함수에 입력함
혼합모델 : 다이나믹 리그레션 등 다양하게 불리며 시계열 예측 모델에 예측변수도 입력받는 방법
예측의 과정
1. 문제 정의
2. 정보수집 : 통계 데이터, 전문지식
3. 예비분석 : 간략한 추세 보기! 그래프로 그려보기, 패턴 존재 유무, 추세 유무, 계절성 유무, 경기 순환 유무, 전문지식으로 설명할 수 있는 특이점 등
4. 모델 선택 & 피팅 : 과거 데이터를 이용할 수 있는 정도, 예측 변수와 설명 변수 사이의 관계 강도, 예측값이 사용될 방식에 따라 모델선택. 모델별 가정이 다름!
5. 예측모델 사용하고 평가 : 결측치, 이상값 처리방법도 다뤄야함 12장
시계열 시각화
가장 먼저그려야할 것은 시간 그래프
그래프 그린후 관찰해보니
* 몇몇 기간에는 자료가 없음
* 몇몇 구간에서 크게 증감
* 몇몇 구간에서는 어떠한 요인으로 인해 증감
시계열 패턴
추세, 계절정, 주기성
계절성은 원형축으로 볼때 더 잘보이기도 한다.
(그냥 주기 계절성 이런거 푸리에 변환시키면 안되나???!)
산점도
두 변수 사이의 관계를 눈으로 보기 + 이상패턴도 알 수 있음
산점도 행렬
correlation matrix랑 비슷.
대각선에 히스토그램
성분에는 산점도, 반대 성분에는 코릴레이션 채워넣기
시차 그래프
y_t와 y_(t-h)에 대하여 산점도
자기 상관(autocorrelation) : 시차값 사이의 선형관계 측정
백색잡음 : 자기상관도의 95%가 2/sqrt(T)에 들어갈 것으로 기대
단순 예측 기법
평균기법 : 과거의 데이터를 평균
단순기법(naive method) : 마지막 값으로 둠. 경제 금융시계열에서 잘맞음. 데이터가 random walk일 경우 단순 기법이 최적
걔절성 단순 기법
표류 기법 : naive에 단순 증감을 더함(평균 기울기)
이러한 단순기법이 좋을 수 있으나, 모델의 벤치마크가 될것이다.
조정과 변환(결국 노말라이제이션이네)
과거 데이터를 조정하는 과정 - 달력 조정, 인구조정, 인플레이션 조정, 수학적 변환 등
달력조정 : 월별 일수가 안맞는 경우 조정(거래일별 판매량 사용)
인구조정 : 인구로 노말라이제이션
인플레이션 조정 : 돈의 가치로 노말라이제이션
박스 칵스 변환 : 로그와 다항식을 이용해서 transformation. 이때 평균은 편향이므로 공식을 반드시 참고할것!
잔차는 상관관계가 없다. 잔차에 상관관계가 있다면 정보가 남아있다는것
잔차의 평균은 0이어야함. 0이아니면 예측값이 편향됨
예측 정확도 평가
테스트ㅡ 데이터는 전체 표본의 20%정도
오차
평균절대오차를 최소하는 통계값은 예측값의 중앙값. RMSE는 예측치의 평균값이 최소가 됨
백분율 오차 : MAPE같은 오차를 낼때, 온도는 의미있는 0이 아니라 임의의 0이기 때문에 주의해야함.
단위를 제거하는 scaled error 라는것도 있음
크로스 벨리데이션은 테스트데이터가 무조건 트레이닝 데이터보다 나중에 발생한 데이터이고 발생 시점에 따라 여러 시점으로 나누에 예측후 그 정확도 들을 평균함
예측구간 = 신뢰구간: 타임 시리즈기 때문에 점화식 처럼 귀납적으로 오차를 한단계씩 계산하는 것을 붓스트랩이라고함
ch 4. 판단예측
정보가 부족할 경우 - 통계적 기법을 사용할 수 없음.
통계적 기법을 생성했으나 판단을 이용하여 조정
판단 예측을 통계적 예측을 구하는 데 시작점으로 사용
한계 : 주관적임 - 과거의 사건이 무시되는 경향이 있고 감정적임.
체계적으로, 기록하고 정당화하기, 예측값을 체계적으로 평가하기, 예측가와 사용자를 구분
예시 : 제약 혜책제도(이해못함)
4.3 델파이 기법
가정 : 집단의 예측값이 개인의 예측치보다 정확하다.
구조화된 반복으로 전문가의 모임에서 얻은 합의로 예측함. 다음 단계를 거침
1. 전문가 모집 - 정치적인 요인등에 영향이 없도록 익명성 보장
2. 예측 작업과 과제를 정하고 각 전문가에게 나눠줍
3. 각 전문가는 초기 예측값과 타당한 이유를 돌려줍. 피드백을 위한 요약
4. 피드백을 보아 예측값 검토
반복
4.4 유사점으로 예측하기
ex) 집을 감정할때 속성을 비교함
5. 시계열 회귀
x : 예측변수
y : 예상변수로 정의
산점도 행렬로 먼저 관찰
가정 : 모델은 현실의 타당한 근사식, 오차의 평균은 0, 오차는 autocorrelation이 없음, 오차는 예측 변수와 상관관계가 없음
5.1. 최소 제곱
에러의 제곱의 합이 최소로
표준 오차, R^2
5.3 회귀모델 평가
잔차의 AutoCorrelation Fuction 그려보기. 잔차의 히스토그램 그리기
브로이쉬-갓프레이 검정 : 자기상관이 없다는 가설 검정
이상값을 제거하여 한 결과와 그렇지 않은경우 둘다 보는것이 좋음
허위회귀일 수 도 있음. 높은 R^2 값과 높은 잔차 자기상관은 허위회귀일 수 있음
5.4 몇가지 유용한 예측 변수