카테고리 없음
farima
관리자..
2012. 12. 13. 23:20
오늘 수업.
AR과 MA 쌍대성 지난 번에 했고, 그 둘의 더해진 형태인 ARMA는 AR과 MA가 각각 stationary해 지는 조건과 invertible 해지는 조건을 둘 다 충족해야 이후 작업이 더 가능. 근데 ARMA로도 처리가 안되는 애들이 있어서, 이게 많아서 ARIMA를 오늘 배웠다.
잠깐 짚고 넘어갈 건, 결국 처리가 된다 안된다는 게 무슨 얘기냐는 건데, 시계열 자료를 detrending, deseasonalize 하는 것도 포함해서, 전부 remainder 를 weakly-stationary 한 random process로 만드는 작업이다. stationary 한 random process 만 남아야 정말 분석이 가능하기 때문에, 혹은 그것만 남기는 게 분석이다. 약정상상은 1차랑 2차 모멘트, 그러니까 평균과 분산이 전체 기간에 대해서 변하지 않는 것. 최소한 약정상성은 있어야 이게 순수한 무작위 과정으로 볼 수 있다는 것.
다시 돌아가면, 그래서 간단한 경우는 계절성과 경향성을 제거하면 random process 가 되니까 괜찮은데, 그렇지 않은 경우 AR, MA, ARMA 등의 모델을 적용해서 남은 remainder 가 purely random process 에 가까운지 체크해 보는 거다. 이걸 하기 위한 한 가지 방법이 ACF랑 PACF 보는 것이고. ACF는 자기상관을 lag 따락 계산해 보고 플롯하면 되고, PACF는 일단 회귀를 한 다음에 lag 따라 계산하는 자기상관. 여튼 이게 AR과 MA에 대해 약간 성질은 다른데, 간단히 정리하면 내가 인정하는 lag, ARMA(p, q) 라고 가정했을 때 p와 q 랙 뒤로는 자기상관이 나타나지 않는 것이 이상적이다. AR(3) 과정인 경우, ACF가 (PACF였나; ) 랙 3개 이후에는 신뢰구간 안으로 들어가는 것이 이상적이다 예를 들자면.
좀 지저분했는데.. 짧게 다시 정리하면, AR이든 ARMA든 이런 시계열 모형은 내가 가진 자료에 적용한 후 결과로 남은 수열이 약정상성을 충족시키는 무작위 과정으로 만드는 작업. ARMA 까지 하고도 해결 안되는 경우 많은데, 이 때 부턴 좀 정신없는, differencing 과정이 들어온다.
이건 우리가 로가리듬 처리할 때와 비슷한 사상인데, 로가리듬 처리는 우리가 데이터의 절대값 변화보다 변화율의 변화를 보는 것이 더 합당할 때 이용한다. 청렴도 변화에 따라 GDP가 10 달러 변하는 것이 아니라 GDP가 10% 변할 때를 보고 싶다, 이런 용도. 그런데 편리한 건, biplot을 하건 regression 을 하건 로그를 취하면 결과가 좋아지는 경우가 많기 때문에, 사실 남용되는 경향도 있다. 정확히 인지하고 사용하면 괜찮다고 보지만. 독립변수가 정상성을 보이지 않을 때 흔히 쓰는데, 이걸 한 마디로 표현하면,
GDP를 히스토그램 그려놓으면 종 형태로 안 보일 수 있지만 GDP의 로그를 히스토그램 그려놓으면 종 형태에가까워진다는 것. 그러니까 정상성 검정을 통과하기 쉬워짐. 근데 이게 단순히 트릭만은 아닌게, 우리가 아는 지식 안에서 GDP의 움직임을 설명하기 어려울 때도, GDp의 변화율의 움직임을 설명하는 것은 상대적으로 용이하다는 의미를 내포한다. 더 단순한 것을 보게 만들어 주는 트릭이라면 트릭, 방편이라면 방편.
다시 돌아가서, differencing 도 같은 목적을 수행한다. 명백하게 국지적인 경향이 나타나는 경우 선형 디트렌딩으로는 해결되지 않는 국지적 자기상관이 강하게 나타난다. 예를 들면, 한강 수위 같은 것. 오늘 수위랑 내일 수위는 비슷할 수 밖에 없다. 이런 경우 아무리 ARMA를 적용해도 데이터 시리즈 자체가 국지적으로 가지는 특징이 강하기 때문에 전역적인 모델링을 거쳐 purely random process로 만드는 것은 불가능하다.
그런데 오늘의 수위와 어제의 수위의 차이를 오늘의 delta 수위로 정의하고, delta 수위의 series 를 보면 일단 국지적인 경향이 사라진다. 주식으로 치면, 일일 등락만 보는 것. 아마 주식 tv 같은 데서 흔히 나왔던 도표 떠올리면 될 듯. 그렇게 차분값만 놓고 보면 일을 하기가 훨씬 수월해 진다. 이게 위험하긴 하다고 하고, 정확히 숙지하고 사용해야 한다, 로그 취하는 경우와 일맥상통한다고 본다.
여튼 ARMA로는 도저히 전역적인 무작위 과정으로 탈바꿈되지 않는 경우도, 자료의 차분 값을 ARMA로 모형하면 원하는 무작위 과정을 얻을 수 있는 경우가 많다, 특히 생태학 장기측정 자료에선.
그리고 이걸 ARIMA라고 부르고, d 라는 모수를 하나 추가한다. d가 양의 정수일 때는 보다 일반적인 경우고, 여기에서도 해결 못하는 문제가 있어서 d를 절대값이 0.5 보다 작은 실수로 모형하는 FARIMA도 소개됐다. 이쯤되니 다들 멍때리기 시작; 아주 조금이지만 모든 데이터 값으로 부터 받는 영향을 모델링하고 뭐 그런 개념으로 ARIMA를 생각할 수 있다는데 아직 정리가 잘 안됐다. 메모리로 보면, 전역적인 메모리를 가지고 있다는 것, MA는 메모리가 lag 시점에서 끊기는 것에 반해. 근데 그 영향을 AR처럼 직접 받는 것이 아니고 차분을 통해 국지적인 경향을 제거하고 받는 거다, 대충 이렇게 생각하고 있다 지금은.
FARIMA(p,d,q)에서 d가 양의 정수인 경우가 ARIMA(p,d,q)고, 여기서 d=0인 경우 ARMA(p,q) 라고 생각하면 일단 된다.
아 복습해야겠다.
AR과 MA 쌍대성 지난 번에 했고, 그 둘의 더해진 형태인 ARMA는 AR과 MA가 각각 stationary해 지는 조건과 invertible 해지는 조건을 둘 다 충족해야 이후 작업이 더 가능. 근데 ARMA로도 처리가 안되는 애들이 있어서, 이게 많아서 ARIMA를 오늘 배웠다.
잠깐 짚고 넘어갈 건, 결국 처리가 된다 안된다는 게 무슨 얘기냐는 건데, 시계열 자료를 detrending, deseasonalize 하는 것도 포함해서, 전부 remainder 를 weakly-stationary 한 random process로 만드는 작업이다. stationary 한 random process 만 남아야 정말 분석이 가능하기 때문에, 혹은 그것만 남기는 게 분석이다. 약정상상은 1차랑 2차 모멘트, 그러니까 평균과 분산이 전체 기간에 대해서 변하지 않는 것. 최소한 약정상성은 있어야 이게 순수한 무작위 과정으로 볼 수 있다는 것.
다시 돌아가면, 그래서 간단한 경우는 계절성과 경향성을 제거하면 random process 가 되니까 괜찮은데, 그렇지 않은 경우 AR, MA, ARMA 등의 모델을 적용해서 남은 remainder 가 purely random process 에 가까운지 체크해 보는 거다. 이걸 하기 위한 한 가지 방법이 ACF랑 PACF 보는 것이고. ACF는 자기상관을 lag 따락 계산해 보고 플롯하면 되고, PACF는 일단 회귀를 한 다음에 lag 따라 계산하는 자기상관. 여튼 이게 AR과 MA에 대해 약간 성질은 다른데, 간단히 정리하면 내가 인정하는 lag, ARMA(p, q) 라고 가정했을 때 p와 q 랙 뒤로는 자기상관이 나타나지 않는 것이 이상적이다. AR(3) 과정인 경우, ACF가 (PACF였나; ) 랙 3개 이후에는 신뢰구간 안으로 들어가는 것이 이상적이다 예를 들자면.
좀 지저분했는데.. 짧게 다시 정리하면, AR이든 ARMA든 이런 시계열 모형은 내가 가진 자료에 적용한 후 결과로 남은 수열이 약정상성을 충족시키는 무작위 과정으로 만드는 작업. ARMA 까지 하고도 해결 안되는 경우 많은데, 이 때 부턴 좀 정신없는, differencing 과정이 들어온다.
이건 우리가 로가리듬 처리할 때와 비슷한 사상인데, 로가리듬 처리는 우리가 데이터의 절대값 변화보다 변화율의 변화를 보는 것이 더 합당할 때 이용한다. 청렴도 변화에 따라 GDP가 10 달러 변하는 것이 아니라 GDP가 10% 변할 때를 보고 싶다, 이런 용도. 그런데 편리한 건, biplot을 하건 regression 을 하건 로그를 취하면 결과가 좋아지는 경우가 많기 때문에, 사실 남용되는 경향도 있다. 정확히 인지하고 사용하면 괜찮다고 보지만. 독립변수가 정상성을 보이지 않을 때 흔히 쓰는데, 이걸 한 마디로 표현하면,
GDP를 히스토그램 그려놓으면 종 형태로 안 보일 수 있지만 GDP의 로그를 히스토그램 그려놓으면 종 형태에가까워진다는 것. 그러니까 정상성 검정을 통과하기 쉬워짐. 근데 이게 단순히 트릭만은 아닌게, 우리가 아는 지식 안에서 GDP의 움직임을 설명하기 어려울 때도, GDp의 변화율의 움직임을 설명하는 것은 상대적으로 용이하다는 의미를 내포한다. 더 단순한 것을 보게 만들어 주는 트릭이라면 트릭, 방편이라면 방편.
다시 돌아가서, differencing 도 같은 목적을 수행한다. 명백하게 국지적인 경향이 나타나는 경우 선형 디트렌딩으로는 해결되지 않는 국지적 자기상관이 강하게 나타난다. 예를 들면, 한강 수위 같은 것. 오늘 수위랑 내일 수위는 비슷할 수 밖에 없다. 이런 경우 아무리 ARMA를 적용해도 데이터 시리즈 자체가 국지적으로 가지는 특징이 강하기 때문에 전역적인 모델링을 거쳐 purely random process로 만드는 것은 불가능하다.
그런데 오늘의 수위와 어제의 수위의 차이를 오늘의 delta 수위로 정의하고, delta 수위의 series 를 보면 일단 국지적인 경향이 사라진다. 주식으로 치면, 일일 등락만 보는 것. 아마 주식 tv 같은 데서 흔히 나왔던 도표 떠올리면 될 듯. 그렇게 차분값만 놓고 보면 일을 하기가 훨씬 수월해 진다. 이게 위험하긴 하다고 하고, 정확히 숙지하고 사용해야 한다, 로그 취하는 경우와 일맥상통한다고 본다.
여튼 ARMA로는 도저히 전역적인 무작위 과정으로 탈바꿈되지 않는 경우도, 자료의 차분 값을 ARMA로 모형하면 원하는 무작위 과정을 얻을 수 있는 경우가 많다, 특히 생태학 장기측정 자료에선.
그리고 이걸 ARIMA라고 부르고, d 라는 모수를 하나 추가한다. d가 양의 정수일 때는 보다 일반적인 경우고, 여기에서도 해결 못하는 문제가 있어서 d를 절대값이 0.5 보다 작은 실수로 모형하는 FARIMA도 소개됐다. 이쯤되니 다들 멍때리기 시작; 아주 조금이지만 모든 데이터 값으로 부터 받는 영향을 모델링하고 뭐 그런 개념으로 ARIMA를 생각할 수 있다는데 아직 정리가 잘 안됐다. 메모리로 보면, 전역적인 메모리를 가지고 있다는 것, MA는 메모리가 lag 시점에서 끊기는 것에 반해. 근데 그 영향을 AR처럼 직접 받는 것이 아니고 차분을 통해 국지적인 경향을 제거하고 받는 거다, 대충 이렇게 생각하고 있다 지금은.
FARIMA(p,d,q)에서 d가 양의 정수인 경우가 ARIMA(p,d,q)고, 여기서 d=0인 경우 ARMA(p,q) 라고 생각하면 일단 된다.
아 복습해야겠다.