6.2 이동 평균
시계열을 분해하는 1920년대의 고전적인 방법은 1950년까지 널리 사용되었다. 이 방법은 후대의 시계열 분석 기법의 기초가 되고 있으며, 이 방법의 세부 사항을 잘 이해하는 것은 중요하다. 고전적인 분해 방법의 첫 번째 단계는 추세-주기를 측정하기 위해 이동 평균 방법을 사용하는 것이니, 이동 평균에 대한 논의에서 시작하자.
이동 평균
차수 이동 평균은 다음과 같이 쓸 수 있다.
여기에서 이다. 즉, 기간 안의 시계열 값을 평균하여 시간 에서 추세-주기를 측정할 수 있다. 측정 시기가 비슷한 값은 값이 비슷하기도 하다. 평균이 데이터의 무작위성을 감소시켜준다. 이 작업을 통해 평활화된 추세-주기 성분을 얻을 수 있다. 차수 의 이동 평균 작업을 -MA 라고 부른다. 예로, 그림 6.6을 보자. 이 그림에서 1989년부터 2008년까지 호주 남부의 매년 주거용 전기 판매량을 알 수 있다(hot water sales는 제외). 표 6.1에 데이터도 있다.
그림 6.6: 호주 남부 주거용 전기 판매량(온수 제외): 1989-2008.
표 6.1
Year | Sales (GWh) | 5-MA |
---|---|---|
1989 | 2354.34 | |
1990 | 2379.71 | |
1991 | 2318.52 | 2381.53 |
1992 | 2468.99 | 2424.56 |
1993 | 2386.09 | 2463.76 |
1994 | 2569.47 | 2552.60 |
1995 | 2575.72 | 2627.70 |
1996 | 2762.72 | 2750.62 |
1997 | 2844.50 | 2858.35 |
1998 | 3000.70 | 3014.70 |
1999 | 3108.10 | 3077.30 |
2000 | 3357.50 | 3144.52 |
2001 | 3075.70 | 3188.70 |
2002 | 3180.60 | 3202.32 |
2003 | 3221.60 | 3216.94 |
2004 | 3176.20 | 3307.30 |
2005 | 3430.60 | 3398.75 |
2006 | 3527.48 | 3485.43 |
2007 | 3637.89 | |
2008 | 3655.00 |
R code
ma(elecsales, order=5)
표의 두 번째 열에 추세-주기의 예상치를 나타내는 차수 5의 이동 평균이 있다. 두 번째 열의 첫 번째 값은 첫 5개 관측값(1989-1993)의 평균이다. 5-MA가 있는 열의 두 번째 값은 1990-1994의 평균이다. 5-MA가 있는 열의 각 값은 5년의 기간의 관측값을 평균하여 가운데 값으로 나타낸 것이다. 1989, 1990, 2007, 2008은 평균을 계산하기 위한 관측값이 부족해서 없다. 위의 식에서 5-MA가 있는 열에는 인 값이 있다. 추세-주기 추정치가 어떤지 확인하기 위해, 원본 데이터와 함께 나타내어 살펴보자(그림 6.7).
그림 6.7: 주거용 전기 판매량(검정)과 추세-주기의 5-MA 추정치(빨강).
plot(elecsales, main="Residential electricity sales",
ylab="GWh", xlab="Year")
lines(ma(elecsales,5),col="red")
추세(빨간색)가 원본 데이터보다 얼마나 더 매끄러운지와 부가적인 요동을 제외한 시계열의 주된 움직임을 어떻게 포착하는지 살펴보자. 이러한 이동 평균 기법으로는 시계열의 끝부분에 가까운 추정치를 구할 수 없다. 그래서 빨간색 선이 그래프 양 끝까지 늘어나지는 않는다. 이후에 끝부분 주변의 추세-주기 추정치를 구하는 더욱 복잡한 방법을 사용할 것이다.
이동 평균의 차수는 추세-주기 추정치의 매끄러운 정도를 결정한다. 일반적으로, 더 큰 차수가 더 매끄러운 곡선을 의미한다. 다음의 그래프에서 주거용 전기 판매량 데이터에서 이동 평균의 차수를 바꿀 때 일어나는 일을 볼 수 있다.
그림 6.8: 주거용 전기 판매량 데이터에 적용된 다양한 이동 평균 기법.
단순 이동 평균은 보통 3,5,7 같은 홀수 차수이다. 그래서 이 방법은 대칭적이다. 즉, 차수의 이동 평균에서 개의 이전 관측값과 개의 이후 관측값 그리고 가운데 관측값을 평균하여 구한다. 이 짝수이면, 더이상 대칭적이지 않을 것이다.
이동 평균의 이동 평균
이동 평균을 이동 평균하는 것도 가능하다.짝수 차수 이동 평균을 대칭적으로 만들기 위해서 이러한 작업을 한다.
예로, 차수 4의 이동 평균을 구한다고 하고, 그 다음 그 결과를 가지고 차수 2의 이동 평균을 구한다고 하자. 호주 4분기별 맥주 생산량 처음 몇 년 데이터를 가지고 이러한 작업을 하여 표 6.2에 나타내었다.
표 6.2
Year | Data | 4-MA | 2x4-MA |
---|---|---|---|
1992 Q1 | 443.00 | ||
1992 Q2 | 410.00 | 451.25 | |
1992 Q3 | 420.00 | 448.75 | 450.00 |
1992 Q4 | 532.00 | 451.50 | 450.12 |
1993 Q1 | 433.00 | 449.00 | 450.25 |
1993 Q2 | 421.00 | 444.00 | 446.50 |
1993 Q3 | 410.00 | 448.00 | 446.00 |
1993 Q4 | 512.00 | 438.00 | 443.00 |
1994 Q1 | 449.00 | 441.25 | 439.62 |
1994 Q2 | 381.00 | 446.00 | 443.62 |
1994 Q3 | 423.00 | 440.25 | 443.12 |
1994 Q4 | 531.00 | 447.00 | 443.62 |
1995 Q1 | 426.00 | 445.25 | 446.12 |
1995 Q2 | 408.00 | 442.50 | 443.88 |
1995 Q3 | 416.00 | 438.25 | 440.38 |
1995 Q4 | 520.00 | 435.75 | 437.00 |
1996 Q1 | 409.00 | 431.25 | 433.50 |
1996 Q2 | 398.00 | 428.00 | 429.62 |
1996 Q3 | 398.00 | 433.75 | 430.88 |
beer2 <- window(ausbeer,start=1992)
ma4 <- ma(beer2, order=4, centre=FALSE)
ma2x4 <- ma(beer2, order=4, centre=TRUE)
마지막 열의 -MA는 4-MA 다음 2-MA를 구했다는 의미이다. 마지막 열의 값은 이전 열에 있는 값을 가지고 차수 2인 이동 평균을 계삲여 구한 것이다. 예를 들면, 4-MA 열의 첫 두 값은 와 이다. -MA열의 첫 번째 값은 이 두 값의 평균이다: . 2-MA가 (예로 든 4와 같이) 짝수 차수 이동 평균 다음에 오면, "차수 4의 중심화된 이동평균"이라고 부른다. 결과가 대칭적이기 때문에 이렇게 부른다. 지금 다루고 있는 예에서 살펴보기 위해, -MA를 다음과 같이 쓸 수 있다.
관측값의 가중 평균이면서 대칭적이다. 다른 이동 평균 조합도 물론 가능하다. 예를 들면, 차수 3의 이동 평균 다음에 차수 3의 이동 평균을 구하는 -MA도 종종 쓰인다. 일반적으로, 짝수 차수 MA를 대칭적으로 만들기 위해 짝수 차수 MA를 그 다음에 사용해야 한다. 비슷한 이유에서, 홀수 차수 MA 다음에 홀수 차수 MA를 사용해야 한다.
계절적인 데이터로 추세-주기 추정하기
중심화된 이동 평균의 주 용도는 계절적인 데이터에서 추세-주기를 추정이다. -MA를 살펴보자:
4분기 데이터에 적용하면, 첫 번째와 마지막 항이 앞뒤 연도의 영향을 받아서 한 해의 각 분기에 같은 가중치가 주어진다. 그 결과로, 평균 때문에 계절적인 변동이 사라지고 결과 값 에 계절적인 변동이 별로 남지 않게 된다. -MA 이나 -MA 를 사용해도 마찬가지이다. 일반적으로 -MA은 차수의 가중 이동 평균과 같다. 이러한 가중 이동 평균에서 첫 번째와 마지막 값을 제외한 모든 관측값에 가중치를 두고 계산하고 첫 번째와 마지막 값에는 의 가중치를 두고 계산한다. 이러한 이유에서 계절적 주기가 짝수이면서 차수 m이면, 추세-주기를 추정하기 위해 -MA를 사용한다. 계절적인 주기가 홀수이면서 차수 이면, 추세-주기를 추정하기 위해 -MA를 사용한다. -MA는 월별 데이터의 추세-주기를 추정하기 위해 사용할 수 있고, 7-MA는 일별 데이터의 추세-주기를 추정하기 위해 사용할 수 있다. 흔히 다른 차수의 MA를 사용하면 데이터의 계절성 때문에 추세-주기 추정이 정확하지 않게 된다.
예제 6.2 전자 장비 생산
그림 6.9은 전자 장비 생산 지수에 -MA 를 적용한 결과이다. 매끄러운 선에서 계절성이 없다. 그림 6.2의 이동 평균보다 더 복잡한 방법으로 추정한 추세-주기와 거의 같다. 이동 평균의 차수를 24, 36 같은 것을 제외한 값으로 선택하면 매끄러운 선에 계절적인 요동이 약간 보일 것이다.
그림 6.9: 를 전자 장비 생산 지수에 적용한 결과.
plot(elecequip, ylab="New orders index", col="gray",
main="Electrical equipment manufacturing (Euro area)")
lines(ma(elecequip, order=12), col="red")
가중 이동 평균
이동 평균의 조합이 가중 이동 평균이 되는 것을 확인했다. 예를 들면, 위에서 언급한 -MA는 가중치를 로 주는 가중 5-MA와 같다. 일반적으로, 가중 -MA는 다음과 같이 쓸 수 있다.
여기에서 이고 가중치는 로 주어진다. 가중치를 모두 더하면 1이고 가중치들은 와 같이 대칭적이다. 단순 -MA는 모든 가중치를 으로 같게 둔 특별한 경우이다. 더욱 매끄러운 추세-주기를 얻을 수 있다는 점이 가중 평균의 주된 장점이다. 관측값에 가중치를 전부 고려하지 않고, 천천히 증가하다가 감소하는 가중치를 이용하여 더 매끄러운 곡선을 구한다. 표 6.3에 몇 가지 널리 사용되는 구체적인 가중치를 나타내었다.
표 6.3: 가중 평균에서 흔히 사용되는 가중치 목록
Name | a0 | a1 | a2 | a3 | a4 | a5 | a6 | a7 | a8 | a9 | a10 | a11 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
3-MA | .333 | .333 | ||||||||||
5 MA | .200 | .200 | .200 | |||||||||
2x12-MA | .083 | .083 | .083 | .083 | .083 | .083 | .042 | |||||
3x3-MA | .333 | .222 | .111 | |||||||||
3x5-MA | .200 | .200 | .133 | .067 | ||||||||
S15-MA | .231 | .209 | .144 | .066 | .009 | -.016 | -.019 | -.009 | ||||
S21-MA | .171 | .163 | .134 | .037 | .051 | .017 | -.006 | -.014 | -.014 | -.009 | -.003 | |
H5-MA | .558 | .294 | -.073 | |||||||||
H9-MA | .330 | .267 | .119 | -.010 | -.041 | |||||||
H13-MA | .240 | .214 | .147 | .066 | .000 | -.028 | -.019 | |||||
H23-MA | .148 | .138 | .122 | .097 | .068 | .039 | .013 | -.005 | -.015 | -.016 | -.011 | -.004 |
S = Spencer의 가중 이동 평균
H = Henderson의 가중 이동 평균