ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 세 집단을 비교하기
    Data Analysis/Statistics 2020. 8. 2. 22:11

    Table of Contents

    1. Introduction
    2. 분산분석(Analysis of Variance;ANOVA)이란?
    3. 일원배치 분산분석(One-way ANOVA)
    4. 이원배치 분산분석(Two-way ANOVA)
    5. 다변량 분산분석(Multivariate Analysis of Variance, MANOVA)
    6. 공분산분석(Analysis of Covariance, ANCOVA)
    7. Reference

     

    Introduction

     데이터 기반의 의사 결정을 위해 두 집단 간의 평균 차이를 비교하는 방법으로 T-검정이 있다. 두 집단을 비교하기를 통해 T-검정의 종류를 소개하였고, 종류 별 상황과 실제 R을 이용하여 분석을 하는 과정을 함께 설명하였다. 하지만, 일상 생활에서 우리는 의사 결정을 할때 두 가지의 경우에서 하나의 선택을 하는 경우보단 다양한 경우에서 하나의 선택을 하는 의사 결정이 발생하게 된다. 예를 들면, A회사에는 프로젝트에 투입할 4개의 팀이 구성되어 있다. 이들 중에서 프로젝트의 성공하기 위해 투입하기에 적합한 팀을 선택하기 위해서 팀 구성원의 학력, 직급, 프로젝트 경험, 직업 만족도 등을 이용하여 이들 중에 어떤 어떤 집단을 투입해야 할지 결정하기 위한 분석 방법이다.

     분산분석(Analysis of Variance, ANOVA)은 실험계획법(The Design of Experiments)로 유명한 통계학자이자 농학자인 로날드 피셔(Ronald Fisher)에 의해 1920년대부터 30년대까지 발전해왔다. 분산분석은 두 개 이상의 집단을 비교하기 위해 집단 내 분산, 전체 평균과 집단 별 평균의 차이로 발생한 집단 간의 비교를 하는 비교 방법이다. 분산분석에서 활용하는 통계량은 F통계량으로 이 값들은 F분포를 따르고 있다. 

    <그림 1> The Design of Experiments (By Ronald Fisher)

     

    분산분석(Analysis of Variance, ANOVA)이란?

     분산분석은 두 개 이상의 그룹의 평균을 비교하는 분석방법으로 F분포를 이용하여 가설검정을 수행한다. 집단 간의 비교를 하기 위한 3가지 가정이 존재한다. 먼저, 모집단이 정규분포를 따르며, 각 모집단의 분산은 동일하며, 마지막으로 표본들은 독립적으로 샘플링 해야한다. 앞의 3가지 가정을 충조하지 못할 경우 분산분석의 신뢰도는 나빠지게 된다. 분산분석은 실험 방법에 따라 일원배치, 이원배치, 다변량, 공분산분석으로 상세하게 나뉜다.

     

    H0 : 집단의 차이가 없다.

    H1 : 집단의 차이가 있다.

     

    일원배치 분산분석(One-way  ANOVA)이란?

     일원배치 분산분석은 종속변수와 독립변수가 1개일 경우에 사용하는 방법으로, 소득수준을 3개의 등급으로 분류했을 경우 세 개의 집단 간의 투자 비용의 차이가 있는지 파악하기 위해 수행하며, 집단 간의 차이가 존재할 경우 사후분석을 수행한다.

    집단 저소득 중위소득 고소득
    대상 1 - 투자자금 15 50 250
    대상 2 - 투자자금 16 45 1000
    대상 3 - 투자자금 20 75 550
    대상 4 - 투자자금
    25 100 1500
    ...
    대상 20 - 투자자금 10 55 300

     

    귀무가설(H0) : μ1 = μ2 = μ3

    대립가설(H1) : 1집단 이상 차이가 존재

     

     R에서 일원배치 분산분석을 수행하기 위해서 aov()를 사용한다. 분석에 사용할 invest.csv 파일을 다운로드하고 R스튜디오에 불러와서 일원배치 분산분석을 진행해보도록 하자.

    invest.csv
    0.00MB

     

     먼저, invest.csv 파일을 불러와서 데이터를 확인해보면, id(소득구분)에 따른 투자금액이 있는 것을 확인할 수 있다. 집단별 차이가 있을지 분산분석을 시도하기에 앞서 시각적으로도 큰 차이가 있는지 확인하기 위해 Boxplot을 그려본다. 시각화한 결과 집단별로 뭉쳐있는 범위가 차이가 있는 것 처럼 확인이 된다. 어느 정도 차이가 보인다면, 분산분석을 진행하면 된다.

    # 데이터 불러오기
    > invest = read.csv("invest.csv")
    
    # 데이터 확인하기
    > head(invest)
      id invest
    1  A     24
    2  A     21
    3  A     20
    4  A     12
    5  A     20
    6  A     11
    
    # 데이터 시각화하기
    > library(ggplot2)
    > ggplot(invest, aes(x = id, y = invest)) +
    +   geom_boxplot()

    소득구분별 투자의 차이를 확인하기 위한 Boxplot

     

    소득구분에 따라 투자금액의 차이가 있는지 확인해보기 위해 시각화를 수행하였으며, 그 결과 상당한 차이를 보였고 통계적으로 확인을 하기 위해 aov() 함수를 이용하여 분산분석을 수행한다.

    # 분산분석
    > inv_aov = aov(invest ~ id, invest)
    > summary(inv_aov)
                Df  Sum Sq Mean Sq F value   Pr(>F)    
    id           2 4394038 2197019   39.73 1.57e-11 ***
    Residuals   57 3151949   55297                     
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    분산분석을 수행한 결과 유의수준이 0인것으로 나타났으며, '집단간의 차이가 없다'는 귀무가설을 기각하고 '집단 간에 어느 하나 이상의 차이가 있다'는 대립가설을 채택할 수 있다.

     

     

    이원배치 분산분석(Two-way ANOVA)이란?

     일원배치 분산분석과 같이 한 개의 종속 변수와 두 개의 독립변수인 경우 사용하는 분산분석 방법으로 독립변수의 개수에 따라 n-way ANOVA라고 부른다.

     

    다변량 분산분석(Multivariate Analysis of Variance, MANOVA)이란?

     단변량 분산분석(Analysis of Variance, ANOVA)와 다르게 다변량 분산분석은 종속변수가 2개 이상인 집단 간의 차이를 비교하기 위한 분석방법이다.

     

     

    공분산분석(Analysis of Covariance, ANCOVA)이란?

     공분산분석은 실험연구에서 매개변수에 대한 직접적인 통제가 불가능하거나 비현실적일때 실험 후 매개변수에 대한 효과를 통계적으로 통제하기 위해 사용한 분석 방법이다. 쉽게 말해 특정한 독립변수 외에 영향을 줄 수 있는 독립 변수를 통제하여 해당 변수의 변화에 따라 종속변수의 차이가 있는지 확인하기 위해 수행한다.

     

    Reference

    Ronald Fisher, "The Design of Experiments", https://archive.org/details/in.ernet.dli.2015.502684/page/n5/mode/2up

    댓글

Designed by Tistory.