ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 회귀분석 1탄 - 단순선형회귀분석
    Data Analysis/Statistics 2020. 6. 16. 23:59

    Table of Contents

    1. Introduction
    2. 확률이란?
    3. Reference

     

    Introduction

    19세기 초 프랑스 수학자인 아드리앵마리 르장드르에 의해 발표되었던 선형 회귀(Linear Regression)은 변수 간의 상관관계를 분석하는 방법 중 하나이다. 혜성 궤도를 연구하고 있던 르장드르가 "Nouvelles méthodes pour la détermination des orbites des comètes" 논문을 발표하면서 나온 변수들 간 선형 관계를 모델링하는 방법을 제안하였는데 이는 선형회귀 분석의 초석이 되는 중요한 아이디어 중 하나이다. 이후 1877년 영국의 수학자 프란시스 골턴에 의해 유전 형질 예측을 다루었던 "Typical Laws of Heredity"에 활용하였다. 이후, 통계학, 경제학, 공학, 물리학, 생물학 등의 다양한 분야에서 중요한 분석 기법으로 활용하고 있다.

    회귀 분석(Regression Analysis)은 종속 변수와 독립 변수의 관계를 파악하기 위해 사용한다. 다만, 두 변수 간의 인과 관계를 추론할 수 있는 것은 아니지만, 두 변수 사이의 선형 관계를 모델링하고 예측하는 데 사용한다. 예를 들어 독립 변수 X와 종속 변수 Y 간의 양의 상관관계가 있을 때, X가 증가할수록 Y도 증가하는 경향이 있다고 말할 수 있다. 이러한 상관관계가 인과관계를 나타내는 것은 아니기 때문에 추가적인 연구를 통해 인과관계를 파악해야 한다.

     

    단순선형회귀분석(Simple Linear Regression Analysis)이란?

    단순선형회귀분석은 독립 변수가 하나이고, 이 변수가 종속 변수에 어떤 영향을 미치는지를 분석하는 방법이다. 예를 들어, 키와 몸무게 사이의 관계를 분석하거나, 광고비와 판매량 사이의 관계를 분석할 수 있다. 단순선형회귀분석을 수행하기 위해서는 먼저 독립 변수와 종속 변수의 데이터를 수집한다. 이후 이 데이터를 이용하여 선형 회귀 모델을 만든다. 이 모델은 독립 변수와 종속 변수 간의 선형적인 관계를 나타낸다. 이후 이 모델을 사용하여 독립 변수가 주어졌을 때 종속 변수를 예측할 수 있다.

     

    종속변수 y와 독립변수 x 간의 관계를 수식으로 표현하면 다음과 같이 표현 할 수 있다. 이때, 단순선형회귀분석에서 최적의 선형 관계를 파악하기 위해 최소제곱법(Least Sqaures Method)를 사용한다. x와 y의 관계를 나타내는 여러 1차 방정식들 중에서 잔차(residual)을 최소화 하는 회귀계수(Regression Coefficient)를 추정한다.

     

    y = βx + ε

    [그림 1] 단순선형회귀 모형

    이때, 단순선형회귀분석을 수행하기 위한 몇 몇가지 가정이 필요하다. 먼저, x와 y간 관계는 선형관계여야 하며, 이상치(Outlier)가 없어야 한다. 또한, 잔차의 분포는 정규 분포(Normal Distribution)을 따라야 한다. 이를 검증하기 위한 방법으로 QQ plot을 사용하기도 한다. 또한, 잔차의 분산은 일정해야 하는데 이때 잔차의 산점도를 통해 흩뿌려진 잔차의 모습을 확인한다.

     

     

    단순선형회귀분석 in R

    회귀분석은 R에서 lm() 함수를 이용하여 분석을 수행할 수 있다. lm() 함수 안에는 (y ~ x, data)로 표현할 수 있다. 즉, 종속변수 weight와 독립변수 height에 관한 단순선형회귀분석 결과를 확인할 수 있다.

    # 데이터 불러오기
    data <- read.csv("data.csv")
    
    # 회귀분석 수행
    model <- lm(weight ~ height, data=data)
    
    # 결과 출력
    summary(model)
    
    # 잔차 확인
    plot(model)
    잔차 산점도 QQ plot

     

    Reference

    "Adrien-Marie Legendre", Britannica, https://www.britannica.com/biography/Adrien-Marie-Legendre

    "Typical Laws of Heredity", Frencis Galton, https://galton.org/essays/1870-1879/galton-1877-roy-soc-typical-laws-heredity.pdf

    "The R Stats Package", R Core Team and contributors worldwide, https://stat.ethz.ch/R-manual/R-devel/library/stats/html/00Index.html

     

    'Data Analysis > Statistics' 카테고리의 다른 글

    세 집단을 비교하기  (1) 2020.08.02
    두 집단을 비교하기  (0) 2020.08.02
    통계적 검정은 어떻게 하는가?  (0) 2020.06.27
    로또에 당첨될 확률  (1) 2020.06.16
    대푯값(Representative Value) 이해하기  (0) 2020.05.27

    댓글

Designed by Tistory.