ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 대푯값(Representative Value) 이해하기
    Data Analysis/Statistics 2020. 5. 27. 21:40
    반응형

    Table of Contents


    1. Introduction
    2. 통계학이란?
    3. 대푯값이란?
    4. Reference


    Introduction


     신문기사를 읽다보면 <그림 1>과 같이 "작년 대기업 직원 연봉 평균 7920만원..." 이라는 표현과 "올해 공기업 신입사원 초임 연봉은 평균 3809만원" 이라는 표현을 자주 활용하고는 한다. 이 뿐만 아니라 어린 시절 학교에서 시험을 치른 뒤 과목 별로 평균 점수를 들어본 경험이 있다. '평균(Mean)'은 통계학에서 어떤 의미를 가지고 있을까? 현상을 파악하기 위한 통계학에서 평균만으로 이해하면 안된다고 한다. 왜 그럴까?


    <그림 1> 직장인 연봉과 관련된 기사


    통계학(Statistics)이란?


      표준국어대사전에서는 통계학을 사회 현상을 통계에 의해 관찰 및 연구하는 학문이라고 정의하고 있다. 과거 유럽에서는 서로의 힘을 경쟁하기 위한 침략과 세력 확장을 하고 있었다. 그 중에 과거 오스만 제국(현, 터키)와 러시아 제국(현, 러시아) 간의 흑해(Black Sea)를 둘러싸고 전쟁이 발발하게 되었는데 이를 크림 전쟁(Crimean War)라고 한다.


    <그림 2> 흑해 지도


     이 전쟁에서 관심을 가질 만한 인물이 바로 나이팅게일(Florence Nightingale, 1820 ~ 1910)이다. 영국 정부의 요청으로 전쟁지의 세쿠타리 병원으로 파견을 나가게 된 나이팅게일은 엉망진창인 병원을 목격한다. 청결 상태를 개선하기 위해 깨끗하게 청소도 했다. 기존의 야전에서 핵심이라고 생각했던 전쟁 물자를 파악하는 것 만큼 야전 병원의 중요성을 일깨우기 위해 나름의 기준을 만들어 자료를 수집 하였고, 이를 바탕으로 전쟁 중에 사망하는 환자보다 야전 병원에서 사망한 환자가 더 많은 것을 확인시켰다. 정확한 자료가 없어서 현지 사정을 알 수 없었던 본국에 객관적 자료를 바탕으로 야전병원의 환경을 개선하는데 투자하여, 약 40% 가까이 되던 야전 병원의 사망률을 약 2%로 현저하게 낮추는 성과를 거뒀다.


    <그림 3> 나이팅게일의 Rose Diagram


     일상 생활에서 발생하는 어떠한 현상을 이해하기 위해 자료를 축적하고, 수집한 자료를 정리하여 이해하기 쉽게 함축적으로 요약을 하는 통계를 기술통계학(Descriptive Statistics)라고 하며, 이러한 자료로 부터 얻은 정보를 기반으로 모집단에 대한 정보를 추정하는 과정을 추론통계학(Inference Statistics)라고 한다.


    <그림 4> 통계적 연구 프로세스

     

     <그림 2>는 통계학의 전반적인 내용을 이해하기 위해 작성된 연구 프로세스이다. 우리나라의 사회 현상을 이해하기 위해 대한민국 국민은 모집단(Population)에 해당된다. 통계청의 2020년 장래인구추계 기준으로 대한민국 국민은 총 5178,0579명이다. 한정된 시간과 예산을 활용하여 전 국민을 조사해 사회 현상을 파악하기란 쉽지 않다. 이때, 표집(Sampling)을 이용해 모집단의 특성을 잘 대표할 수 있으면서, 시간과 비용을 투입할 수 있는 크기의 표본(Sample)을 선별하여 그 특성을 파악한다.


    대푯값(Representative Value)이란?


     기술통계학에서 사회 현상을 이해하기 위한 과정으로 자료(Data)를 수집하고, 요약하는 과정에서 자료의 특성을 파악할 수 있는 객관적인 지표들이 존재한다. 특히, 수집한 자료가 어떤 값을 중심으로 분포하고 있는지를 이해하기 위한 지표로 평균(mean), 중앙값(median), 최빈값(mode) 등을 대푯값이라고 한다. 이러한 정보들은 우리들이 의사를 결정할 때 근거가 되는 중요한 통계량(Statistic)이다.


    평균의 함정이란?


     마침, 우리는 아주 중요한 문제에 직면했다. 합리적인 의사 결정을 하기 위해 우리는 합격에 앞둔 두 회사의 평균 임금을 조사하게 되었다. A 회사의 올해 입사자 평균 임금을 8000만원이고 B 회사의 올해 입사자 평균 임금이 6500만원이라고 하자. 이때, 두 회사의 다른 조건은 동일하고 나는 두 회사를 모두 합격 했을 경우 어떤 회사에 출근해야 할까? A 회사일까? 아니면 B 회사일까?


    <그림 3> A회사와 B회사 직원 별 임금 분포


     "평균 임금"이라는 대푯값을 보고 A회사에 입사했다면, 평균의 함정에 빠져 3천만원을 받게 될 상황에 처할 수 있다. 반면, 정보를 더 많이 획득하여 직원들이 받는 임금의 최소값이나, 최대값을 얻었다면, B 회사에 입사하여 못해도 5천5백만원을 받을 수 있을 것이다.


    Reference

    SBS CNBC, "작년 대기업 직원 연봉 평균 7920만원...'억대 연봉' 33곳", https://cnbc.sbs.co.kr/article/10000981608?division=NAVER

    파이낸셜뉴스, "신의 직장 '공기업' 신입 연봉킹은 어디?", https://www.fnnews.com/news/202005081059132022

    Google Map, "흑해 주변"

    "Nightingale's Coxcombs", http://understandinguncertainty.org/coxcombs

    반응형

    'Data Analysis > Statistics' 카테고리의 다른 글

    세 집단을 비교하기  (1) 2020.08.02
    두 집단을 비교하기  (0) 2020.08.02
    통계적 검정은 어떻게 하는가?  (0) 2020.06.27
    회귀분석 1탄 - 단순선형회귀분석  (0) 2020.06.16
    로또에 당첨될 확률  (1) 2020.06.16

    댓글

Designed by Tistory.