Data Analysis/Statistics
-
세 집단을 비교하기Data Analysis/Statistics 2020. 8. 2. 22:11
Table of Contents Introduction 분산분석(Analysis of Variance;ANOVA)이란? 일원배치 분산분석(One-way ANOVA) 이원배치 분산분석(Two-way ANOVA) 다변량 분산분석(Multivariate Analysis of Variance, MANOVA) 공분산분석(Analysis of Covariance, ANCOVA) Reference Introduction 데이터 기반의 의사 결정을 위해 두 집단 간의 평균 차이를 비교하는 방법으로 T-검정이 있다. 두 집단을 비교하기를 통해 T-검정의 종류를 소개하였고, 종류 별 상황과 실제 R을 이용하여 분석을 하는 과정을 함께 설명하였다. 하지만, 일상 생활에서 우리는 의사 결정을 할때 두 가지의 경우에서 하나의 ..
-
두 집단을 비교하기Data Analysis/Statistics 2020. 8. 2. 21:23
Table of Contents Introduction T검정(T-Test)이란? 일표본 T검정(One sample T-test)이란? 독립표본 T검정(Independent-samples T-test)이란? 대응표본 T검정(Paired-samples T-test)이란? Reference Introduction 최근들어 데이터 기반의 의사 결정이라는 말이 보편화되어 다양한 현장에서 활용하고 있으며, 이와 관련된 채용이 적극적으로 늘고 있는 추세이다. 제품 A를 판매하고 있는 회사에서 새로운 제품 B를 출시 하기 위해서 다양한 형태로 제품의 특성을 측정하고 이들 간의 관계를 분석하곤 한다. 이렇게 두 집단의 차이가 우연에 의해 발생하는 차이가 아니라 정말로 다른 두 집단이라는 검정을 하기 위해서 두 집단의 ..
-
통계적 검정은 어떻게 하는가?Data Analysis/Statistics 2020. 6. 27. 19:19
Table of Contents Introduction 통계적 가설(Statistical Hypothesis)이란? 검정통계량(Test Statistic)이란? 오류(Error)와 유의수준(Significance level)이란? Reference Introduction 현대의 통계학과 다르게 대푯값을 집계만 해도 괜찮았던 시기가 있었다. 평균을 구하거나 백분률을 계산하는 방식의 고전적인 통계는 19세기 초에 세계적으로 널리 확산됐다. 간호사로 알려져 있는 나이팅게일(Florence Nightingale, 1820 ~ 1910)도 이러한 방법을 사용해서 참전했던 군인들의 현황을 집계하여, 전시에 사망한 군인보다 야전 병원에서 병균으로 전염된 환자의 수가 많다는 것을 알 수 있었다. 이를 바탕으로 전장 물..
-
회귀분석 1탄 - 단순선형회귀분석Data Analysis/Statistics 2020. 6. 16. 23:59
Table of Contents Introduction 확률이란? Reference Introduction 19세기 초 프랑스 수학자인 아드리앵마리 르장드르에 의해 발표되었던 선형 회귀(Linear Regression)은 변수 간의 상관관계를 분석하는 방법 중 하나이다. 혜성 궤도를 연구하고 있던 르장드르가 "Nouvelles méthodes pour la détermination des orbites des comètes" 논문을 발표하면서 나온 변수들 간 선형 관계를 모델링하는 방법을 제안하였는데 이는 선형회귀 분석의 초석이 되는 중요한 아이디어 중 하나이다. 이후 1877년 영국의 수학자 프란시스 골턴에 의해 유전 형질 예측을 다루었던 "Typical Laws of Heredity"에 활용하였다. ..
-
로또에 당첨될 확률Data Analysis/Statistics 2020. 6. 16. 22:42
Table of Contents Introduction 확률이란? 확률의 공리적 정의란? 조건부확률이란? Reference Introduction 어떤이는 한주를 로또를 기대하는 마음으로 보내기도 하고 어떤이는 매주마다 추첨하는 로또를 보면서 1등에 당첨됐으면 하는 바람을 가지고 있다. 2002년 12월 7일을 시작으로 매주마다 추첨했던 로또는 오늘날짜 기준으로 로또는 915회차를 진행해왔으며, 약 54조원어치 판매를 달성하였으며, 절반에 해당하는 약 27조가 당첨금으로 사용되었다. 로또는 45개의 숫자 중에서 순서와 관계없이 6개의 숫자가 일치하면 1등에 당첨된다. 이때, 1등에 당첨될 확률은 8,145,060분의 1이란 결과가 나온다. 확률이란? 로또에 당첨될 확률이 저렇게 낮은데, 도대체 확률이란 ..
-
대푯값(Representative Value) 이해하기Data Analysis/Statistics 2020. 5. 27. 21:40
Table of Contents Introduction통계학이란?대푯값이란?Reference Introduction 신문기사를 읽다보면 과 같이 "작년 대기업 직원 연봉 평균 7920만원..." 이라는 표현과 "올해 공기업 신입사원 초임 연봉은 평균 3809만원" 이라는 표현을 자주 활용하고는 한다. 이 뿐만 아니라 어린 시절 학교에서 시험을 치른 뒤 과목 별로 평균 점수를 들어본 경험이 있다. '평균(Mean)'은 통계학에서 어떤 의미를 가지고 있을까? 현상을 파악하기 위한 통계학에서 평균만으로 이해하면 안된다고 한다. 왜 그럴까? 직장인 연봉과 관련된 기사 통계학(Statistics)이란? 표준국어대사전에서는 통계학을 사회 현상을 통계에 의해 관찰 및 연구하는 학문이라고 정의하고 있다. 과거 유럽에서..