ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [EDA] 똑똑하게 EDA하기
    Data Analysis/EDA 2020. 10. 31. 23:54

    Table of Contents

    1. Introduction
    2. SmartEDA란?
    3. R에서 이용가능한 EDA 패키지 비교
    4. Reference

     

    Introduction

     데이터 분석을 활용하지 않는 곳이 없을 정도로 사회 각 지역의 다양한 곳에서 데이터를 수집하여 분석하고 있다. 대부분 데이터 분석에서 관심을 갖고 있는 영역은 통계 분석이나 머신 러닝을 이용한 문제 해결일 것이다. 그럼에도 데이터 분석에서 EDA는 가장 중요한 역할을 하고 있으며, 모든 곳에서 데이터 분석의 우선적인 프로세스로 수행하고 있다. [EDA] 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에서 EDA에 대한 이해를 설명하고 있다.

     

     

    SmartEDA란?

     EDA는 크게 통계 분석 파트와 시각화 파트로 나뉜다. 데이터의 유형에 따라 EDA 코딩 방식이 다양하게 나뉜다. 이 모든 과정은 데이터를 이해하고 데이터 특유의 패턴을 도출하는 역할을 한다. 또한, 변수간의 관계를 보여준다거나 데이터 기반의 의사결정을 하는데 큰 도움을 준다. 그럼에도 이러한 결론을 내기 위해서는 다양한 코딩 그리고 수 많은 과정을 거쳐야 한다. SmartEDA는 EDA 과정의 자동화 니즈를 위해 만들어진 R 패키지이다.

    [그림 1] SmartEDA 기능

    SmartEDA 패키지는 EDA의 자동화를 통해 분석 시간을 단축시키고 오류를 줄이는데 기여한다. 실제로 분석을 여러번 수행해본 분석가들의 경우에는 본인들만의 노하우가 담긴 EDA 프로세스가 정해져있다. 다양한 노하우를 응축시켜서 만들어진 패키지라고 볼 수 있다.

     

    R에서 이용가능한 EDA 패키지 비교

    SmartEDA 외에도 EDA를 하기 위해 R에서는 dlookr, DataExplorer, Hmisc, exploreR, RtutoR, summarytools가 있다. 데이터에 대한 기본 정보를 요약하는 기능(Describe basic information for input data)은 대부분에 존재합니다.

    [그림 2] EDA 패키지 비교

     

    데이터에 대한 기본 요약 정보를 SmartEDA를 이용해서 수행한 결과 데이터 사이즈, 변수 개수, 변수 타입별 변수 개수 등을 요약을 제공한다.

    > SmartEDA::ExpData(iris)
                                              Descriptions    Value
    1                                   Sample size (nrow)      150
    2                              No. of variables (ncol)        5
    3                    No. of numeric/interger variables        4
    4                              No. of factor variables        1
    5                                No. of text variables        0
    6                             No. of logical variables        0
    7                          No. of identifier variables        0
    8                                No. of date variables        0
    9             No. of zero variance variables (uniform)        0
    10               %. of variables having complete cases 100% (5)
    11   %. of variables having >0% and <50% missing cases   0% (0)
    12 %. of variables having >=50% and <90% missing cases   0% (0)
    13          %. of variables having >=90% missing cases   0% (0)

     

     

     

    Reference

    Sayan Putatunda 등 4명, "SmartEDA: An R Package for Automated Exploratory Data Analysis", joss.theoj.org/papers/10.21105/joss.01509

    댓글

Designed by Tistory.