ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Data 이모저모] R패키지 tidyverse 생태계
    Data 이모저모 2021. 1. 9. 13:32

    Table of Contents

    1. Introduction

    2. R이란?
    3. tidyverse 생태계란?

    4. Reference

     

    Introduction

     지난 8일에 열린 21년 과학기술인/정보방송통신인 신년인사회에서 다시 한번 디지털 뉴딜을 강조하고 있다. COVID-19 팬더믹 이후, 뉴노멀 시대의 성장 동력으로 D.N.A(디지털, 네트워크, 인공지능)을 융합해 국가 경쟁력을 강화하고자 한다. 기업은 산업 분야를 가리지 않고 데이터 기반의 비즈니스 모델을 도입하고 관련 업무를 수행할 수 있는 인력을 확충하고 있는 상태이다.  학교에서는 데이터 사이언스 센터를 개설하거나 데이터사이언스 전공을 신설하기도 한다. 그만큼 데이터 사이언스가 중요한 성장 동략의 중요한 역할을 하고 있으며, 이와 관련해 R의 체계적인 분석 생태계가 구축되고 있다. 데이터 사이언스를 위한 R 패키지 생태계가 구축되고 있다.

    [그림 1] 8일 오후 3시 한국과학기술회관에서 2021 과학기술인·정보방송통신인 신년인사회

     

    R이란?

     통계 분석 프로그램으로 유명한 R은 SAS, SPSS와 다르게 오픈소스인 점에서 비교적 최근에 수요가 폭증했다. 기업에서도 무료로 사용할 수 있기 때문에 도입이 빠르게 이루어졌으며, 이와 관련한 교육들도 상당히 많이 생기고 있다. S 언어를 기반로 만들어졌으며 통계과 시각화에 특화되어 있다. [그림 2]의 왼쪽 윗 부분이 코딩을 수행하는 곳이며, 주변에 결과가 도출된다.

    [그림 2] R 스튜디오

     

    Tidyverse 생태계란?

    Tidyverse는 데이터 사이언스를 위한 다양한 패키지들을 하나로 모와 놓은 패키지 꾸러미다. 데이터 처리부터 시각화까지 데이터 사이언스의 전체 프로세스를 수행하는데 필요한 패키지들이 담겨 있으며, 해들리 위컴(Hadly Wickham)에 의해 소개되었다. 코어 패키지에는 ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr, forcats로 구성되어 있다. 수집에서 사용하는 코어 패키지 readr은 빠른속도로 csv, tsv 파일을 불러올 수 있으며, dplyr은 분석 모델에 사용 가능하도록 가공하는데 사용한다. ggplot2는 R에서 가장 매력적으로 느낄 수 있는 패키지 중에 하나이며, 분석의 꽃 시각화를 할 수 있는 패키지이다.

    [그림 3] 코어 패키지

     

    Tidyverse와 같이 분석 과정에서 사용하는 패지키들을 통합으로 관리하고 있다면, 데이터 분석 시간을 단축할 수 있다. 더욱이 패키지를 찾아서 익히는 과정도 생각보다 오래 걸린다. 일관성 있는 함수 사용 방식으로 데이터 분석 외 시간을 단축하는데 큰 역할을 하고 있다.

     

    Reference

    R, https://www.r-project.org/

    과기·ICT 신년인사회 개최…"디지털 뉴딜로 산업·사회 발전 뒷받침", bit.ly/3ourduR

    tidyverse, www.tidyverse.org/

    R 스튜디오 Cheetsheets, rstudio.com/resources/cheatsheets/

    댓글

Designed by Tistory.