-
[Data 이모저모] R패키지 tidyverse 생태계Data 이모저모 2021. 1. 9. 13:32
Table of Contents
-
Introduction
- R이란?
-
tidyverse 생태계란?
-
Reference
Introduction
지난 8일에 열린 21년 과학기술인/정보방송통신인 신년인사회에서 다시 한번 디지털 뉴딜을 강조하고 있다. COVID-19 팬더믹 이후, 뉴노멀 시대의 성장 동력으로 D.N.A(디지털, 네트워크, 인공지능)을 융합해 국가 경쟁력을 강화하고자 한다. 기업은 산업 분야를 가리지 않고 데이터 기반의 비즈니스 모델을 도입하고 관련 업무를 수행할 수 있는 인력을 확충하고 있는 상태이다. 학교에서는 데이터 사이언스 센터를 개설하거나 데이터사이언스 전공을 신설하기도 한다. 그만큼 데이터 사이언스가 중요한 성장 동략의 중요한 역할을 하고 있으며, 이와 관련해 R의 체계적인 분석 생태계가 구축되고 있다. 데이터 사이언스를 위한 R 패키지 생태계가 구축되고 있다.
R이란?
통계 분석 프로그램으로 유명한 R은 SAS, SPSS와 다르게 오픈소스인 점에서 비교적 최근에 수요가 폭증했다. 기업에서도 무료로 사용할 수 있기 때문에 도입이 빠르게 이루어졌으며, 이와 관련한 교육들도 상당히 많이 생기고 있다. S 언어를 기반로 만들어졌으며 통계과 시각화에 특화되어 있다. [그림 2]의 왼쪽 윗 부분이 코딩을 수행하는 곳이며, 주변에 결과가 도출된다.
Tidyverse 생태계란?
Tidyverse는 데이터 사이언스를 위한 다양한 패키지들을 하나로 모와 놓은 패키지 꾸러미다. 데이터 처리부터 시각화까지 데이터 사이언스의 전체 프로세스를 수행하는데 필요한 패키지들이 담겨 있으며, 해들리 위컴(Hadly Wickham)에 의해 소개되었다. 코어 패키지에는 ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr, forcats로 구성되어 있다. 수집에서 사용하는 코어 패키지 readr은 빠른속도로 csv, tsv 파일을 불러올 수 있으며, dplyr은 분석 모델에 사용 가능하도록 가공하는데 사용한다. ggplot2는 R에서 가장 매력적으로 느낄 수 있는 패키지 중에 하나이며, 분석의 꽃 시각화를 할 수 있는 패키지이다.
Tidyverse와 같이 분석 과정에서 사용하는 패지키들을 통합으로 관리하고 있다면, 데이터 분석 시간을 단축할 수 있다. 더욱이 패키지를 찾아서 익히는 과정도 생각보다 오래 걸린다. 일관성 있는 함수 사용 방식으로 데이터 분석 외 시간을 단축하는데 큰 역할을 하고 있다.
Reference
과기·ICT 신년인사회 개최…"디지털 뉴딜로 산업·사회 발전 뒷받침", bit.ly/3ourduR
tidyverse, www.tidyverse.org/
R 스튜디오 Cheetsheets, rstudio.com/resources/cheatsheets/
'Data 이모저모' 카테고리의 다른 글
[Data 이모저모] ChatGPT, 무엇인가? (2) 2023.02.08 [Data 이모저모] 오픈 API 활용하기 (0) 2022.07.31 [Data 이모저모] 퓨처스킬 - 문제를 해결하며 실력을 기르세요 (0) 2021.04.04 [Data 이모저모] T아카데미 스마트 ICT 전문가 양성 (0) 2021.02.19 [Data 이모저모] 데이콘, 한국판 캐글대회 (0) 2020.11.30 -