-
특정 기준에 따라 집계하기 위한 라이브러리 doByData Analysis/R 패키지 2022. 11. 6. 01:15
Table of Contents
- Introduction
- doBy 라이브러리
- Reference
Introduction
대량의 데이터가 발생함에 따라 필요한 기준으로 집계를 하기 위한 다양한 방식들이 늘어가고 있다. 이를 편리하게 활용하기 위한 라이브라리가 존재한다. doBy 라이브러리가 바로 해당 역할을 한다. doBy패키지를 활용하여 특정한 집계 기준에 따라 데이터를 정렬하거나 데이터를 임의추출할 수 있다.
doBy 라이브러리
doBy 패키지는 집단별 데이터를 처리하기 위해 사용하는 함수이다. doBy 패키지 안에는 summaryBy(), orderBy(), sampleBy()와 같은 함수들이 포함되어 있다. summaryBy()는 summary함수를 집단별로 확인하는 것이고 orderBy()는 특정 칼럼을 정렬하는 함수이다. sampleBy()는 집단별로 sample을 하기 때문에 계층 추출과 동일한 효과로 데이터를 추출할 수 있다.
# doBy package install.packages("doBy") library(doBy) # sampleBy() sample = data.frame(1:10) sampleBy(~1, frac=.3, data=sample, systematic=TRUE) sampleBy(~Species, frac=.1, data=iris) # summaryBy() summaryBy(Sepal.Width + Sepal.Length ~ Species, iris) # orderBy() orderBy(~ Sepal.Width, iris)
sampleBy()의 경우는 데이터에서 표본을 추출할 때 사용하는 함수입니다. 이때, systematic=TRUE로 하셨을 경우에 계통추출법을 이용할 수 있습니다.
Reference
"Groupwise Statistics, LSmeans, Linear Estimates, Utilities", Søren Højsgaard 외 1명, https://cran.r-project.org/web/packages/doBy/doBy.pdf
'Data Analysis > R 패키지' 카테고리의 다른 글
상관관계 시각화를 위한 라이브러리 corrgram (0) 2022.11.22 텍스트 시각화를 위한 라이브러리 wordcloud (0) 2022.11.13 인터랙티브 웹앱 위한 라이브러리 shiny (2) 2022.10.29 sql을 활용하기 위한 라이브러리 sqldf (0) 2022.10.26 임의 추출을 위한 R 패키지 sampling (0) 2022.10.22