Data Analysis/R 패키지
-
머신 러닝을 위한 라이브러리 caretData Analysis/R 패키지 2023. 3. 26. 23:24
Table of Contents Introduction caret 라이브러리 Reference Introduction 2016년 3월 9일부터 10일, 12일, 13일, 15일까지 열린 5번 대결로 이세돌 9단과 구글 딥마인드에서 개발한 알파고의대결에서 승리한 알파고 덕에 인공지능에 대한 관심이 폭발적으로 늘기 시작했으며, 최근 오픈AI에서 개발한 Chatgpt로 한 차례 더 주목하기 시작했다. 이러한 인공지능을 구현하기 위해 다양한 머신러닝 알고리즘을 사용하는데, 이를 사용하기 위해서 R과 Python 등의 언어를 활용하여 수집한 데이터를 가공하여 학습 데이터와 검증용 데이터로 분류하고 문제에 맞는 머신러닝 알고리즘을 적용할 수 있다. 이때 사용하는 알고리즘에는 의사결정나무(Decision Trees)..
-
시각화를 위한 라이브러리 ggplot2Data Analysis/R 패키지 2022. 11. 28. 22:03
Table of Contents Introduction ggplot2 라이브러리 Reference Introduction 데이터 시각화는 https://jaydata.tistory.com/58에서 계속 강조하였다. R에서는 데이터를 시각화하기 위한 기본 함수도 존재하지만 tidyverse 생태계 구축 이후로 ggplot2에 대한 활용이 좀 더 늘어났다. ggplot2를 쉽게 사용하기 위해 Cheatsheet까지 제공하고 있다는 점에서 편의성을 제공하고 있다. ggplot2 라이브러리 ggplot2 라이브러리는 "The Grammar of Graphics를 기반으로 개발된 시각화 라이브러리로 구조화된 형태로 코딩하여 시각화를 구현할수 있다. 다양한 형태로 시각화를 할 수 있다는 장점에서 이 라이브러리를 이..
-
상관관계 시각화를 위한 라이브러리 corrgramData Analysis/R 패키지 2022. 11. 22. 00:12
Table of Contents Introduction corrgram 라이브러리 Reference Introduction 데이터의 분석 과정에서 연속형 변수 간의 관계가 있는지 확인하기 위한 분석 방법으로 상관 분석(Correlation Analysis)을 활용한다. 상관 분석은 하나의 변수가 증가 함에 따라 다른 변수가 증가하거나 감소하는지 파악할 수 있다. 하나의 변수가 증가할때 다른 변수가 증가할 경우 우리는 양의 상관관계가 있다고 말하고 하나의 변수가 증가할 때 다른 변수가 감소할 경우 우리는 음의 상관관계가 있다고 말한다. 상관관계의 강도를 나타내기 위해 상관계수를 사용하는데 상관계수는 -1부터 1까지에서 결과가 나타난다. 이때, 0으로 갈수록 관계가 없으며, -1 또는 1로 갈수록 관계가 강..
-
텍스트 시각화를 위한 라이브러리 wordcloudData Analysis/R 패키지 2022. 11. 13. 17:14
Table of Contents Introduction wordcloud 라이브러리 Reference Introduction 대용량 데이터의 발생과 함께 비정형 텍스트 데이터 역시 기하급수로 발생하고 있다. 이에 따라 다양한 영역에서 기술 동향 분석을 수행하기 위해 연구논문, 특허, SNS 등의 텍스트 데이터를 수집하여 분석하고자 한다. 이렇게 수집한 텍스트 데이터를 처리한 후 어떤 특징이 있는지 확인할 수 있는 시각화 방법이 있다. 이는 워드 클라우드인데, 이에 대한 설명은 https://jaydata.tistory.com/59에서 설명하고 있다. 다만, 해당 내용은 태블로를 활용하여 워드 클라우드를 하는 방법을 가이드 했으며, 이번 페이지에서는 R을 이용한 워드 클라우드 시각화에 대해 설명한다. wo..
-
특정 기준에 따라 집계하기 위한 라이브러리 doByData Analysis/R 패키지 2022. 11. 6. 01:15
Table of Contents Introduction doBy 라이브러리 Reference Introduction 대량의 데이터가 발생함에 따라 필요한 기준으로 집계를 하기 위한 다양한 방식들이 늘어가고 있다. 이를 편리하게 활용하기 위한 라이브라리가 존재한다. doBy 라이브러리가 바로 해당 역할을 한다. doBy패키지를 활용하여 특정한 집계 기준에 따라 데이터를 정렬하거나 데이터를 임의추출할 수 있다. doBy 라이브러리 doBy 패키지는 집단별 데이터를 처리하기 위해 사용하는 함수이다. doBy 패키지 안에는 summaryBy(), orderBy(), sampleBy()와 같은 함수들이 포함되어 있다. summaryBy()는 summary함수를 집단별로 확인하는 것이고 orderBy()는 특정 칼..
-
인터랙티브 웹앱 위한 라이브러리 shinyData Analysis/R 패키지 2022. 10. 29. 14:59
Table of Contents Introduction shiny 라이브러리 Reference Introduction 데이터 분석부터 분석 결과 리포팅까지의 모든 과정을 분석가에게 요구하는 시대가 왔다. 그 만큼 분석가들에게 인터랙티브한 분석 결과를 기대하고 있는 것이다. 이에 따라 R에서는 데이터 분석부터 시작해서 웹앱을 생성할 수 있는 프레임워크가 존재한다. shiny는 R에서 웹앱 프레임워크이다. shiny는 ui와 server로 구성되어있다. ui는 화면을 구성하는 영역이고 server는 화면에 출력되기까지 데이터를 가공하는 과정을 핸들링하는 영역이다. shiny 라이브러리 R에서 분석한 결과를 웹앱으로 빠르게 구성할 수 있는 라이브러리가 shiny 이다. 웹 개발에 비해 상당히 간소화하여 구성하..
-
sql을 활용하기 위한 라이브러리 sqldfData Analysis/R 패키지 2022. 10. 26. 23:41
Table of Contents Introduction sqldf 라이브러리 Reference Introduction 대용량 데이터가 데이터베이스에 관리되고 있으며, 분석가들도 데이터베이스를 이용한 분석 사례가 늘고 있다. 이에 따라 분석가들에게도 SQL을 다루는 스킬이 반드시 필요한 시대가 되었다. 다만 데이터베이스를 설치하고 테이블을 설계하여 데이터를 적재하는 과정을 익히기 보다 SQL 자체를 익히기에 도움이 될 수 있는 라이브러리가 존재한다. 물론, 해당 라이브러리가 개발됐을 때에는 데이터베이스에서 데이터를 추출할때 SQL을 활용할 수 있도록 설계된 라이브러리이다. 다만, 데이터베이스에 연결하지 않더라도 SQL을 사용할 수 있기 때문에 해당 라이브러리는 R에서 SQL을 익히기에 적합한 라이브러리라고..
-
임의 추출을 위한 R 패키지 samplingData Analysis/R 패키지 2022. 10. 22. 18:44
Table of Contents Introduction sampling 라이브러리 Reference Introduction 오늘날과 같이 수 많은 데이터가 발생하는 과정에서 전수 조사가 어려운 경우가 발생하기도 한다. 이때, 모집단을 대표하는 표본을 대상으로 분석을 수행하는데 임의 추출을 사용한다. 임의 추출에는 단순 임의 추출, 층화 추출, 계통 추출이 있다. 단순 임의 추출의 경우에는 전체 데이터에서 모든 샘플 데이터가 동일한 확률로 추출하는 방법을 말한다. 층화 추출의 경우에는 모집단의 특성을 최대한 반영할 수 있도록 몇계의 층을 나누어 각 층별로 임의 표본 추출을 하는 것이다. 따라서 층화 추출의 경우에는 층 간 데이터의 성격이 이질적이며, 층 내에 데이터의 성격은 동질적이다. 마지막으로 계통 추..