Data Analysis
-
[Algorithms] YOLO(You Only Look Once)Data Analysis/Algorithms 2021. 2. 13. 23:30
Table of ContentsIntroductionYOLO(You Only Look Once)란?YOLO in RReference Introduction"김원해 = 변기...?" 이게 무슨 말인가? 2020년 4분기(2020. 10. 17 ~ 2020. 12. 06)에 수지(서달미), 남주혁(남도산), 김선호(한지평), 강한나(원인재) 주연의 스타트업이 tvN에서 방영되었다. 한국의 실리콘 밸리에서 성공을 꿈꾸는 드라마인데, 남주혁 배우가 AI 전문가로 나온다. 이미지 분석을 해서 이미지 스캐너를 이용해서 실시간으로 데이터를 판별하는 서비스를 구현하였다. 이때 사용하는 방식이 어떤 알고리즘을 사용했는지는 알 수 없으나, 이미지 분석을 활용한 비즈니스 모델을 굉장히 상세하게 다뤘다는 점에서 호기심을 자..
-
[NLP] 문서 요약(Text Summarization)Data Analysis/Natural Language Processing 2020. 11. 7. 13:40
Table of Contents Introduction 문서 요약(Text Summarization)이란? Reference Introduction 빅데이터 분석의 수요가 증가하면서 비정형 데이터 분석 및 활용 사례도 점차 늘어나고 있다. 데이터 발생의 80~90%가 비정형 데이터로 구성되있는 것에 비해 비정형 데이터 활용은 가야할 길이 멀다. 비정형 데이터 중에서 텍스트는 우리 주변에서 다양하게 활용하고 있으며, 정보 전달에 가장 중요한 역할을 한다. 다른 비정형 데이터나 정형 데이터보다 쉽게 수집이 가능하다는 점에서 분석가들의 관심을 끌고 있다. 텍스트 분석의 활용은 문서 분류(Document Classification), 문서 요약(Document Summarization), 감성 분석(Sentim..
-
[EDA] 똑똑하게 EDA하기Data Analysis/EDA 2020. 10. 31. 23:54
Table of Contents Introduction SmartEDA란? R에서 이용가능한 EDA 패키지 비교 Reference Introduction 데이터 분석을 활용하지 않는 곳이 없을 정도로 사회 각 지역의 다양한 곳에서 데이터를 수집하여 분석하고 있다. 대부분 데이터 분석에서 관심을 갖고 있는 영역은 통계 분석이나 머신 러닝을 이용한 문제 해결일 것이다. 그럼에도 데이터 분석에서 EDA는 가장 중요한 역할을 하고 있으며, 모든 곳에서 데이터 분석의 우선적인 프로세스로 수행하고 있다. [EDA] 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에서 EDA에 대한 이해를 설명하고 있다. SmartEDA란? EDA는 크게 통계 분석 파트와 시각화 파트로 나뉜다. 데이터의 ..
-
[EDA] 탐색적 데이터 분석(Exploratory Data Analysis, EDA)Data Analysis/EDA 2020. 9. 30. 00:57
Table of Contents Introduction 탐색적 데이터 분석(EDA)란? Reference Introduction 데이터 분석을 하는 모든 사람들이라면 한번씩 접해볼 수 있는 용어 중 하나인 EDA는 데이터 입수 후에 가장 첫번째 단계이며, 내가 갖고 있는 데이터가 무엇인지 어떻게 생긴 데이터인지 확인할 필요가 있다. 만약 내가 가지고 있는 데이터에 빈칸만 존재한다면, 다음 스텝으로 넘어갈 수 없을 것이다. 따라서, 우리는 데이터 입수 후에 내 데이터에 빈칸이 존재하는지, 아니면 정상 범주에 포함되는 값이 들어가 있는지 확인할 필요가 있다. 이 과정을 강조하고 싶은 이유는 바로 여기에 있다. 실제 프로젝트를 할 경우 수집한 데이터가 정상적으로 잘 쌓여 있는지 아무도 아는 사람이 없다. 데이..
-
세 집단을 비교하기Data Analysis/Statistics 2020. 8. 2. 22:11
Table of Contents Introduction 분산분석(Analysis of Variance;ANOVA)이란? 일원배치 분산분석(One-way ANOVA) 이원배치 분산분석(Two-way ANOVA) 다변량 분산분석(Multivariate Analysis of Variance, MANOVA) 공분산분석(Analysis of Covariance, ANCOVA) Reference Introduction 데이터 기반의 의사 결정을 위해 두 집단 간의 평균 차이를 비교하는 방법으로 T-검정이 있다. 두 집단을 비교하기를 통해 T-검정의 종류를 소개하였고, 종류 별 상황과 실제 R을 이용하여 분석을 하는 과정을 함께 설명하였다. 하지만, 일상 생활에서 우리는 의사 결정을 할때 두 가지의 경우에서 하나의 ..
-
두 집단을 비교하기Data Analysis/Statistics 2020. 8. 2. 21:23
Table of ContentsIntroductionT검정(T-Test)이란?일표본 T검정(One sample T-test)이란?독립표본 T검정(Independent-samples T-test)이란?대응표본 T검정(Paired-samples T-test)이란?Reference Introduction 최근들어 데이터 기반의 의사 결정이라는 말이 보편화되어 다양한 현장에서 활용하고 있으며, 이와 관련된 채용이 적극적으로 늘고 있는 추세이다. 제품 A를 판매하고 있는 회사에서 새로운 제품 B를 출시 하기 위해서 다양한 형태로 제품의 특성을 측정하고 이들 간의 관계를 분석하곤 한다. 이렇게 두 집단의 차이가 우연에 의해 발생하는 차이가 아니라 정말로 다른 두 집단이라는 검정을 하기 위해서 두 집단의 평균 차이를..
-
[Algorithms] 인공 신경망(Artificial Neural Network)이란?Data Analysis/Algorithms 2020. 7. 27. 23:26
Table of Contents Introduction 인공 신경망(Artificial Neural Network)이란? 인공 신경망 in R Reference Introduction 지난 날 인터넷 기술의 발달과 재생 에너지를 기반으로 3차 산업 혁명을 이끌어 왔다면, 4차 산업혁명(The Fourth Industrial Revolution)은 초연결(Hyperconnectivity)과 초지능(Superintelligence)이라는 특징을 가지고 있기에 기존의 주변 환경을 보다 빠르게 변화시키고 있다. 이를 가능케 했던 근본적인 기술에는 인공 지능(Artificial Intelligence;AI), 사물 인터넷(Internet of Things;IoT), 클라우드 컴퓨팅(Cloud Computing),..
-
[Algorithms] 연관 규칙(Association Rule) 분석Data Analysis/Algorithms 2020. 7. 4. 18:06
Table of Contents Introduction 연관 규칙(Association Rule)이란? 연관 규칙의 이해 연관성 분석 in R Reference Introduction 데이터 마이닝에 관심이 있는 사람들이라면 기저귀를 사는 사람이 맥주도 산다는 사례를 들어본 적이 있을 것이다. 남편에게 기저귀 심부름을 하면 맥주를 사오는 현상에 따라 진열장을 재 배치했다는 이 사례는 Rakesh Agrawal이 Marks & Spencer 라는 영국의 할인점 체인에서 시도한 분석 기법이다. 다만, 이게 실제 성공한 사례인지에 대해서는 알려진 바 없다. 바코드 시스템 도입으로 리테일 산업에서 대용량 데이터가 발생하기 시작했으며 이를 장바구니 데이터라고 부른다. 이런 대용량 데이터를 수집하기 전부터 도대체 ..