Data Analysis
-
[Python]DB 커넥터를 활용한 데이터베이스 연동하기Data Analysis/Python 2024. 3. 25. 21:26
Table of Contents Introduction 파이썬에서 DB연동 ConnectorX Reference Introduction 데이터를 다루는 사람이라면 과거에는 csv 파일이나 txt 파일을 활용해서 사용하는 경우가 대다수였을 것이다. 4차 산업혁명과 함께 가장 많이 언급된 단어 중 하나는 디지털 전환(Digital Transformation)일 것이다. 디지털 전환은 디지털 기술을 다양한 분야에 적용하여 기존의 전통적인 산업에서의 디지털화(Digitization)를 촉진시키는 것을 의미한다. 단순 IT기술의 발달이 아닌 하드웨어와 소프트웨어의 고성장이 이뤄낸 결과물인데, 엔비디아나 AMD의 그래픽카드 성능 개선이 기존의 연산을 폭발적으로 개선해왔던 것 또한 디지털 전환의 중요한 매개체이다. ..
-
[Python] 파이썬 라이브러리 PandasAIData Analysis/Python 2024. 3. 4. 22:10
Table of Contents Introduction PandasAI란? Reference Introduction 2023년 10월 100달러 였던 엔비디아 주식은 최근 800달러를 넘으며 앤비디아(NVIDIA) 주가가 미친듯이 치솟고 있다. AI과 관련된 테마주 역시 상당한 반응을 보이며 다시 한번 AI 세상에 살고 있음을 느끼게 하고 있다. 매일 AI 신기술들이 발표되고 있을 정도인데, 데이터를 분석하고 모델을 만드는 직업을 갖고 있다면 많이 사용하고 있는 언어 파이썬의 새로운 라이브러리를 소개하려고 한다. 특히, 기존에 데이터를 처리하거나 분석하는 과정에서 오랜 시간을 소비했던 영역을 자연어를 활용하여 손쉽게 처리할 수 있게 했다는 점에서 굉장한 매력을 갖고 있다. 바로 PandasAI인데, LL..
-
[Python]공공데이터포탈 DEADLINE_HAS_EXPIRED_ERROR 해결Data Analysis/Python 2024. 2. 12. 12:28
Table of Contents 공공 데이터 포탈 API 활용 공공 데이터 포탈 주요 에러 코드 DEADLINE_HAS_EXPIRED_ERROR 조치 방법 공공 데이터 포탈 API 활용 최근 공공데이터를 활용하는 사례가 늘어남에 따라 API사용에 따른 이슈가 발생하기도 한다. 해당 사례는 지역코드를 받기 위한 API를 사용하는 과정에서 발생한 이슈인데, DEADLINE_HAS_EXPIRED_ERROR가 나타난 것이다. 대부분의 사람들이 코드를 입력하는 과정에서 일단 나오는 에러는 뭔지 자세히 읽어보지 않는 것처럼 본인 역시도 대충 건너띄기 마련이다. 도대체 무슨에러인지 일단 구글부터 찾는 맛 아니겠는가 import requests url = 'http://apis.data.go.kr/1741000/Sta..
-
[R] xmlToDataFrame()을 이용하여 xml 문서 파싱하기Data Analysis/R 2024. 1. 21. 20:47
Table of Contents Introduction XML library xmlToDataFrame 함수 Reference Introduction 웹에 게시된 데이터를 가져오기 위해 크롤러를 만들거나 API를 사용해서 데이터를 수집한 경우 xml 형태로 데이터가 오게 되고 이런 데이터를 깔끔하게 정리하지 않으면 바로 분석에 사용하기 어렵다. 따라서 xml을 테이블 형태로 파싱할 수 있는 기능을 구현해야 하지만 그 때 그때 만들기가 쉽지 않다. XML library 주로 XML 문서를 읽거나 생성하기 위해 많이 사용하는 라이브러리 중 하나로 R에서 데이터를 크롤링하여 사용하거나 API를 호출해서 데이터를 수집할 경우 데이터를 파싱하기 위해 사용하는 라이브러리 중 하나이다. CRAN Team이 주도하여 ..
-
[Python]파이썬 자료 구조2(튜플편)Data Analysis/Python 2024. 1. 19. 00:54
Table of Contents 튜플(Tuple) Reference 튜플(Tuple) 리스트와 같이 여러 요소들을 갖고 있는 자료구조이다 다만, 수정 및 삭제가 자유로웠던 리스트와는 달리 수정이 불가능한 튜플은 데이터의 변경이 필요 없는 경우에 한해 사용한다. 특히, 리스트에 비해 메모리를 적게 사용한다. 튜플의 경우 할당하기 위해 소괄호를 활용한다. sample = (‘test1’, ‘test2’, ‘test3’) 생성한 리스트의 특정 요소를 선택하기 위해 인덱스를 활용하는데, R과 다르게 0부터 시작한다는 점이 특징이다. 다만, 파이썬에서 음수를 이용하여 인덱스가 가능하다. -1의 경우 가장 마지막 요소를 호출하게 되고, -2는 뒤에서 두번째 요소를 호출하게 된다. 리스트 내 요소를 호출하는 또 다른..
-
[SQL] 짝수와 홀수인 조건으로 조회하기Data Analysis/SQL 2023. 12. 16. 12:24
Table of Contents Question Answer Reference Question Query a list of CITY names from STATION for cities that have an even ID number. Print the results in any order, but exclude duplicates from the answer. The STATION table is described as follows: where LAT_N is the northern latitude and LONG_W is the western longitude. Answer Question quest us how to query the City names that have an even ID nu..
-
[SQL] 조건문을 활용한 특정 칼럼 조회하기Data Analysis/SQL 2023. 12. 15. 22:23
Table of Contents Question Answer Reference Question Query the NAME field for all American cities in the CITY table with populations larger than 120000. The CountryCode for America is USA. The CITY table is described as follows: Answer Question quest us how to query the NAME field for all America cities. And it tell us they have populations larger than 120000. So, We use "Condition Filtering". M..
-
[SQL] 조건문을 활용한 모든 데이터 조회하기Data Analysis/SQL 2023. 12. 10. 23:14
Table of Contents Question Answer Reference Question Query all columns for all American cities in the CITY table with populations larger than 100000. The CountryCode for America is USA. The CITY table is described as follows: Answer Question quest us how to query all columns for all America cities. And it tell us they have populations larger than 100000. So, We use "Condition Filtering". SELECT ..