ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [R] 신용카드 사용자 연체 예측 AI 경진대회 - EDA
    Project/AI Competition (with R) 2021. 4. 10. 11:03

    [그림 1] Dacon 신용카드 사용자 연체 예측 AI 경진대회

     

    Table of Contents

    1. 개요
    2. EDA
    3. R markdown을 이용한 분석 - 2일차
    4. Reference

     

    개요

    • 분석 기간 : 2021.04.05 ~ 2021.05.24 17:59
    • 분석 주제 : 신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측하는 알고리즘 개발
    • 분석 배경
      1. 신용카드사는 신용카드 신청자가 제출한 개인정보와 데이터를 활용해 신용 점수를 산정합니다.
      2. 신용카드사는 이 신용 점수를 활용해 신청자의 향후 채무 불이행과 신용카드 대급 연체 가능성을 예측합니다.
      3. 현재 많은 금융업계는 인공지능(AI)를 활용한 금융 서비스를 구현하고자 합니다.
      4. 사용자의 대금 연체 정도를 예측할 수 있는 인공지능 알고리즘을 개발해 금융업계에 제안할 수 있는 인사이트를 발굴해주세요!
    • 대회 설명 : 신용카드 사용자들의 개인 신상정보 데이터로 사용자의 신용카드 대금 연체 정도를 예측
    • 주최 : DACON
    • 주관 : DACON
    • 참가 대상
      1. AI 혹은 빅데이터에 관심 있는 누구나
      2. 학교, 기업, 교육 업체 등 단체에서 자유롭게 참가 가능

     

    EDA(Exploratory Data Aanlysis)

    준비한 데이터를 이용해서 EDA를 진행하여 데이터를 파악한다. [EDA] 탐색적 데이터 분석(Exploratory Data Analysis)를 참조하기 바란다.

     

    사용자의 대금 연체 정보를 예측하기 위해 수집한 train 데이터를 살펴보면 20개의 범주형 변수와 연속형 변수로 구성되어 있다.

     

    차량 보유 현황, 성별, 부동산 보유 현황, 교육 현황, 가족 현황, 거주 환경, 휴대폰 소지 현황, 업무용 휴대폰 소지 현황, 이메일 보유 현황, 직업, 신용 등급까지는 범주형 변수이며, 자녀 수, 연령, 취업일 수, 가족 구성원 수, 신용카드 발급 기간이 연속형 변수이다.

     

    수집한 데이터를 간단하게 요약한 결과, 신용카드 사용자의 경우 여성이 남성보다 많은 것으로 나타났으며, 차량을 보유하지 않은 경우가 차량을 보유한 경우보다 더 많은 것으로 나타났다. 부동산 역시 보유하지 않는 경우가 더 많은 것으로 나타났다.

     

    수집한 데이터에는 Null 값은 없는 것으로 나타났다. 다만, 간단하게 데이터를 살펴 보면서 각 변수별로 어떤 특성을 가지고 있는지 혹은 데이터 전체에 대한 사용자 특성은 확인하였다. 여기에서 더 나아가 신용 등급에 따라 사용자가 어떤 특성을 가지고 있는지 살펴볼 필요가 있다.

     

    R markdown을 이용한 분석 - 2일차

    신한카드 사용자 연체 예측 AI 경진대회에 제출하기 위한 R 마크다운을 구축하기 위해 rmarkdown 패키지를 사용하여 EDA한 내용들이 담겨 있다.

     

     

    competition.Rmd
    0.01MB

    Reference

    [EDA] 탐색적 데이터 분석(Exploratory Data Analysis), https://jaydata.tistory.com/71

    [R] 신용카드 사용자 연체 예측 AI 경진대회 - 준비, https://jaydata.tistory.com/92

     

    댓글

Designed by Tistory.