ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [R] 신용카드 사용자 연체 예측 AI 경진대회 - 준비
    Project/AI Competition (with R) 2021. 4. 6. 00:38

    [그림 1] Dacon 신용카드 사용자 연체 예측 AI 경진대회

    Table of Contents

    1. 개요

    2. 데이터 불러오기

    3. R markdown을 이용한 분석 - 1일차

    4. Reference

     

    개요

    • 분석 기간 : 2021.04.05 ~ 2021.05.24 17:59

    • 분석 주제 : 신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측하는 알고리즘 개발

    • 분석 배경

      1. 신용카드사는 신용카드 신청자가 제출한 개인정보와 데이터를 활용해 신용 점수를 산정합니다.

      2. 신용카드사는 이 신용 점수를 활용해 신청자의 향후 채무 불이행과 신용카드 대급 연체 가능성을 예측합니다.

      3. 현재 많은 금융업계는 인공지능(AI)를 활용한 금융 서비스를 구현하고자 합니다.

      4. 사용자의 대금 연체 정도를 예측할 수 있는 인공지능 알고리즘을 개발해 금융업계에 제안할 수 있는 인사이트를 발굴해주세요!

    • 대회 설명 : 신용카드 사용자들의 개인 신상정보 데이터로 사용자의 신용카드 대금 연체 정도를 예측

    • 주최 : DACON

    • 주관 : DACON

    • 참가 대상

      1. AI 혹은 빅데이터에 관심 있는 누구나

      2. 학교, 기업, 교육 업체 등 단체에서 자유롭게 참가 가능

     

    데이터 불러오기

    신한카드 사용자 연체 예측 AI 경진대회에서 제공하는 데이터를 다운로드하고 파일을 불러온다. 수집한 train 데이터 셋에 어떤 변수가 있는지 확인하기 위해 head() 함수를 이용하여 데이터를 살펴본다. train 데이터의 변수가 많기 때문에 변수를 위에서 아래로 정렬하였다.

    train = read.csv(file = "cards/train.csv", stringsAsFactors = FALSE)
    test = read.csv(file = "cards/test.csv", stringsAsFactors = FALSE)
    sample_submission = read.csv(file = "cards/sample_submission.csv", stringsAsFactors = FALSE)
    
    library(kableExtra)
    
    train %>%
      head(n = 4) %>% 
      t() %>%
      kbl() %>%
      kable_styling()
    변수명 예시1 예시2 예시3 설명
    index 0 1 2 인덱스
    gender F F M 성별
    car N N Y 차량 소유 여부
    reality N Y Y 부동산 소유 여부
    child_num 0 1 0 자녀 수
    income_total 202500 247500 450000 연간 소득
    income_type Commercial associate Commercial associate Working 소득 분류
    edu_type Higher education Secondary / secondary special Higher education 교육 수준
    family_type Married Civil marriage Married 결혼 여부
    house_type Municipal apartment House / apartment House / apartment 생활 방식
    DAYS_BIRTH -13899 -11380 -19087 출생일
    DAYS_EMPLOYED -4709 -1540 -4434 업무 시작일
    FLAG_MOBIL 1 1 1 핸드폰 소유 여부
    work_phone 0 0 0 업무용 전화 소유 여부
    phone 0 0 1 전화 소유 여부
    email 0 1 0 이메일 소유 여부
    occyp_type   Laborers Managers 직업 유형
    family_size 2 3 2 가족 규모
    begin_month -6 -5 -22 신용카드 발급 월
    credit 1 1 2 사용자의 신용카드 대금 연체 기준 신용도

     

    R markdown을 이용한 분석 - 1일차

    신한카드 사용자 연체 예측 AI 경진대회에 제출하기 위한 R 마크다운을 구축하기 위해 rmarkdown 패키지를 사용하였다. 마크다운 중간에 소스 코드를 넣기 위해서 코드 블럭(Code Chunks)을 넣어야 한다. 코드 블럭을 넣어줄 때에는 아래와 같이 입력한다.

    ```{r}
    
    ```

     

    테이블을 이쁘게 변경하기 위해서 kableExtra 패키지를 사용하였다. 기본적으로 R마크다운에서 제공하고 있는 kbl() 함수는 HTML 형식의 테이블을 만들어 주는 함수이다. 다만, 이쁘지 않기 때문에 kableExtra 패키지에서 제공하고 있는 kable_styling() 함수를 활용한다.

    data %>%
      kbl() %>%
      kable_styling()

     

    앞에서 간략하게 정리했던 내용을 Rmd 파일로 저장하였다. R을 이용하여 분석하고 제출할때 R 마크다운을 활용하여 사용해보자.

    competition.Rmd
    0.00MB

     

    Reference

    R Markdown Cheat Sheat, www.rstudio.com/wp-content/uploads/2016/03/rmarkdown-cheatsheet-2.0.pdf?_ga=2.153084862.688419015.1617634021-790896375.1617634021

    R Markdown Reference Guide, www.rstudio.com/wp-content/uploads/2015/03/rmarkdown-reference.pdf?_ga=2.153084862.688419015.1617634021-790896375.1617634021

     

    댓글

Designed by Tistory.