ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [NLP] 문서 요약(Text Summarization)
    Data Analysis/Natural Language Processing 2020. 11. 7. 13:40

    Table of Contents

    1. Introduction
    2. 문서 요약(Text Summarization)이란?
    3. Reference

     

    Introduction

     빅데이터 분석의 수요가 증가하면서 비정형 데이터 분석 및 활용 사례도 점차 늘어나고 있다. 데이터 발생의 80~90%가 비정형 데이터로 구성되있는 것에 비해 비정형 데이터 활용은 가야할 길이 멀다. 비정형 데이터 중에서 텍스트는 우리 주변에서 다양하게 활용하고 있으며, 정보 전달에 가장 중요한 역할을 한다. 다른 비정형 데이터나 정형 데이터보다 쉽게 수집이 가능하다는 점에서 분석가들의 관심을 끌고 있다. 텍스트 분석의 활용은 문서 분류(Document Classification), 문서 요약(Document Summarization), 감성 분석(Sentimental Analysis), 오피니언 마이닝(Opinion Mining) 등이 있다.

     

    문서 요약(Text Summarization)이란?

    텍스트 데이터를 수집하여, 필요한 정보를 압축해서 정보를 제공하는 형태를 문서 요약이라고 한다. 문서를 자동으로 요약하는 방법은 크게 추출(Extraction)과 생성(Abstraction)으로 구분한다. 추출은 문서 내 문장 구조의 중요도를 기반으로 요소를 그대로 발췌하는 방식이며, 생성은 자언어 처리 기반을 통해 원 문서 요소를 재조합하여 새로운 문장을 구성하는 방식이다. 다양한 형태로 구분할 수 있다. 문서 수에 따라 단일 문서와 다중 문서 요약으로 구분하고, 문장 생성 방식에 따라 추출적 요약과 추상적 요약으로 구분한다. 그 외에도 요약 범위에 따라 포괄적 요약과 질의집중적 요약으로 분류 할 수 있으며, 요약의 스타일에 따라 지시적 요약과 정보적 요약으로 구분할 수 있다.

    [그림 1] 전통적인 문서 요약 방법

     

    Reference

    고은정 외, "완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법", 2018

    댓글

Designed by Tistory.