ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 대형언어모델(Large Language Model, LLM)이란?
    Data Analysis/Natural Language Processing 2023. 10. 14. 14:21

    Table of Contents

    1. Introduction
    2. 대형언어모델(Large Language Model, LLM)이란?
    3. 대형언어모델의 전망
    4. Reference

     

    Introduction

     한 동안 ChatGPT에 대한 광풍이 불면서, ChatGPT를 활용한 다양한 책들이 등장하기 시작했다. OpenAI에서 제공하는 ChatGPT-3는 Open AI 홈페이지에서 무료로 제공하고 있어, 사용자들이 손쉽게 접근 할 수 있다. 한때, ChatGPT를 사용해서 과제나 시험의 부정행위로 사용했던 부정적인 이면을 보였음에도 ChatGPT를 활용한 다양한 사용법들이 가이드되고 있다. 기업에서는 신입사원들의 업무 지원을 하기 위한 목적으로도 활용하기도 하고, 인생의 2막을 열기 위해 블로그를 작성하거나 책을 쓰기 위해 기초 자료로 사용하기도 한다. 이러한 ChatGPT를 구현 가능하게 만든 요소가 바로 대형언어모델이 그 역할을 하고 있다.

     

    [Data 이모저모] ChatGPT, 무엇인가?

    Table of Contents Introduction ChatGPT란? Reference Introduction 최근 ChatGPT에 대한 이슈가 상당히 높은 것으로 나타나고 있다. 샘 알트만(Sam Altman)에 의해 설립된 인공지능 회사인 OpenAI에서 제공하는 서비스이

    jaydata.tistory.com

     

    대형언어모델(Large Language Model, LLM)이란?

     대형언어모델은 머신러닝/딥러닝을 활용하여 인간과 대화가 가능하도록 만든 자연어처리 기술 중 하나이다. 초기 자연어처리 모델은 사전을 활용하여 특정 문서 내에 어떤 단어가 있는지 그 횟수를 활용하여 문서의 유사도를 구하거나 문장의 유사도를 구하여 처리하는 방식이었다면 신경망을 활용한 트랜스포머 모델의 등장으로 획기적으로 변화하게 되었다. 다양한 문장을 학습해서 특정 위치에 무슨 말이 올지 예측 하는 형태이기 때문에 학습하는 문서가 많으면 많을수록 정확하지만 잘못 학습할 경우 나쁜 결과를 도출한다는 점에서 주의사항이 필요하다. 다만 이러한 트랜스포머 모델의 원리는 대형언어모델을 생성하는 기초가 되었으며, 활용에 따라 더 많은 파라미터와 코퍼스를 가져야 하기 때문에 대형 서버를 필요로 한다. 2018년 트랜스포머를 활용한 BERT가 개발되면서부터 본격적인 대형언어모델의 발전이 시작되었다. 

    대형언어모델 출시 개발 파라미터수 코퍼스 크기
    BERT 2018년 구글 3.4억 33억
    XLNet 2019년 구글 3.4억 330억
    GPT-2 2019년 OpenAI 15억 100억
    GPT-3 2020년 OpenAI 1750억 3000억
    PaLM 2022년 구글 5400억 7680억
    GPT-4 2023년 OpenAI 1조 미상
    PaLM2 2023년 구글 3400억 3.6조

     

    대형언어모델의 전망

     현재까지 대형언어모델을 보고 "직업이 사라질 것이다", "허위 사실을 유포한다", "정치적 편향성을 나타낸다" 등 다양한 이슈들이 발생하고 있다. 이처럼 윤리 차원에서 대형언어모델에 대한 활용과 개발을 고려할 부분이 생길 것이다. 반면 활용차원에서 텍스트 기반으로 활용하던 대형언어모델은 챗봇이나 AI비서 등에서의 서비스 퀄리티를 높일 것이고 오디오, 이미지와 결합하여 다양하게 활용할 가능성이 높아진다. 실제 산업 분야에서 내부 직원들을 위한 차원에서 대형언어모델을 활용하여 작업을 자동화하는 RPA를 구성하고 보다 창의적인 업무에 집중할 수 있도록 하는 추세이다. 서비스를 제공받는 고객을 위한 서비스를 개선되고 있다. 대형언어모델을 활용한 창의적인 콘텐츠를 창출하는데 있어, 오디오와 이미지 결합은 빠르게 녹아들 것이다.

     

    Reference

    "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Jacob Devlin 등 4명, https://arxiv.org/abs/1810.04805v2

    "GPT-4 Technical Report", OpenAI,  https://cdn.openai.com/papers/gpt-4.pdf

     

    댓글

Designed by Tistory.