요즘 같은 AI 시대에 ChatGPT를 한 번쯤은 들어봤을 것 같은데요,
조금만 더 깊게 들어가면 LLM이라는 개념이 나옵니다.
그렇다면 LLM은 무엇일까요?
Large Language Model, 즉 LLM이란,
대규모 언어 모델의 약자로 방대한 양의 데이터로 사전 학습된 딥러닝 모델입니다.
하지만 이런 LLM이 하나만 있는 것이 아니지요.
Chatbot Arena에서 확인할 수 있듯이 이미 ChatGPT-4o(최신 버전)의 성능을 뛰어넘은 모델들도 있습니다.

LLM의 동작방식
1. LLM은 방대한 양의 텍스트 데이터를 사전학습 합니다.
LLM은 기본적으로 파일 2개로 이루어져 있습니다.
매개변수 파일과 C 혹은 파이썬으로 작성된 실행 파일입니다.
실행 파일은 대부분 500줄의 코드로 작성됩니다.
이 파일을 실행하게 되면 마법이 일어납니다.
매개변수 파일이 매우 방대한 양이기 때문이죠.
예를 들어 오픈 소스인 LLAMA2는 700억 개(70B)의 매개변수가 존재합니다.
이 매개 변수는 사전에 10TB의 텍스트를 훈련해서 얻었죠.
이 텍스트는 위키피디아, 웹사이트 등 다양한 인터넷에서 온 데이터 입니다.
10TB는 매우 방대하기 때문에, 140GB로 압축해서 사용합니다.
큰 데이터를 작은 zip 파일로 압축하기 위해서는 많은 GPU 전력이 필요하게 됩니다.
몇 년간 엔비디아의 인기가 높았던 이유입니다.
RLLAMA, LLAMA3처럼 2개의 파일에 대한 오픈 소스가 있다면 우리는 쉽게 이를 다운 받아 로컬에서 실행할 수 있습니다.
인터넷에 올라가지 않기 때문에 데이터 보안이 극대화되는 이점이 있죠.

2. 사전학습된 LLM은 파인튜닝이라는 미세한 조율이 필요합니다.
파인튜닝이란 특정 데이터를 사용해서 추가적인 학습을 수행하는 작업입니다.
목적은 모델이 특정 분야(의료, 은행, 통신 업무 등)에서 더욱 정교하고 전문적인 답변을 할 수 있게 개선하는 것이지요.
LLM에게 질문과 답변을 제공하면 우리가 원하는 답변을 배울 수 있습니다.

3. 마지막 단계로 강화학습을 진행합니다.
우리가 질문을 하고 대답을 얻어서 좋은지 나쁜지 LLM에게 알려줍니다.
이 구조에는 신경망이 존재합니다.
아래처럼 복잡한 인공지능공학의 이론입니다.
기본적으로 가중치라는 숫자가 필요합니다.
우리가 첫 질문을 입력하게 되면, 토큰이 생성됩니다.
이 토큰은 숫자로 이루어져 있어서 가중치와 함께 신경 회로가 계산할 수 있습니다.

토큰과 토큰 한계
토큰이란?
토큰은 텍스트를 작은 단위로 나눈 것입니다.

이 토큰들은 ID로 변환되며 LLM은 실제로 이 숫자들을 학습하게 됩니다.

아래에서 우리의 텍스트가 어떻게 토큰화 되는지 확인할 수 있습니다.
https://platform.openai.com/tokenizer
GPT가 이전의 답변을 기억하지 못한 적이 있었다거나, 갑자기 생뚱맞은 답변을 할 때가 있었나요?
모든 LLM에는 토큰 제한이 존재합니다.
이 토큰 제한은 입출력을 합쳐 계산하게 됩니다.
GPT의 토큰 제한은 4000~8000으로, 초기의 GPT의 활용성이 떨어졌던 이유입니다.
추후에는 이런 토큰 제한이 사라지거나, 고려하지 않아도 될 만큼 커지게 될 것입니다.
'AI engineering > LLM' 카테고리의 다른 글
[LLM] 딥시크란? 맥북으로 딥시크 간단하게 돌려보기 (0) | 2025.02.16 |
---|---|
이 ChatGPT는 스스로 마인크래프트를 합니다. - LLM, AI agent (0) | 2024.12.30 |
[LLM, RAG] 테이블 데이터를 LLM 프롬프팅에 사용하기 (0) | 2024.12.26 |