
Fully Connnected Layer
- 앞 레이어의 모든 노드가 뒤 레이어의 모든 노드와 연결된 뉴럴 네트워크 구조
- 각 노드는 이전 레이어의 모든 출력을 입력받아 가중합을 계산하고, 이를 통해 여러 특징들을 종합해 새로운 패턴을 학습
CNN (Convoluational Neural Network)
-CNN은 데이터의 지역적 특징을 추출하고, 레이어를 거듭하며 이를 결합해 점점 더 복잡한 패턴을 학습하는 뉴럴 네트워크 구조
-CNN은 데이터에 대해 두 가지 가정을 함
1. spatial locality
이는 데이터에서 국소 영역만 봐도 의미 있는 특징을 얻을 수 있고, 이를 기반으로 전체 패턴을 학습할 수 있다는 가정
2. positional invariance
동일한 패턴은 데이터 내 어느 위치에 등장하더라도 같은 의미를 가진다고 보는 가정
-convolutiona layer에서는 작은 필터가 인풋 데이터의 국소 영역을 훑으면서 특징을 추출함
-여러 convolutiona layer를 거쳐 이런 특징들을 결합해 모델은 복잡한 패턴을 학습함
-마지막 단계에서 fully connected layer가 추출된 특징들을 종합하여 최종적인 아웃풋을 냄
Attention
-어텐션은 입력 시퀀스의 각 요소가 현재 출력을 내는데 얼마나 중요한 지를 가중치로 계산해,
중요한 정보를 더 크게 반영하는 메커니즘
-기본 구조는 Query, Key, Value로 이루어져 있으며,
쿼리와 키의 유사도를 통해 스코어를 계산하고 이를 바탕으로 Value들을 가중합해 컨텍스트 벡터를 만듦
-기존 RNN이나 LSTM은 시퀀스를 순차적으로 처리하기 때문에 먼 거리에 있는 정보를 기억하기 어려웠는데,
어텐션은 입력 전체를 한 번에 바라보면서 필요한 정보를 선택적으로 강조할 수 있음
Self-Attention
- 셀프 어텐션은 쿼리, 키, 밸류가 모두 동일한 입력 시퀀스에서 만들어지는 어텐션으로,
시퀀스 내부의 토큰들 간 관계와 문맥을 학습하는 메커니즘

Transformer
-Self-Attention을 통해 입력 시퀀스 내 단어들 간의 관계를 병렬적으로 학습하고,
이를 바탕으로 문맥에 맞는 출력을 생성하는 딥러닝 모델
-기존 RNN이나 LSTM은 시퀀스 데이터 내 토큰을 순차적으로 처리해야 했지만,
트랜스포머는 문장의 모든 단어가 동시에 다른 단어들과의 관계를 계산하기 때문에
병렬 학습이 가능하고 긴 문맥도 효과적으로 반영할 수 있음
-모델은 크게 인코더와 디코더로 나뉨
- 인코더는 입력 시퀀스를 받아 각 단어 간의 관계와 문맥을 입힘
- 디코더는 지금까지 생성한 단어를 바탕으로 다음 단어를 예측하고 생성함
Vision Transformer (ViT)
-이미지를 잘게 나눈 패치들을 토큰처럼 처리해, 셀프 어텐션으로 이미지 내부의 패턴과 영역간 관계를 학습하는 모델
-CNN과 달리 데이터에 대한 기본 가정이라 할 수 있는 inductive bias를 전혀 내포하지 않기 때문에
이런 성질을 데이터로부터 직접 학습해야 하며, 매우 많은 데이터가 필요함
- 그러나 충분히 많은 데이터가 주어지면 CNN의 성능을 넘어설 수 있음
Large Language Model (LLM)
LLM은 대규모의 텍스트 데이터를 Transformer 구조를 이용해 pre-train된 언어모델임
GPT (Generative Pre-trained Transformer)
-GPT는 Transformer Decoder 구조를 기반으로, 이전까지의 토큰을 입력으로 받아 다음 토큰을 예측하도록 학습한 LLM임
-사전 학습 단계에서 미래의 토큰 정보가 현재 예측에 영향을 주지 않도록
Masked Multihead Self-Attention을 적용하여 모델이 오직 과거 정보만을 활용해
다음 단어를 단방향으로 예측하도록 설계됨
-파인튜닝 없이도 다양한 task에 활용될 수 있으나, 파인튜닝을 통해 성능을 향상 시킬 수 있음
-문장 생성에 강점을 가지고 있음
BERT (Bidirectional Encodner Representations from Transformer)
- BERT는 Transformer Encodner 구조를 기반으로 입력 시퀀스를 양방향으로 인코딩하여 문맥정보를 학습한 LLM
-BERT는 시퀀스 내 일부 토큰을 마스킹하고 이를 예측하도록 학습하는 Masked Language Modeling(MLM)과,
두 문장이 연속된 문장인지 여부를 예측하는 Next Sentence Prediction (NSP)을 통해 사전학습(Pre-training)을 수행함
-이후, 이렇게 학습된 모델을 task에 맞게 파인튜닝(Fine-tuning)하여 사용함
-문장 이해, 문장 분류(감정 분석 등), QA, 개체명 인식 등 task에 강점을 갖고 있음

T5 (Text-to-Text Transfer Transformer)
- T5는 Transformer Encoder–Decoder 구조를 기반으로,
텍스트를 입력으로 받아 텍스트를 출력하는 문제로 모든 자연어 처리 task를 통합한 LLM
-문장 내 일정 길이의 연속된 단어를 다른 토큰으로 마스킹하고
모델이 토큰들을 순서대로 복원하는 Span-Corruption 방식으로 사전 학습을 수행함
-사전학습 후에는 모든 태스크를 text-to-text 형태로 변환해서 파인튜닝함
예컨대, “translate English to Korean: Hello”를 입력으로 넣으면 “안녕”이 출력되게하는 식
-텍스트 이해와 생성이 모두 필요한 복합 태스크에 강점을 가지고 있으나 복합적으로 애매함
'테크 > AI' 카테고리의 다른 글
| Residual Connection (잔차 연결) (0) | 2026.01.19 |
|---|---|
| Layer Normalization (레이어 정규화) (0) | 2026.01.19 |
| 딥러닝 기초용어 ③ (0) | 2025.12.28 |
| 딥러닝 기초용어 ② (0) | 2025.12.28 |
| 딥러닝 기초 용어① (0) | 2025.12.28 |