본문 바로가기
테크/AI

딥러닝 기초용어 ④

by Kennen 2025. 12. 28.

Fully Connnected Layer

- 앞 레이어의 모든 노드가 뒤 레이어의 모든 노드와 연결된 뉴럴 네트워크 구조

- 각 노드는 이전 레이어의 모든 출력을 입력받아 가중합을 계산하고, 이를 통해 여러 특징들을 종합해 새로운 패턴을 학습

 

CNN (Convoluational Neural Network)

-CNN은 데이터의 지역적 특징을 추출하고, 레이어를 거듭하며 이를 결합해 점점 더 복잡한 패턴을 학습하는 뉴럴 네트워크 구조

 

-CNN은 데이터에 대해 두 가지 가정을 함

 

1. spatial locality

이는 데이터에서 국소 영역만 봐도 의미 있는 특징을 얻을 수 있고, 이를 기반으로 전체 패턴을 학습할 수 있다는 가정

 

2. positional invariance

동일한 패턴은 데이터 내 어느 위치에 등장하더라도 같은 의미를 가진다고 보는 가정

 

-convolutiona layer에서는 작은 필터가 인풋 데이터의 국소 영역을 훑으면서 특징을 추출함

-여러 convolutiona layer를 거쳐 이런 특징들을 결합해 모델은 복잡한 패턴을 학습함 

-마지막 단계에서 fully connected layer가 추출된 특징들을 종합하여 최종적인 아웃풋을 냄

 

Attention

-어텐션은 입력 시퀀스의 각 요소가 현재 출력을 내는데 얼마나 중요한 지를 가중치로 계산해,

 중요한 정보를 더 크게 반영하는 메커니즘

 

-기본 구조는 Query, Key, Value로 이루어져 있으며,

 쿼리와 키의 유사도를 통해 스코어를 계산하고 이를 바탕으로 Value들을 가중합해 컨텍스트 벡터를 만듦

 

-기존 RNN이나 LSTM은 시퀀스를 순차적으로 처리하기 때문에 먼 거리에 있는 정보를 기억하기 어려웠는데,

 어텐션은 입력 전체를 한 번에 바라보면서 필요한 정보를 선택적으로 강조할 수 있음

 

Self-Attention

- 셀프 어텐션은 쿼리, , 밸류가 모두 동일한 입력 시퀀스에서 만들어지는 어텐션으로,

 시퀀스 내부의 토큰들 간 관계와 문맥을 학습하는 메커니즘

 

Transformer

-Self-Attention을 통해 입력 시퀀스 내 단어들 간의 관계를 병렬적으로 학습하고,

 이를 바탕으로 문맥에 맞는 출력을 생성하는 딥러닝 모델

 

-기존 RNN이나 LSTM은 시퀀스 데이터 내 토큰을 순차적으로 처리해야 했지만,

 트랜스포머는 문장의 모든 단어가 동시에 다른 단어들과의 관계를 계산하기 때문에

 병렬 학습이 가능하고 긴 문맥도 효과적으로 반영할 수 있음

 

-모델은 크게 인코더와 디코더로 나뉨

- 인코더는 입력 시퀀스를 받아 각 단어 간의 관계와 문맥을 입힘

- 디코더는 지금까지 생성한 단어를 바탕으로 다음 단어를 예측하고 생성함

 

Vision Transformer (ViT)

-이미지를 잘게 나눈 패치들을 토큰처럼 처리해, 셀프 어텐션으로 이미지 내부의 패턴과 영역간 관계를 학습하는 모델

 

-CNN과 달리 데이터에 대한 기본 가정이라 할 수 있는 inductive bias를 전혀 내포하지 않기 때문에

 이런 성질을 데이터로부터 직접 학습해야 하며, 매우 많은 데이터가 필요함

 

- 그러나 충분히 많은 데이터가 주어지면 CNN의 성능을 넘어설 수 있음

 

Large Language Model (LLM)

LLM은 대규모의 텍스트 데이터를 Transformer 구조를 이용해 pre-train된 언어모델임

 

GPT (Generative Pre-trained Transformer)

-GPTTransformer Decoder 구조를 기반으로, 이전까지의 토큰을 입력으로 받아 다음 토큰을 예측하도록 학습한 LLM임

 

-사전 학습 단계에서 미래의 토큰 정보가 현재 예측에 영향을 주지 않도록

 Masked Multihead Self-Attention을 적용하여 모델이 오직 과거 정보만을 활용해

 다음 단어를 단방향으로 예측하도록 설계됨

 

-파인튜닝 없이도 다양한 task에 활용될 수 있으나, 파인튜닝을 통해 성능을 향상 시킬 수 있음

 

-문장 생성에 강점을 가지고 있음

 

 

BERT (Bidirectional Encodner Representations from Transformer)

- BERTTransformer Encodner 구조를 기반으로 입력 시퀀스를 양방향으로 인코딩하여 문맥정보를 학습한 LLM

 

-BERT는 시퀀스 내 일부 토큰을 마스킹하고 이를 예측하도록 학습하는 Masked Language Modeling(MLM),

 두 문장이 연속된 문장인지 여부를 예측하는 Next Sentence Prediction (NSP)을 통해 사전학습(Pre-training)을 수행함

 

-이후, 이렇게 학습된 모델을 task에 맞게 파인튜닝(Fine-tuning)하여 사용함

 

-문장 이해, 문장 분류(감정 분석 등), QA, 개체명 인식 등 task에 강점을 갖고 있음

 

사전훈련 방식 비교

 

T5 (Text-to-Text Transfer Transformer)

- T5Transformer EncoderDecoder 구조를 기반으로,

 텍스트를 입력으로 받아 텍스트를 출력하는 문제로 모든 자연어 처리 task를 통합한 LLM

 

-문장 내 일정 길이의 연속된 단어를 다른 토큰으로 마스킹하고

 모델이 토큰들을 순서대로 복원하는 Span-Corruption 방식으로 사전 학습을 수행함

 

-사전학습 후에는 모든 태스크를 text-to-text 형태로 변환해서 파인튜닝함

예컨대, “translate English to Korean: Hello”를 입력으로 넣으면 안녕이 출력되게하는 식

 

-텍스트 이해와 생성이 모두 필요한 복합 태스크에 강점을 가지고 있으나 복합적으로 애매함

 

'테크 > AI' 카테고리의 다른 글

Residual Connection (잔차 연결)  (0) 2026.01.19
Layer Normalization (레이어 정규화)  (0) 2026.01.19
딥러닝 기초용어 ③  (0) 2025.12.28
딥러닝 기초용어 ②  (0) 2025.12.28
딥러닝 기초 용어①  (0) 2025.12.28