딥러닝 기초용어 ④

Fully Connnected Layer

- 앞 레이어의 모든 노드가 뒤 레이어의 모든 노드와 연결된 뉴럴 네트워크 구조

- 각 노드는 이전 레이어의 모든 출력을 입력받아 가중합을 계산하고, 이를 통해 여러 특징들을 종합해 새로운 패턴을 학습

CNN (Convoluational Neural Network)

-CNN은 데이터의 지역적 특징을 추출하고, 레이어를 거듭하며 이를 결합해 점점 더 복잡한 패턴을 학습하는 뉴럴 네트워크 구조

-CNN은 데이터에 대해 두 가지 가정을 함

1. spatial locality

이는 데이터에서 국소 영역만 봐도 의미 있는 특징을 얻을 수 있고, 이를 기반으로 전체 패턴을 학습할 수 있다는 가정

2. positional invariance

동일한 패턴은 데이터 내 어느 위치에 등장하더라도 같은 의미를 가진다고 보는 가정

-convolutiona layer에서는 작은 필터가 인풋 데이터의 국소 영역을 훑으면서 특징을 추출함

-여러 convolutiona layer를 거쳐 이런 특징들을 결합해 모델은 복잡한 패턴을 학습함

-마지막 단계에서 fully connected layer가 추출된 특징들을 종합하여 최종적인 아웃풋을 냄

Attention

-어텐션은 입력 시퀀스의 각 요소가 현재 출력을 내는데 얼마나 중요한 지를 가중치로 계산해,

중요한 정보를 더 크게 반영하는 메커니즘

-기본 구조는 Query, Key, Value로 이루어져 있으며,

쿼리와 키의 유사도를 통해 스코어를 계산하고 이를 바탕으로 Value들을 가중합해 컨텍스트 벡터를 만듦

-기존 RNN이나 LSTM은 시퀀스를 순차적으로 처리하기 때문에 먼 거리에 있는 정보를 기억하기 어려웠는데,

어텐션은 입력 전체를 한 번에 바라보면서 필요한 정보를 선택적으로 강조할 수 있음

Self-Attention

- 셀프 어텐션은 쿼리, 키, 밸류가 모두 동일한 입력 시퀀스에서 만들어지는 어텐션으로,

시퀀스 내부의 토큰들 간 관계와 문맥을 학습하는 메커니즘

Transformer

-Self-Attention을 통해 입력 시퀀스 내 단어들 간의 관계를 병렬적으로 학습하고,

이를 바탕으로 문맥에 맞는 출력을 생성하는 딥러닝 모델

-기존 RNN이나 LSTM은 시퀀스 데이터 내 토큰을 순차적으로 처리해야 했지만,

트랜스포머는 문장의 모든 단어가 동시에 다른 단어들과의 관계를 계산하기 때문에

병렬 학습이 가능하고 긴 문맥도 효과적으로 반영할 수 있음

-모델은 크게 인코더와 디코더로 나뉨

- 인코더는 입력 시퀀스를 받아 각 단어 간의 관계와 문맥을 입힘

- 디코더는 지금까지 생성한 단어를 바탕으로 다음 단어를 예측하고 생성함

Vision Transformer (ViT)

-이미지를 잘게 나눈 패치들을 토큰처럼 처리해, 셀프 어텐션으로 이미지 내부의 패턴과 영역간 관계를 학습하는 모델

-CNN과 달리 데이터에 대한 기본 가정이라 할 수 있는 inductive bias를 전혀 내포하지 않기 때문에

이런 성질을 데이터로부터 직접 학습해야 하며, 매우 많은 데이터가 필요함

- 그러나 충분히 많은 데이터가 주어지면 CNN의 성능을 넘어설 수 있음

Large Language Model (LLM)

LLM은 대규모의 텍스트 데이터를 Transformer 구조를 이용해 pre-train된 언어모델임

GPT (Generative Pre-trained Transformer)

-GPT는 Transformer Decoder 구조를 기반으로, 이전까지의 토큰을 입력으로 받아 다음 토큰을 예측하도록 학습한 LLM임

-사전 학습 단계에서 미래의 토큰 정보가 현재 예측에 영향을 주지 않도록

Masked Multihead Self-Attention을 적용하여 모델이 오직 과거 정보만을 활용해

다음 단어를 단방향으로 예측하도록 설계됨

-파인튜닝 없이도 다양한 task에 활용될 수 있으나, 파인튜닝을 통해 성능을 향상 시킬 수 있음

-문장 생성에 강점을 가지고 있음

BERT (Bidirectional Encodner Representations from Transformer)

- BERT는 Transformer Encodner 구조를 기반으로 입력 시퀀스를 양방향으로 인코딩하여 문맥정보를 학습한 LLM

-BERT는 시퀀스 내 일부 토큰을 마스킹하고 이를 예측하도록 학습하는 Masked Language Modeling(MLM)과,

두 문장이 연속된 문장인지 여부를 예측하는 Next Sentence Prediction (NSP)을 통해 사전학습(Pre-training)을 수행함

-이후, 이렇게 학습된 모델을 task에 맞게 파인튜닝(Fine-tuning)하여 사용함

-문장 이해, 문장 분류(감정 분석 등), QA, 개체명 인식 등 task에 강점을 갖고 있음

T5 (Text-to-Text Transfer Transformer)

- T5는 Transformer Encoder–Decoder 구조를 기반으로,

텍스트를 입력으로 받아 텍스트를 출력하는 문제로 모든 자연어 처리 task를 통합한 LLM

-문장 내 일정 길이의 연속된 단어를 다른 토큰으로 마스킹하고

모델이 토큰들을 순서대로 복원하는 Span-Corruption 방식으로 사전 학습을 수행함

-사전학습 후에는 모든 태스크를 text-to-text 형태로 변환해서 파인튜닝함

예컨대, “translate English to Korean: Hello”를 입력으로 넣으면 “안녕”이 출력되게하는 식

-텍스트 이해와 생성이 모두 필요한 복합 태스크에 강점을 가지고 있으나 복합적으로 애매함

'테크 > AI' 카테고리의 다른 글

Residual Connection (잔차 연결) (0)	2026.01.19
Layer Normalization (레이어 정규화) (0)	2026.01.19
딥러닝 기초용어 ③ (0)	2025.12.28
딥러닝 기초용어 ② (0)	2025.12.28
딥러닝 기초 용어① (0)	2025.12.28

Hannya

딥러닝 기초용어 ④

Fully Connnected Layer

CNN (Convoluational Neural Network)

Attention

Self-Attention

Transformer

Vision Transformer (ViT)

Large Language Model (LLM)

GPT (Generative Pre-trained Transformer)

BERT (Bidirectional Encodner Representations from Transformer)

T5 (Text-to-Text Transfer Transformer)

'테크 > AI' 카테고리의 다른 글

티스토리툴바

딥러닝 기초용어 ④

Fully Connnected Layer

CNN (Convoluational Neural Network)

Attention

Self-Attention

Transformer

Vision Transformer (ViT)

Large Language Model (LLM)

GPT (Generative Pre-trained Transformer)

BERT (Bidirectional Encodner Representations from Transformer)

T5 (Text-to-Text Transfer Transformer)

'테크 > AI' 카테고리의 다른 글

관련글

티스토리툴바