딥러닝 기초용어 ②

Test Set

- 모델이 훈련 데이터를 단순히 암기하는 것이 아니라,

데이터 속에 있는 일반적인 패턴을 학습했는지를 평가하기 위해 일부 데이터를 테스트용으로 분리해야 함

- 일반적으로 전체 데이터셋의 약 10~20%를 무작위로 선택하여 분리하며,

이 데이터는 모델 훈련 및 검증 과정에서 어떤 용도로도 사용되어서는 안 됨

Validation Set

- 하이퍼파라미터를 고를 때, 서로 다른 하이퍼파라미터 조합을 사용하여

여러 모델을 학습시킨 뒤 성능을 평가하여 가장 좋은 것을 선택함

-오버피팅을 방지하기 위해 훈련 과정에서 모델이 보지 않은 데이터가 필요하므로,

데이터 중 일부를 분리하는데 이를 Validation set이라 함

Cross Validation

-모델이 훈련 데이터에 오버피팅되었는지 여부를 확인하고, 일반화 성능을 평가하기 위해

데이터셋을 Training, Validation, Test 세 부분으로 나누어 사용하는 방법

-Training set로 모델을 학습하고, hyperparameter를 조정하며 Validation set으로 성능을 평가함

- 이 과정을 여러번 반복하면서 가장 좋은 hyperparameter 조합을 찾음

-최적의 hyperparameter를 찾으면, Training set와 Validation set를 합쳐서 다시 모델을 학습시키고,

Test set를 사용해 최종 성능을 평가함

K-fold Cross Validation

-데이터를 K개의 폴드로 등분한 뒤, K번 학습을 반복하면서

매번 한 폴드를 Validation set으로, 나머지를 Training set으로 사용하고

각 폴드에서 나온 평가 점수를 평균내어 모델 성능을 종합적으로 판단하는 방법

-Training set과 Validation set를 한 번 정해 고정하는 것보다 여러 샘플이 Validation set으로 쓰이게 하는 것이

성능평가의 편향을 줄이고 더 안정적이고 일반화된 성능 추정치를 얻을 수 있음

-다만, 모델을 K번 학습해야 하므로 계산 비용이 크다는 단점

i.i.d. (independent and identically distributed)

-데이터셋에 대한 i.i.d. 가정은, 각 데이터 샘플이 서로 독립적인 동시에 동일한 확률분포에서 관찰된다는 가정

-이 가정을 통해 Training set로부터 얻은 통계적 추론이 Evaluation set에도 유사하게 나타날 것으로 기대할 수 있음

-다만 현실에서는 시계열 데이터처럼 독립성이 깨지거나,

분포가 시간이 따라 변하는 경우가 있어서 i.i.d. 가정이 항상 성립하지는 않음

Overfitting

-모델이 데이터 내의 일반적인 패턴 뿐만 아니라 Training set에 있는 노이즈까지 배우기 시작하는 것

-오버피팅은 high-dimensional data와 noisy feature에서 잘 발생함

Early Stopping

-Early Stopping은 오버피팅을 방지하기 위한 방법 중 하나임

-일반적으로 Training set에서는 학습을 계속할수록 error가 줄어들지만,

Validation set에서는 일정 시점 이후 error가 다시 증가하기 시작함

- 이는 모델이 Training set에 오버피팅이 되기 시작했다는 신호임

- 따라서 Validation set과 Evaluation set이 i.i.d.라고 가정하면,

해당 시점 이후에는 Evaluation set에서도 성능이 악화될 가능성이 높음

- 따라서 이때 학습을 멈추면 성능이 가장 좋은 시점의 모델을 확보할 수 있음

Model Capacity

-capacity는 모델이 데이터의 복잡한 패턴이나 함수 관계를 표현할 수 있는 능력을 말함

-capacity가 너무 낮으면 단순한 패턴만 학습할 수 있어 언더피팅이 발생할 수 있고,

반대로 capacity가 너무 높으면 노이즈까지 학습하여 오버피팅이 발생할 수 있음

-따라서 모델의 capacity는 데이터의 특성에 맞게 적절히 조절하는 것이 중요함

Regularization

-Loss function에 capacity에 대한 페널티항을 추가해서,

모델이 불필요하게 복잡해지는 것을 억제하고 그 결과 오버피팅을 방지하는 방법

-선형회귀에서 가중치들의 제곱합인 L2 제약항을 두는 Ridge Regression과

가중치들의 절대값 합인 L1 제약항을 두는 Lasso Regression이 대표적

-Ridge Regression은 불필요한 가중치들이 매우 작아지게 하고,

Lasso Regression은 불필요한 가중치는 0으로 만드는 식으로 capacity를 제어

-Ridge Regression은 유전자나 부동산 데이터와 같이 피처가 많고 상관관계가 긴밀한 데이터에 유용하고,

Lasso Regression은 텍스트 데이터와 같이 불필요한 피처가 많을 때 유용

-페널티항에는 하이퍼파라미터인 람다 값을 곱해서 파라미터를 억제하는 정도를 결정함 (정규화 계수)

Weight Decay

-딥러닝에서 오버피팅을 방지하기 위해 사용하는 Regularization 기법

-Loss fucntion에 가중치의 제곱합 또는 절대값 합으로 패널티항을 추가해, 학습시 불필요한 가중치가 커지지 않게 억제

Dropout

-뉴럴 네트워크의 포워드 패스 과정에서 일부 노드를 무작위로 비활성화시켜 오버피팅을 방지하는 방법

-드롭아웃 시키는 노드의 비율은 하이퍼파라미터이며, 일반적으로 0.5가 많이 사용됨

Cutout

-학습 대상이 되는 이미지 안에서 무작위로 선택된 영역을 잘라냄

-대규모 데이터셋에서는 잘 쓰지 않는데,

의미를 유지하면서도 잘라낸 영역을 매번 무작위로 바꾸는 과정 자체가 컴퓨팅 비용이 발생하기 때문

Data Augmentation

- 원본 데이터의 의미(semantics)는 그대로 유지하면서

다양한 변형을 가해 새로운 학습 데이터를 생성하여 데이터셋을 인위적으로 확장시키는 기법

- 이미지 데이터에 대해서는 좌우반전(Horizontal Flips), 사각형 영역으로 랜덤하게 잘라내기(Random Crops),

크기를 바꾸거나(Scailing), 색상에 약간의 노이즈는 주는(Color Jitter)방법을 생각해볼 수 있음

- 텍스트 데이터에 대해서는 문장 내 단어를 동의어로 치환하거나, 수식어를 넣거나 빼거나,

어순을 다르게 하는 방법을 생각해볼 수 있

Bias

-bias는 모델의 예측에서 체계적으로 발생하는 오차를 말하며,

'추정치의 기대값이 실제값에서 얼마나 벗어나 있는지'로 나타낼 수 있음

-bias는 데이터 자체에서 발생하기도 함

- 데이터가 데이터가 특정 집단이나 패턴에 치우쳐져 있거나, 샘플링이나 라벨링 과정에서 오류가 있다면

모델은 이러한 왜곡을 그대로 학습하여 예측에 편향이 발생함

-bias는 모델에서 발생하기도 함

- 모델의 capacity가 부족하여 데이터의 복잡한 패턴을 충분히 포착하지 못하면 언더피팅이 발생하고,

실제값과 체계적인 오차가 생김

- 또한, 데이터로부터 규칙성을 귀납하기 위한 사전적 가정인 inductive bias이 잘못 설정되어 있어도,

체계적인 오차가 발생할 수 있음

Bias-Variance Trade-off

-모델이 너무 단순하면 예측값의 bias가 높아지는 언더피팅이 발생하고,

너무 복잡하면 예측값의 분산*이 높아지는 오버피팅이 발생하는 현상으로, 두 요소의 균형이 모델의 일반화 성능을 결정함

* 예측값의 분산이 높아지면 데이터에 대한 민감성이 지나치게 높아져 노이즈까지 학습이 되므로 오버피팅이 발생하는 것

'테크 > AI' 카테고리의 다른 글

Residual Connection (잔차 연결) (0)	2026.01.19
Layer Normalization (레이어 정규화) (0)	2026.01.19
딥러닝 기초용어 ④ (0)	2025.12.28
딥러닝 기초용어 ③ (0)	2025.12.28
딥러닝 기초 용어① (0)	2025.12.28

Hannya

딥러닝 기초용어 ②

Test Set

Validation Set

Cross Validation

K-fold Cross Validation

i.i.d. (independent and identically distributed)

Overfitting

Early Stopping

Model Capacity

Regularization

Weight Decay

Dropout

Cutout

Data Augmentation

Bias

Bias-Variance Trade-off

'테크 > AI' 카테고리의 다른 글

티스토리툴바

딥러닝 기초용어 ②

Test Set

Validation Set

Cross Validation

K-fold Cross Validation

i.i.d. (independent and identically distributed)

Overfitting

Early Stopping

Model Capacity

Regularization

Weight Decay

Dropout

Cutout

Data Augmentation

Bias

Bias-Variance Trade-off

'테크 > AI' 카테고리의 다른 글

관련글

티스토리툴바