
Cross Entropy
-크로스 엔트로피는 딥러닝에서 가장 많이 쓰이는 손실 함수로,
모델이 정답을 맞췄는지뿐만 아니라 얼마나 확신을 가지고 예측했는지까지 평가함
-정답 클래스의 확률을 높게 줄수록 손실이 작아지고, 틀린 클래스에 높은 확률을 줄수록 손실이 커지도록 설계되어 있음
Adam(Adaptive Moment Estimation)
- Adam은 딥러닝에서 가장 널리 쓰이는 optimization 알고리즘 중 하나로,
확률적 경사하강법(SGD)에 모멘텀과 학습률 적응 방식을 결합한 방법임
- SGD는 전체 데이터 대신 무작위로 선택한 배치를 이용해 gradient descent를 진행함
- 모멘텀은 이전 gradient들의 지수이동평균을 계산해서 파라미터를 업데이트하는 방식임
- 학습률 적응은 자주 업데이트되는 파라미터는 학습률을 줄이고
드물게 업데이트되는 파라미터는 학습률을 크게 조정하는 방식임
Learning Rate Scheduling
- 모델 학습 과정에서 학습률을 동적으로 조정하는 기법
- 학습 내내 고정된 학습률을 쓰면, 초반에는 느리게 학습하거나,
후반에는 최적값 주변에서 진동하면서 안정적으로 수렴하지 못할 수 있으
- 따라서 처음에는 학습률을 크게 해서 빠르게 수렴하게 하고,
점점 줄여가면서 세밀하게 최적값에 접근할 수 있도록 하는 것이 좋음
Losistic Regression
-로지스틱 회귀는 입력 변수들의 선형 결합을 시그모이드 함수에 통과시켜
0과 1 사이의 값을 출력하는 방식으로 이진 분류를 수행하는 방법
-클래스가 3개 이상이면 입력 변수들의 선형 결합을 소프트맥스 함수에 통과시켜,
각 클래스의 확률을 출력하고 가장 높은 확률의 클래스를 선택하는 소프트맥스 회귀로 확장됨
-범주형 데이터에 적합
Linear Regression
-입력 변수들과 출력 변수가 선형적인 관계를 가진다고 가정하고,
예측값과 실제값의 오차제곱합(MSE)이 최소가 되도록 입력 변수에 곱해지는 가중치를 찾는 방법
-입력 변수들간 곱이나 거듭 제곱 항을 추가하면 다항회귀(polynomial regression)로 확장되어
비선형적인 관계도 선형 회귀 형태로 학습할 수 있음
-수치형 데이터에 적합
앙상블 학습 (Ensemble Learning)
여러 개의 모델을 생성하고, 각 모델들의 예측을 결합하는 방식
Voting
- 여러 모델의 예측 결과를 다수결(분류 문제)이나 평균(회귀 문제)으로 결합해 최종 예측을 내는 앙상블 기법
-Hard Voting:각 모델이 예측값에 대해 다수결로 최종 클래스를 결정
-Soft Voting:모델들이 각 클래스에 배정한 확률을 평균 내 가장 확률이 높은 클래스를 선택
-장점 : 여러 모델의 예측을 조합하여 안정적인 결과 도출
-단점 : 개별 모델의 성능이 좋아야 효과적
Bagging
-원본 데이터에서 중복을 허용하여 무작위로 데이터 샘플을 추출하는 bootstrap sampling을 통해 각 모델이 여러 개의 예측값을 내고 이를 보팅으로 최종 결정하는 앙상블 기법
-장점: 오버피팅 방지 효과, 병렬 처리 가능
-단점 : 학습을 여러번 해야하므로 계산 비용 증가
Boosting
- 이전 모델의 예측 오차를 기반으로 학습 가중치를 조정하는 방식으로
약한 모델(weak learner)들을 순차적으로 학습시키면서 예측 성능을 향상시키는 앙상블 기법
-장점 : 예측 성능이 뛰어나고 정밀한 모델 생성
-단점 : 순차적 학습 방식이라 병렬 처리 어렵고, 계산 비용이 높음.
※ 에이다 부스트 (AdaBoost)
-weak learner들이 예측한 값을 learner의 성능에 따라 가중 평균하여 최종 예측을 산출

Stacking
- 여러 모델들의 예측 결과를 새로운 인풋 데이터의 피처로 사용하여
메타 모델이 이를 학습해 최종 예측을 수행하는 앙상블 기법
-장점: 개별 모델보다 더 강력, 서로 다른 모델의 조합을 통해 일반화 성능 향상
-단점 : 보팅/배깅/부스팅보다 구현이 복잡하고 과적합 가능성 존재
결정 트리 (Decision Tree)
-데이터의 피처를 기준으로 조건에 따라 순차적으로 분기(split)해가며, 예측값을 결정하는 트리 구조의 지도 학습 모델이
-모델은 각 분기 시점마다 불순도(Impurity)를 최소화하는 피처와 임계값을 선택하며, 불순도는 분산 등을 활용
※ 랜덤 포레스트(Random Forest)
-각 분기마다 전체 피처 중 무작위로 선택된 일부 피처만 후보로 두고, 배깅을 하는 결정트리 구조
-보통 후보 피처 개수는 전체 피처 수의 제곱근 정도로 설정하며, 이를 통해 모델의 다양성과 예측 성능을 높임
SVM (Support Vector Machine)
-데이터를 구분하는 최적의 결정경계(decision boundary)를 찾는 지도학습 기법
-클래스 간 마진(margin)*을 최대화하여 일반화 성능을 높임
*결정경계에 가장 가까운 데이터 포인트와 결정경계 사이의 거리
-소프트 마진(Soft margin) : 각 데이터가 마진 밖으로 얼마나 벗어났는지를 나타내는 슬랙 변수(slack variable)를 도입하여
일부 오분류를 허용해 더 유연하게 결정경계를 찾는 방식
KNN (k-Nearest Neighbor Classifier)
-데이터 포인트가 주어지면 가장 가까운 k개의 이웃 데이터의 클래스와 비교하여 분류를 수행하는 모델
-거리(metric)를 사용해 가장 가까운 이웃을 찾고, 그 이웃들의 특성에 대해 다수결(분류) 또는 평균(회귀)으로 예측을 함
-훈련 과정이 따로 필요없이 새로운 데이터가 들어가면 예측을 수행하지만, (non parametric)
예측 시 마다 데이터 크기 만큼의 시간복잡도가 들어가 계산 비용이 큼
-고차원 데이터일수록 데이터 간의 거리 차이가 비슷해지고 최근접의 개념이 모호해지므로
차원의 저주에 취약하며, K값에 따라 분류 결과가 크게 차이날 수 있음
※ 작동과정
- 이미지랑 가장 가까운 걸 training set 중에 찾음
- 예컨대, k가 5면 가장 가까운 거 5개 찾아와서 label을 다수결로 결정
K를 정해놓고. x0이라는 이미지가 들어왔을 때 Y는 label이 j일 확률을 계산
- 모든 training data를 메모리에 저장하고 예측을 수행해야함 →가장 큰 단점
Clustering
- 레이블 없이 객체들 사이의 자연스러운 그룹화 방법을 찾는 비지도 학습 기법
-전체 데이터를 트리 구조로 분해하는 계층적 클러스터링(Hierarchical Clustering)과
다양한 분할을 구성한 뒤 특정 기준에 따라 이를 평가하는 분할적 클러스터링(Partitional Clustering)으로 나눌 수 있음
-계층적 클러스팅의 구체적 기법인 병합적 클러스터링(Agglomerative Clustering)은
각 데이터포인트가 개별 클러스터로 시작하여 가까운 클러스터끼리 순차적으로 병합을 진행하며 계층구조를 형성하는 방식
-분할적 클러스팅의 구체적 기법인 K-means 클러스터링은 K개의 중심을 임의로 정하고
데이터 포인트를 가장 가까운 중심의 클러스터로 배정한 뒤,
중심을 다시 갱신하는 과정을 중심이 변하지 않을 때까지 반복하는 방식
차원 축소(Dimension Reduction)
- 고차원 데이터에 내재된 중요한 정보를 유지하면서 더 낮은 차원으로 표현하는 과정
-차원축소는 데이터들의 본질적인 구조와 패턴이 실제로는 저차원의 곡면(manifold) 위에 분포해있다고 가정하며,
매니폴드 러닝(Manifold Learning)은 이러한 매니폴드 구조를 찾아내어, 저차원 공간으로 매핑하는 변환을 학습함
-대표적인 차원축소 방법으로는 주성분 분석(PCA)이 있음
PCA는 데이터를 분산이 가장 큰 방향으로 투영하여 저차원 공간을 구성하며,
이를 위해 데이터 행렬에 특이값 분해(SVD)를 수행하고,
가장 큰 특이값에 대응하는 오른쪽 특이벡터들의 방향을 주성분으로 사용함
'테크 > AI' 카테고리의 다른 글
| Residual Connection (잔차 연결) (0) | 2026.01.19 |
|---|---|
| Layer Normalization (레이어 정규화) (0) | 2026.01.19 |
| 딥러닝 기초용어 ④ (0) | 2025.12.28 |
| 딥러닝 기초용어 ② (0) | 2025.12.28 |
| 딥러닝 기초 용어① (0) | 2025.12.28 |