딥러닝 2

Transformer 설명

거대 언어 모델을 말할 때 빼놓고 설명할 수 없는 것이 있습니다. 그건 바로 2017년에 발표된 "Attention is All You Need"(https://arxiv.org/pdf/1706.03762.pdf) 논문에서 Transformer 모델입니다. Transformer는 기존의 순차적인 처리 방식(예: RNN, LSTM) 대신 '어텐션(Attention)' 메커니즘을 사용하여 자연어 처리 분야에서 큰 변화를 가져왔습니다. Transformer의 주요 구성 요소와 작동 방식에 대해 자세히 설명하겠습니다. Transformer 주요 구성 요소 1. 어텐션 메커니즘 (Attention Mechanism): - 셀프 어텐션 (Self-Attention): 입력 문장의 모든 단어 간의 관계를 평가합니다...

Deep learning 2024.01.18

[딥러닝 기법 모음] 딥러닝 학습에서 흔히 쓰이는 기법들

딥러닝에서 흔히 쓰이는 기법들입니다. 하지만 조금만 시간이 지나도 잊고 누가 그 개념이라도 물어보면 어버버하는 통에 제가 두고두고 보기 위해 작성했습니다. 아마 이 페이지는 드문드문이겠지만 지속적으로 계속 업데이트할 거 같습니다. 그럼 시작하겠습니다. Batch Normalization Batch Normalization은 2015년 Sergey Ioffe와 Christian Szegedy에 의해 처음 소개되었습니다. (https://arxiv.org/pdf/1502.03167.pdf) 핵심 아이디어는 네트워크의 각 층에서 입력 데이터의 분포를 정규화하는 것입니다. 그렇다면 각 층에서 입력 데이터의 분포를 정규화를 왜 해야할까요? - 내부 공변량 변화 감소 (Internal Covariate Shift)..

Deep learning 2024.01.15