transformer 2

BERT, RoBERTa, 그리고 BigBird

BERT (Bidirectional Encoder Representations from Transformers)는 구글이 개발한 언어 이해를 위한 사전 훈련(pre-trained) 모델입니다(https://arxiv.org/pdf/1810.04805.pdf). 이 모델이 노블했던 점은 텍스트의 양방향 context를 동시에 고려한다는 것이며, 이를 통해 단어의 의미를 보다 정확하게 이해할 수 있습니다. BERT 구조 - 인코더 아키텍처: BERT는 Transformer 모델의 인코더 아키텍처를 사용합니다. Transformer의 인코더는 멀티-헤드 어텐션과 position-wise feedforward network로 구성된 여러 레이어를 포함합니다. BERT는 일반적으로 12개(소규모 모델인 BERT-..

Deep learning 2024.01.21

Transformer 설명

거대 언어 모델을 말할 때 빼놓고 설명할 수 없는 것이 있습니다. 그건 바로 2017년에 발표된 "Attention is All You Need"(https://arxiv.org/pdf/1706.03762.pdf) 논문에서 Transformer 모델입니다. Transformer는 기존의 순차적인 처리 방식(예: RNN, LSTM) 대신 '어텐션(Attention)' 메커니즘을 사용하여 자연어 처리 분야에서 큰 변화를 가져왔습니다. Transformer의 주요 구성 요소와 작동 방식에 대해 자세히 설명하겠습니다. Transformer 주요 구성 요소 1. 어텐션 메커니즘 (Attention Mechanism): - 셀프 어텐션 (Self-Attention): 입력 문장의 모든 단어 간의 관계를 평가합니다...

Deep learning 2024.01.18