전체 글 18

Permutation test 비모수 검정

Permutation을 이용한 significance 검사는 주로 비모수적(non parametric) 방법입니다. 이 방법은 데이터의 label를 무작위로 교환(permute)하여, 실제 관찰된 효과가 무작위 분포에 비해 얼마나 특이한지를 평가합니다. 여기서는 permutation test의 기본적인 절차를 설명하겠습니다. 1. Null Hypothesis 설정: 먼저, 귀무 가설(null hypothesis)을 설정합니다. 귀무 가설은 보통 '관찰된 효과가 우연에 의한 것이다' 또는 '두 집단 간에 차이가 없다'와 같이 설정됩니다. 또는 다중 선형 회귀에서는 "회귀 계수가 0과 다르지 않다"라고 설정합니다. 2. Test Statistic 계산: 실제 데이터에 대해 test statistic (예: ..

BERT, RoBERTa, 그리고 BigBird

BERT (Bidirectional Encoder Representations from Transformers)는 구글이 개발한 언어 이해를 위한 사전 훈련(pre-trained) 모델입니다(https://arxiv.org/pdf/1810.04805.pdf). 이 모델이 노블했던 점은 텍스트의 양방향 context를 동시에 고려한다는 것이며, 이를 통해 단어의 의미를 보다 정확하게 이해할 수 있습니다. BERT 구조 - 인코더 아키텍처: BERT는 Transformer 모델의 인코더 아키텍처를 사용합니다. Transformer의 인코더는 멀티-헤드 어텐션과 position-wise feedforward network로 구성된 여러 레이어를 포함합니다. BERT는 일반적으로 12개(소규모 모델인 BERT-..

Deep learning 2024.01.21

PCR oligo 디자인은 왜 까다로울까

PCR (Polymerase Chain Reaction, 중합효소 연쇄반응)은 DNA 시퀀스를 매우 빠르고 효율적으로 복제하는 기술입니다. 이 기술은 분자생물학, 유전학, 생물학 연구, 의학, 법의학, 진단 등 다양한 분야에서 광범위하게 사용됩니다. PCR의 기본적인 동작 원리는 1. 변성(Denaturation): PCR 반응은 DNA 이중나선을 개별적인 단일 가닥으로 분리하는 고온 단계로 시작합니다. 일반적으로 94-98°C에서 수행됩니다. 2. 결합(Annealing): 온도를 낮춰 특정 DNA 시퀀스에 맞춰 설계된 짧은 DNA 조각인 프라이머가 단일 가닥 DNA에 결합할 수 있도록 합니다. 이 온도는 프라이머의 melting 온도에 따라 달라질 수 있습니다. 3. 연장(Extension): DNA..

Bioinformatics 2024.01.21

A framework for individualized splice-switching oligonucleotide therapy 논문 리뷰 - Antisense Oligonucleotides (ASO)

우연히 보게 된 논문인데 희귀질환과 개인화된 치료법에 대한 논문이라 흥미롭게 보게 되어 리뷰를 남기고자 합니다. 2023년 7월 12일 Nature에 게재된 "A framework for individualized splice-switching oligonucleotide therapy"라는 논문입니다 (https://www.nature.com/articles/s41586-023-06277-0). 이 논문은 KAIST에서 진행한 연구인데요. 그럼 리뷰를 시작해보겠습니다. 먼저 이 연구의 주요 내용을 간략하게 말씀드리겠습니다. 이 연구는 유전 질환, 그 중 아타시아-텔랑기오타시아(ataxia-telangiectasia; A-T)를 대상으로 personalized oligonucleotide (ASO) 치료..

Bioinformatics 2024.01.21

Transformer 설명

거대 언어 모델을 말할 때 빼놓고 설명할 수 없는 것이 있습니다. 그건 바로 2017년에 발표된 "Attention is All You Need"(https://arxiv.org/pdf/1706.03762.pdf) 논문에서 Transformer 모델입니다. Transformer는 기존의 순차적인 처리 방식(예: RNN, LSTM) 대신 '어텐션(Attention)' 메커니즘을 사용하여 자연어 처리 분야에서 큰 변화를 가져왔습니다. Transformer의 주요 구성 요소와 작동 방식에 대해 자세히 설명하겠습니다. Transformer 주요 구성 요소 1. 어텐션 메커니즘 (Attention Mechanism): - 셀프 어텐션 (Self-Attention): 입력 문장의 모든 단어 간의 관계를 평가합니다...

Deep learning 2024.01.18

[딥러닝 기법 모음] 딥러닝 학습에서 흔히 쓰이는 기법들

딥러닝에서 흔히 쓰이는 기법들입니다. 하지만 조금만 시간이 지나도 잊고 누가 그 개념이라도 물어보면 어버버하는 통에 제가 두고두고 보기 위해 작성했습니다. 아마 이 페이지는 드문드문이겠지만 지속적으로 계속 업데이트할 거 같습니다. 그럼 시작하겠습니다. Batch Normalization Batch Normalization은 2015년 Sergey Ioffe와 Christian Szegedy에 의해 처음 소개되었습니다. (https://arxiv.org/pdf/1502.03167.pdf) 핵심 아이디어는 네트워크의 각 층에서 입력 데이터의 분포를 정규화하는 것입니다. 그렇다면 각 층에서 입력 데이터의 분포를 정규화를 왜 해야할까요? - 내부 공변량 변화 감소 (Internal Covariate Shift)..

Deep learning 2024.01.15

[협업을 위한 template 시리즈] git commit template

Git Commit은 협업 과정에서 중요한 역할을 수행합니다. 그렇다면 이런 git commit template가 어떻게 도움이 될 수 있을까요? 1. 일관성 있는 커밋 메시지: 커밋 템플릿은 프로젝트 내 모든 개발자들이 일관된 형식의 커밋 메시지를 작성하도록 돕습니다. 이는 커밋 로그를 읽고 이해하는 것을 쉽게 만들어, 코드의 변화를 추적하는 데 도움을 줍니다. 2. 의사소통 향상: 일관된 커밋 메시지는 팀원들 간의 의사소통을 향상시킵니다. 각 커밋이 무엇을 하는지 명확하게 전달되면, 다른 팀원들이 최근의 변경사항을 더 빠르고 쉽게 이해할 수 있습니다. 3. 코드 리뷰 효율성 증가: 명확하고 자세한 커밋 메시지는 코드 리뷰 과정을 더 효율적으로 만듭니다. 리뷰어는 각 커밋이 의도한 바를 쉽게 파악하고,..

Team work 2024.01.15

[협업을 위한 template 시리즈] README.md 템플릿 공유

`README.md` 파일은 프로젝트의 첫인상을 결정하고, 사용자 및 기여자들에게 프로젝트에 대한 핵심 정보를 제공하는 중요한 역할을 합니다. 그럼 좀 더 구체적으로 `README.md` 파일이 왜 중요한지 알아볼까요? - 프로젝트 소개: `README.md` 파일은 프로젝트의 목적, 기능, 사용 방법 등을 간단하게 소개합니다. 이는 사용자가 프로젝트를 이해하고 사용할 수 있도록 돕습니다. - 첫인상을 보여줌: GitHub과 같은 코드 저장소에서 `README.md` 파일은 프로젝트의 메인 페이지에 표시됩니다. 효과적인 `README.md`는 방문자들에게 긍정적인 첫인상을 제공하고, 프로젝트에 대한 관심을 유발합니다. - 설치 및 사용 안내: `README.md`는 프로젝트를 설치하고 사용하는 방법을 단..

Team work 2024.01.15