늦깎이 공대생의 인공지능 연구실

[논문프리뷰] 잠재 확산을 통한 생성용 단백질 접힘 모델의 재조명(Repurposing Protein Folding Models for Generation with Latent Diffusion) 본문

BAIR

[논문프리뷰] 잠재 확산을 통한 생성용 단백질 접힘 모델의 재조명(Repurposing Protein Folding Models for Generation with Latent Diffusion)

Justin T. 2025. 4. 27. 11:47

 

PLAID는 단백질 접힘 모델의 잠재 공간을 학습하여 단백질 1D 서열과 3D 구조를 동시에 생성하는 멀티모달 생성형 모델.

 

AlphaFold2의 2024년 노벨상 수상은 생물학에서 AI의 역할이 인정받는 중요한 순간이었습니다. 단백질 접힘 모델 이후 다음으로 등장하게 될 기술은 무엇이 될까요?

 

PLAID에서는 단백질 접힘 모델의 잠재 공간에서 샘플링을 학습하여 새로운 단백질을 생성하는 방법을 개발합니다. 구성 기능과 유기체 프롬프트를 수용할 수 있으며 구조 데이터베이스보다 2~4배 더 큰 서열 데이터베이스로 학습할 수 있습니다. 이전의 많은 단백질 구조 생성 모델과 달리 PLAID는 이산 서열과 연속적인 전체 원자 구조 좌표를 동시에 생성하는 멀티모달 공동 생성 문제 설정을 해결할 수 있습니다.

 

구조 예측에서 실제 약물 설계까지

최근의 연구는 확산 모델의 단백질 생성 능력에 대한 가능성을 보여주었지만, 이전 모델의 한계가 여전히 존재하여 실제 응용 분야에서는 다음과 같이 실용적이지 못했습니다

  • 모든 원자 생성: 기존의 많은 생성 모델은 백본 원자만 생성합니다. 전체 원자 구조를 생성하고 사이드체인 원자를 배치하려면 순서를 알아야 합니다. 이로 인해 이산 및 연속 모달리티를 동시에 생성해야 하는 다중 모달리티 생성 문제가 발생합니다.
  • 유기체 특이성: 인간이 사용하기 위한 단백질 생물학적 의약품은 인간의 면역 체계에 의해 파괴되지 않도록 인간 친화적일 필요가 있습니다.
  • 제어 사양: 약물을 발견하고 이를 환자에게 제공하는 것은 복잡한 과정입니다. 이러한 복잡한 제약 조건을 어떻게 규정할 수 있을까요? 예를 들어, 생물학적인 문제를 해결한 후에도 정제가 약병보다 운반하기 쉽다고 판단하여 용해성에 대한 새로운 제약 조건을 추가할 수 있습니다.

“유용한” 단백질 생성

단백질을 단순히 생성하기만 하는 것은 유용한 단백질을 얻기 위해 생성을 제어하는 것만큼 유용하지 않습니다. 이를 위한 인터페이스는 어떤 모습일까요?

영감을 얻기 위해 구성적인 텍스트 프롬프트를 통해 이미지 생성을 제어하는 방법을 고려해 볼 수도 있습니다. (example from Liu et al., 2022).

 

PLAID는 제어 사양을 위해 이 인터페이스를 미러링합니다. 궁극적인 목표는 텍스트 인터페이스를 통해 전적으로 생성을 제어하는 것이지만 여기서는 개념 증명으로 기능 유기체라는 두 가지 축에 대한 구성 제약을 고려합니다.

기능-구조-서열 연결 학습. PLAID는 높은 서열 수준의 다양성을 유지하면서 메탈로 단백질에서 흔히 발견되는 사면체 시스테인-\(Fe^{2+}/Fe^{3+}\) 배위 패턴을 학습.

서열만 있는 학습 데이터를 사용한 학습

PLAID 모델의 또 다른 중요한 측면은 생성형 모델을 학습시키는 데 서열만 필요하다는 점입니다! 생성형 모델은 학습 데이터에 의해 정의된 데이터 분포를 학습하며, 서열 데이터베이스는 실험 구조보다 훨씬 저렴하게 얻을 수 있기 때문에 구조 데이터베이스보다 훨씬 더 큽니다.

더 크고 광범위한 데이터베이스에서 학습. 단백질 서열을 얻는 데 드는 비용은 실험적으로 구조를 특성화하는 것보다 훨씬 저렴하며, 서열 데이터베이스는 구조 데이터베이스보다 2~4배 .

어떻게 사용하나요?

서열 데이터만으로 구조를 생성하는 모델을 학습할 수 있는 이유는 단백질 접힘 모델의 잠재 공간에 대한 확산 모델을 학습하기 때문입니다. 그런 다음 추론 중에 유효한 단백질의 잠재 공간에서 샘플링한 후 단백질 접힘 모델에서 고정 가중치를 가져와 구조를 해독할 수 있습니다. 여기서는 검색 단계를 단백질 언어 모델로 대체하는 AlphaFold2 모델의 후속 모델인 ESMFold를 사용합니다..

학습 중에는 임베딩을 얻기 위해 서열만 필요하고, 추론 중에는 샘플링된 임베딩에서 서열과 구조를 해독. ❄️ 은 고정 가중치를 나타냄.

 

이러한 방식으로 단백질 설계 작업을 위해 사전 학습된 단백질 접힘 모델의 가중치에 구조적 이해 정보를 사용할 수 있습니다. 이는 로봇 공학에서 시각-언어-행동(VLA) 모델이 인터넷 규모의 데이터로 학습된 시각-언어 모델(VLM)에 포함된 선행 정보를 활용하여 지각과 추론 및 이해 정보를 제공하는 것과 유사합니다.

단백질 접힘 모델의 잠재 공간 압축하기

이 방법을 직접 적용하는 데 따르는 작은 단점은 ESMFold의 잠재 공간(실제로 많은 트랜스포머 기반 모델의 잠재 공간)에 많은 정규화가 필요하다는 점입니다. 이 공간은 또한 매우 크기 때문에 이 임베딩을 학습하는 것은 결국 고해상도 이미지 합성에 매핑됩니다.

 

이를 해결하기 위해 단백질 서열과 구조의 공동 임베딩을 위한 압축 모델을 학습하는 CHEAP(Compressed Hourglass Embedding Adaptations of Proteins)도 제안합니다.

잠재 공간 분석. (A) 각 채널의 평균값을 시각화하면 일부 채널에서 '대규모 활성화'가 나타남. (B) 중앙값(회색)과 비교하여 상위 3개의 활성화를 살펴보면 여러 계층에 걸쳐 이러한 현상이 발생함. (C) 다른 트랜스포머 기반 모델에서도 대규모 활성화가 관찰.

 

이 잠재 공간은 실제로 압축성이 매우 높다는 것을 발견했습니다. 우리가 작업하고 있는 기본 모델을 더 잘 이해하기 위해 약간의 기계론적 해석을 수행하여 전 원자 단백질 생성 모델을 만들 수 있었습니다.

다음 단계는 무엇인가요?

다음 단계는 무엇인가요?
이 작업에서는 단백질 서열과 구조 생성의 경우를 살펴보았지만, 이 방법을 적용하면 더 풍부한 양식에서 덜 풍부한 양식으로 추정할 수 있는 예측기가 있는 모든 양식에 대해 다중 양식 생성을 수행할 수 있습니다. 단백질의 서열 대 구조 예측기가 점점 더 복잡한 시스템을 다루기 시작함에 따라(예: AlphaFold3는 핵산 및 분자 리간드와 복합된 단백질도 예측할 수 있음), 동일한 방법을 사용하여 더 복잡한 시스템에 대해 다중 모드 생성을 수행하는 것을 쉽게 상상할 수 있습니다. 

 

참고자료

http://biorxiv.org/content/10.1101/2024.12.02.626353v2

https://www.biorxiv.org/content/10.1101/2024.08.06.606920v2

반응형