论文名称:《Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization》

论文亮点:利用MASTER算法,通过输入给定CDR骨架结构,检索PDB得到相似的CDR fragment数据,从而增强序列设计的能力。

论文缺点:检索增强的PDB可能搜到原始数据,因此存在数据泄露风险。对未能检索groud truth的数据性能较差。

论文代码:暂无开源信息。

算法解析

RADAb算法是一个基于RA信息的序列扩散算法,这与RFdiffusion这类结构扩散算法不同。

变量声明

在文章开篇,作者对其声明的算法变量进行了说明:

  • 第$i$位的残基类型$s_i\in {ACDEFGHIKLMNPQRSTVWY}$
  • 第$i$位的残基CA原子坐标$x_i \in R^3$
  • 第$i$位的残基原子相对标准位置的旋转矩阵$O_i\in SO(3)$
  • $i=1,2,…,N$,其中N为序列长度。
  • $R={s_j|j\in {a+1,…,a+m}}$为位于$a+1$和$a+m$区间的需要设计的CDR3序列采样分布。
  • $C_{ab}={(s_i,x_j,O_j)|i\in{1,…,M}\backslash{a+1,…,a+m},j\in{1,…,M}}$表示给定抗体结构和非CDR残基序列信息。
  • $C_{ag}={(s_i,x_j,O_i)|i\in{M+1,…,N}}$表示给定抗原的结构和序列信息。
  • $\mathbb{A}={A_i|i\in{1,…,k}}$表示检索到的CDR fragment信息。

最终目标就是预测CDR序列结合$R$的分布。

扩散模型定义

这里的扩散模型是序列的扩散模型,结构化信息是在模型中嵌入。

前向传播过程,线下求和系数$\beta^t$会随时间逐渐从0增加到1,不断增加随机噪声,直到天然氨基酸的随机分布。

反向传播过程就是模型训练的目标,能够扩散生成序列,而前面的结构信息和当前分布会通过给定的神经网络$F(.)[j]$嵌入反向传播。

这里采用了DiffAb的架构作为一个扩散模型。

检索算法

论文采用MASTER算法进行fragment查询,使用RMSD进行约束。算法描述比较笼统,但简单来说就是沿着残基进行长度为m的扫描,计算RMSD,如果符合要求则算到里面。

虽然MASTER算法不考虑序列同源性,但作者在训练时对搜到的序列片段进行了identity分析,保留了同源性较高的片段用来训练(作为进化信息)。但在推理生成时没有进行筛选。

扩散生成模型架构

如其图所示,$F$模型存在两个分支,一个负责接收$Rt, C{ab}, C_{ag}$三块全局的结构和序列信息的全局几何信息分支,一个负责接收RA检索信息的局部CDR信息分支。

全局几何信息分支

这一分支分为一个结构编码模块、一个序列编码模块以及一个信息整合模块。

  • 结构编码:分别有由两个MLP负责生成残基自身特征编码$zi$和残基相互之间几何关系特征编码$y{ij}$。
  • 序列编码:就是用当前的序列PSSM矩阵信息输入ESM2-650M的模型,拿到一个embedding信息$e_t$。
  • 信息接收模块:上述结构编码和序列编码后送入这个模块,拼接输入一个IPA(invariant point attention)模块转化为隐变量$h_i$,然后通过MLP转换为当前timestamp的一个$R^{t-1}$预测概率分布。

局部CDR信息分支

这里实际上可以把检索的CDR片段信息看作类似alphafold的MSA信息,作者会将第一个分支给出预测分布与MSA信息进行类似MSA Transformer那样的row attention与column attention计算,得到一个CDR-focused axial attention信息矩阵,最后矩阵转换为加入检索信息的PSSM概率矩阵。

同时模型架构加入了残差设计,希望将少因此带来的结构信息损失。

相比与直接进行序列MSA,结构相似性搜索更有利于增加设计CDR的多样性。但是作者又将训练时MSA进行做了相似性筛选,这是比较令人困惑的。

todo:深挖一下里面可能的计算实现细节。

Loss的定义

每一步的loss是计算了每个位置残基概率分布的KL散度

总的loss就是每个步的loss的期望:

下面是官方给的训练伪代码:

训练配置

  • 框架:Pytorch
  • 优化器:Adam
  • 学习率:1e-4
  • 学习率优化:employed plateu (reduce rate 0.8)

结果评估

算法由于是用抗原抗体复合物数据,显然也是在SabDab数据上训练的,从结果来看确实相比此前方法有更高的AAR和更低的scRMSD,但是其算法消除实验表明,不出现group truth的搜索结果的情况下,性能会有断崖式下降,这对于不在PDB中存在的全新数据,可能会有明显的影响影响。

同时这篇论文没有对设计结果做必要的湿实验验证,其真实效果有待考察。当然论文作者给我们提供了一个比较新颖的技术路线。抗体数据相对来说较为缺乏,通过PDB中进行信息检索,能够一定程度上弥补这种数据不足带来的影响。