2024年12月7日,滑铁卢大学的Ghodsi团队发表题为“Conditional Sequence-Structure Integration: A Novel Approach for Precision Antibody Engineering and Affinity Optimization”的抗体从头设计算法AIDA。
2024年12月3日,清华大学珠三角研究院人工智能创新中心的韩蓝青研究团队在Nature Scientific Data上在线发表了PPB-Affinity: Protein-Protein Binding Affinity dataset for AI-based protein drug discovery,整合了SKEMPI v2.0、PDBbind 2020和SabDab等数据源,整理构建一个PPI亲和力数据集,并基于IPA构建一套benchmark算法验证了数据集的价值。

本文是上交大洪亮团队发表在Nature Cell Discovery上的工作,提出了一种基于扩散的蛋白序列生成算法CPDiffusion。算法CATH 4.2和pAgo蛋白上训练,验证了其denovo生成的pAgo和KmAgo蛋白的生物活性。
- 论文地址:A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity
- 开源信息:
- 代码仓库:GitHub - bzho3923/CPDiffusion
- 模型仓库:HuggingFace - tyang816/CPDiffusion
- 模型许可:Apache 2.0
原文链接:Diffusion Language Models Are Versatile Protein Learners
开源信息:GitHub - bytedance/dplm,Apache 2.0 License。
DPLM是字节跳动在ICML2024上提出的一种基于扩散的语言模型,用于蛋白质序列的生成。

论文:http://arxiv.org/abs/2310.02391
源码:https://github.com/dreamfold/foldflow
license:CC BY-NC-SA 4.0

FoldFlow算法是一种针对$\text{SE(3)}^N$分布定制的连续归一化流。算法通过条件流匹配(Conditional Flow Matching,CFM)来实现最优路径的学习。每个残基在空间中各种可能刚性分布构成一个SE(3)群,算法正是从N个残基的SE(3)中寻找一种合理的分布。
本文是对抗体/蛋白设计算法的汇总。根据算法的特点共性,设置以下字段:
- 名称
- 序列类型
- 普通蛋白
- peptide
- mini protein
- antigen
- 抗体
- nanobody
- mAb
- scFv
- CDR
- other antibody
- 普通蛋白
论文名称:《Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization》
论文亮点:利用MASTER算法,通过输入给定CDR骨架结构,检索PDB得到相似的CDR fragment数据,从而增强序列设计的能力。
论文缺点:检索增强的PDB可能搜到原始数据,因此存在数据泄露风险。对未能检索groud truth的数据性能较差。
论文代码:暂无开源信息。
