2024年12月3日,清华大学珠三角研究院人工智能创新中心的韩蓝青研究团队在Nature Scientific Data上在线发表了PPB-Affinity: Protein-Protein Binding Affinity dataset for AI-based protein drug discovery,整合了SKEMPI v2.0、PDBbind 2020和SabDab等数据源,整理构建一个PPI亲和力数据集,并基于IPA构建一套benchmark算法验证了数据集的价值。
本文是上交大洪亮团队发表在Nature Cell Discovery上的工作,提出了一种基于扩散的蛋白序列生成算法CPDiffusion。算法CATH 4.2和pAgo蛋白上训练,验证了其denovo生成的pAgo和KmAgo蛋白的生物活性。
原文链接:Diffusion Language Models Are Versatile Protein Learners
开源信息:GitHub - bytedance/dplm,Apache 2.0 License。
DPLM是字节跳动在ICML2024上提出的一种基于扩散的语言模型,用于蛋白质序列的生成。
论文:http://arxiv.org/abs/2310.02391
源码:https://github.com/dreamfold/foldflow
license:CC BY-NC-SA 4.0
FoldFlow算法是一种针对$\text{SE(3)}^N$分布定制的连续归一化流。算法通过条件流匹配(Conditional Flow Matching,CFM)来实现最优路径的学习。每个残基在空间中各种可能刚性分布构成一个SE(3)群,算法正是从N个残基的SE(3)中寻找一种合理的分布。
本文是对抗体/蛋白设计算法的汇总。根据算法的特点共性,设置以下字段:
- 名称
- 序列类型
- 普通蛋白
- peptide
- mini protein
- antigen
- 抗体
- nanobody
- mAb
- scFv
- CDR
- other antibody
- 普通蛋白
论文名称:《Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization》
论文亮点:利用MASTER算法,通过输入给定CDR骨架结构,检索PDB得到相似的CDR fragment数据,从而增强序列设计的能力。
论文缺点:检索增强的PDB可能搜到原始数据,因此存在数据泄露风险。对未能检索groud truth的数据性能较差。
论文代码:暂无开源信息。
Chroma是Generate Bio开发一款蛋白设计算法,可以支持做骨架设计和序列设计。与Baker团队开发的RFdiffusion有一定相似之处。
开源代码: https://github.com/generatebio/chroma
论文地址:Illuminating protein space with a programmable generative model
这篇文章pipeline的核心工具是colabdesign(Sergey Ovchinnikov团队研发,故而Sergey作为BindCraft的共同通讯),利用colabdesign提供的afdesign模块和proteinMPNN模块,进行binder design。
原文链接:https://www.biorxiv.org/content/10.1101/2024.09.30.615802
代码链接:https://github.com/martinpacesa/BindCraft