PPB-Affinity:整合多个数据源的PPI亲和力数据集
ai | protein | ppi | dataset

2024年12月3日,清华大学珠三角研究院人工智能创新中心的韩蓝青研究团队在Nature Scientific Data上在线发表了PPB-Affinity: Protein-Protein Binding Affinity dataset for AI-based protein drug discovery,整合了SKEMPI v2.0、PDBbind 2020和SabDab等数据源,整理构建一个PPI亲和力数据集,并基于IPA构建一套benchmark算法验证了数据集的价值。

阅读全文
CPDiffusion蛋白序列扩散算法-洪亮

本文是上交大洪亮团队发表在Nature Cell Discovery上的工作,提出了一种基于扩散的蛋白序列生成算法CPDiffusion。算法CATH 4.2和pAgo蛋白上训练,验证了其denovo生成的pAgo和KmAgo蛋白的生物活性。

workflow

阅读全文
PeptideGPT多功能多肽生成模型-卡内基梅隆大学
阅读全文
DPLM扩散蛋白语言模型-字节跳动ICML2024

原文链接:Diffusion Language Models Are Versatile Protein Learners
开源信息:GitHub - bytedance/dplm,Apache 2.0 License。

DPLM是字节跳动在ICML2024上提出的一种基于扩散的语言模型,用于蛋白质序列的生成。

阅读全文
BetterBodies:VAE+Diffusion+RL的抗体CDRH3设计

原文链接:http://arxiv.org/abs/2409.16298

阅读全文
FoldFlow骨架生成算法-ICLR2024

论文:http://arxiv.org/abs/2310.02391
源码:https://github.com/dreamfold/foldflow
license:CC BY-NC-SA 4.0

FoldFlow算法是一种针对$\text{SE(3)}^N$分布定制的连续归一化流。算法通过条件流匹配(Conditional Flow Matching,CFM)来实现最优路径的学习。每个残基在空间中各种可能刚性分布构成一个SE(3)群,算法正是从N个残基的SE(3)中寻找一种合理的分布。

阅读全文
抗体/蛋白设计算法合集

本文是对抗体/蛋白设计算法的汇总。根据算法的特点共性,设置以下字段:

  • 名称
  • 序列类型
    • 普通蛋白
      • peptide
      • mini protein
      • antigen
    • 抗体
      • nanobody
      • mAb
      • scFv
      • CDR
      • other antibody
阅读全文
RADAb抗体序列设计算法-上交大

论文名称:《Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization》

论文亮点:利用MASTER算法,通过输入给定CDR骨架结构,检索PDB得到相似的CDR fragment数据,从而增强序列设计的能力。

论文缺点:检索增强的PDB可能搜到原始数据,因此存在数据泄露风险。对未能检索groud truth的数据性能较差。

论文代码:暂无开源信息。

阅读全文
Chroma测试与binder设计探索

Chroma是Generate Bio开发一款蛋白设计算法,可以支持做骨架设计和序列设计。与Baker团队开发的RFdiffusion有一定相似之处。

开源代码: https://github.com/generatebio/chroma

论文地址:Illuminating protein space with a programmable generative model

阅读全文
BindCraft算法解析和测试

这篇文章pipeline的核心工具是colabdesign(Sergey Ovchinnikov团队研发,故而Sergey作为BindCraft的共同通讯),利用colabdesign提供的afdesign模块和proteinMPNN模块,进行binder design。

原文链接:https://www.biorxiv.org/content/10.1101/2024.09.30.615802

代码链接:https://github.com/martinpacesa/BindCraft

算法部署

阅读全文