蛋白质组信息学知识点总结

对蛋白质组信息学重要知识点的总结

正文

蛋白质组学:以蛋白质组为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学

瑞士的SWISS-PROT拥有目前世界上最大、种类最多的蛋白质组数据库。
SWISS Prot目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的

PIR全面的、经过注释的、非冗余的蛋白质序列数库。

TrEMBL是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中

单碱基多态性数据库dbSNP(疾病)

蛋白质结构分类数据库 CATH SCOP 数据库的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述

蛋白质二级结构数据库DSSP,根据其三维结构推导出对应的二级结构。

蛋白质同源序列比对数据库HSSP

EPD是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列

TRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。

TRANSFAC是真核基因顺式调控元件和反式作用因子数据库

BODYMAP是关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不同时刻。这里的基因表达数据实际上是3’端的EST。
通过分析这些数据,用户可以初步掌握基因活性,了解组织中mRNA的组成,研究基因表达规律,发现新的基因

PROSITE是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。
PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征

蛋白质功能信息学数据库KEGG

蛋白质互作网络数据库 DIP BIND Biogrd

中国科学院北京基因组研究所生命与健康大数据中心BIGD

生物正交反应指的是那些能够在活体细胞或组织中能够在不干扰生物自身生化反应条件下可以进行的化学反应。
生物正交的内涵是在不对细胞产生毒性的条件下研究诸如蛋白质,脂质等生物大分子

蛋白质的理化性质
一、两性性质及等电点 二、胶体性质 三、变性与复性作用 四、蛋白质的沉淀作用 五、沉降作用 六、蛋白质的颜色反应 七、蛋白质的紫外吸收性质

ExPASY
ProtParam预测蛋白质基本理化性质
TMHMM(跨膜区分析)
TMpred(跨膜区分析)
SignalP 信号肽分析

直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。
旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的α1球蛋白和α2球蛋白,人类的α球蛋白和β球蛋白。
异系同源:由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似,如病毒入侵后

多序列比对 Clustal
结果处理 Bioedit DnaMan

进化树 Clustal Phylip MEGA

蛋白质组学研究的复杂性要远远大于基因组
一.蛋白质的组成及结构比基因复杂 二.生物体中的蛋白质数目远大于基因的数目 三.基因是相对静态的,而蛋白质是动态的

蛋白质结构的测定: X-射线晶体学 NMR 电镜 AFM

蛋白质相互界面数据库 PIFACE 3did

三级结构,即蛋白质分子处于它的天然折叠状态的三维构象,它是在二级结构的基础上进一步盘绕,折叠形成的。
蛋白质三级结构的稳定主要靠氨基酸侧链之间的疏水相互作用,氢键、二硫键、范德华力和静电作用维持。
不同类型的蛋白质尽管局部结构分解后具有很高的相似性,但是由于其含辅助因子的全部共价相连原子空间的相对位置,
即其二级结构的组装(assembly)模式存在着差异,在三级结构层面不同的蛋白质将体现各自整体的结构特征。

有独立三级结构的单元通过非共价键聚集成的非共价复合物称为四级结构,其所含独立三级结构单位为亚基(subunit)。

蛋白质结构分析的主要目标

  1. 建立研究蛋白质结构信息发掘与预测的方法;
  2. 研究参与生命活动过程的蛋白质的物理性质、空间架构、功能片段和相互作用;
  3. 探索基于蛋白质结构表征蛋白质的生物学意义;
  4. 得到新的预测性的知识。

蛋白质结构可视化软件 VMD, swiss PDBviewer,

同源分析法
将待预测的片段与数据库中已知二级结构的片段进行相似性比较
该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。

PHDsec利用人工神经网络创造的数据库

二级结构预测 predictprotein Jpred SOMPA PHDsec

结构域数据库 InterPro

蛋白质卷曲coiled-coil的相关资源 COILS

三级结构
同源建模法
基于序列同源比对,对于序列相似度>30%的序列模拟比较有效,最常用的方法 SWISS-MODEL,CPHmodels
穿针引线法
“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大 THREADER,3D-PSSM I-TASSAR
从头预测法
基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测 HMMSTR/ROSSETA

三级结构评估
SAVES Molprobity

Chiron进行优化 MD优化结构 GROMACS能量

蛋白质功能域搜索工具 HMMER INTERPROSCAN rpi-blast

氨基酸/蛋白质连接网络 cytoscape

蛋白质芯片, 又称蛋白质阵列或蛋白质微阵列,是指以蛋白质分子作为配基,将其有序地固定在固相载体的表面形成微阵列;
用标记了荧光的蛋白质或其他它分子与之作用,洗去未结合的成分,经荧光扫描等检测方式测定芯片上各点的荧光强度,来分析蛋白之间或蛋白与其它分子之间的相互作用关系

正相蛋白质检测芯片首先用不同的荧光标记物对样品中的拟研究的蛋白质进行标记, 再将这些样品在抗体微阵列上进行温育,然后用生物芯片扫描仪检测各个阵列分子点上荧光信号。
正相蛋白质检测芯片可以同时对同一样品的不同成分进行分析对比。
但是需要注意在许多情况下, 蛋白质倾向于形成多蛋白质复合体, 所以如果出现很强的信号, 那么可能是由于蛋白质的浓度很高, 或是由于形成了大的蛋白质复合体。

反相蛋白质检测芯片 是用破碎的微量组织或者细胞样品点样制成的芯片, 代表在某种状态下整个细胞的蛋白质,然后用特定抗体进行检测。
反相蛋白质检测芯片可以检测许多组织、细胞裂解液, 可以研究整个蛋白质组随时间的波动变化状态, 尤其是通路中的蛋白质何时被修饰、何时被激活。
这种芯片检测的优点在于样品需要量小且不需要进行标记, 只需要检测抗体即可。然而它的缺点也在于此, 低点样量可能造成低丰度的蛋白质信号漏检

蛋白质的定位SwissProt、 MIPS、 cell-mPLoc

人类蛋白组亚细胞定位图谱 Cell Atlas

翻译后修饰数据库 dbPTM
工具 GPS3 NetOGlyc/NetNGlyc

相互作用数据库 BIND, DIP, IntAct, HPRD, MINT, MIPS

生物信息学方法预测蛋白质相互作用的原理
系统发育谱 基因邻接 基因融合事件 镜像树 突变关联 序列信号关联 保守的蛋白间相互作用 进化速率关联

疾病相关数据库 MALACards HPRD

最大简约法 (maximum parsimony, MP)
➢适用序列有很高相似性时
距离法 (distance)
➢适用序列有较高相似性时
最大似然法 (maximum likelihood, ML)
➢可用于任何相关序列集合
计算速度:
➢距离法 >最大简约法 >最大似然法

鸣谢

总结图片由Happi同学提供,让我们将最热烈的掌声送给Ta!