生物信息学
Scoring Matrix的构建 ——序列比对 Sequence Aligning.
00 分钟
2024-9-18
2024-11-2
type
status
date
slug
summary
tags
category
icon
password

Review & Introduction

👉
在上一篇笔记中,我们介绍了Pairwise Sequence Alignment中的一些问题,其中状态转移方程中的Penalty和Award比较简单。实际情况是,按照分子进化的观点,分子突变概率也是不一样的,所以就需要构建起更加符合情况的Scoring Matrix。
e.g. 以下是BLAST默认的Scoring Matrix.
notion image
notion image
替换打分矩阵是一组用于衡量核苷酸或氨基酸相互替换时的相对得分的矩阵。这些得分通常反映了一个核苷酸或氨基酸替换为另一个的相对容易程度,且在序列比对中被用于衡量相似性。换句话说,替换打分矩阵告诉我们两种核苷酸或氨基酸在进化过程中相互替换的可能性有多大,以及这种替换是否会显著影响序列的功能或结构。
 

打分类型:正分和负分

替换打分矩阵中的分数既可以是正分,也可以是负分:
Positive Scores(正分)
表示替换是有利或可能发生的。这些替换可能是进化过程中自然发生的,并且不会显著破坏蛋白质的功能。
举例:在某些蛋白质中,氨基酸Leucine (L)和Isoleucine (I)可能在进化中经常相互替换,因为它们具有相似的物理性质(如疏水性),因此会获得较高的正分。
Negative Scores(负分)
表示替换是不利或不太可能发生的。这些替换可能会对蛋白质功能产生负面影响,或者从进化的角度来看,这种替换是不常见的。
举例:Tryptophan (W) 和 Glycine (G) 的替换可能获得较低的分数,因为它们在大小和化学性质上差异较大,替换后可能会严重影响蛋白质的结构或功能。
 

不同类型的替换打分矩阵

生物信息学中有很多种替换打分矩阵,每种矩阵都针对特定的进化距离、序列类型或比对需求。

PAM 矩阵家族

PAM 的定义

PAMPoint Accepted Mutation)矩阵是一系列基于进化模型构建的矩阵。它用于量化不同氨基酸之间发生突变的可能性,并被广泛应用于基因序列的比对。
PAM 矩阵主要根据进化距离进行编号:
PAM1:表示进化关系非常接近的序列。即这两个序列之间只发生了极少量的突变,氨基酸的序列基本保持一致。
PAM250:表示进化距离更远的序列。随着PAM值的增加,表示氨基酸序列之间经历了更多的进化和突变,序列的差异会逐渐增大。

PAM 单位

一个PAM单位代表的是每100个氨基酸中有一个氨基酸发生了经过自然选择后被接受的突变。也就是说,经过1个PAM单位的进化时间,序列中的1%氨基酸会发生突变,但这个突变不会破坏蛋白质的功能,因为这些突变已经被自然选择所接受。
举例来说:
PAM1表示进化初期,在100个氨基酸中只有1个氨基酸发生了突变。
PAM250则意味着进化过程已经较为深入,两个序列中可能已经有250个氨基酸中发生了1%的变化。

PAM 矩阵的应用

PAM矩阵在进化上是基于非常接近的序列进行推导的。它通过估算序列如何随着时间发生突变来预测更远距离的序列。PAM矩阵适用于推断远古共同祖先的序列差异。
PAM1 矩阵适用于非常相似的序列,而PAM250 矩阵则适用于较为远离的进化关系。PAM矩阵在进化树的构建和蛋白质家族间的比对中广泛应用。

BLOSUM 矩阵家族

BLOSUM 的定义

BLOSUMBlocks Substitution Matrix)矩阵是基于实际观测到的蛋白质序列中的替换数据构建的,主要用于描述蛋白质家族中保守区域内氨基酸替换的频率。它不依赖于具体的进化模型,而是直接基于实验数据和序列库构建。

BLOSUM 矩阵编号

BLOSUM 矩阵是根据生成矩阵时所使用的蛋白质序列的相似性进行编号的。
BLOSUM62 是最常用的版本,代表比对的序列保留了至少62%的相似性。这意味着构建这个矩阵时,保守区域中的相似序列被聚类到62%的相似性后用于计算替换频率。
BLOSUM45BLOSUM80 分别代表不同程度的相似性(45%或80%),较低的BLOSUM值代表更加远离的进化关系,较高的值则代表更近的进化关系。

BLOSUM 矩阵的应用

BLOSUM 矩阵的最大优势在于它基于观察数据,因此更能反映实际的生物学替换。BLOSUM矩阵在蛋白质序列比对中的应用尤为广泛,特别是在比对保守功能区域时。
相比于PAM矩阵,BLOSUM矩阵倾向于处理更远的序列关系,且在保守区域中能捕捉到哪些氨基酸替换不会影响蛋白质的结构或功能。
BLOSUM62 是默认用于许多序列比对工具(如BLAST)的矩阵,因为它在大多数应用场景中表现良好。
图中展示了PAM和BLOSUM的约等关系
图中展示了PAM和BLOSUM的约等关系

从概率角度对比对评分

我们先做出一些对进化模型的假设:
  • 突变是独立发生的点变化。
  • 进化变化的速度随时间保持不变。
  • 根据观察到的数据,替换按照已知概率发生。
  • 序列共享一个共同的祖先,间隙代表罕见的插入或删除。
根据如上假说,我们可以提出下面模型:
M表示序列拥有相同的祖先,R表示序列随机对齐。如果远大于1,说明序列拥有相同的祖先的可能性非常大。如果接近于1,说明序列更可能是随机对齐的。
 
通过一些概率论和数学知识我们可以对等式进行化简
i代表序列中的第i个位置,每个位置是相互独立的
代表氨基酸a的背景频率
,对其取log值简化计算
定义一个log-odds分数的概念: ,则对比分数为
 
令 Mt(i, j) 表示 PAMn 突变概率矩阵中氨基酸 j 突变为氨基酸 i 的概率,其中 t 表示 PAM 定义的特定进化距离;令 f(i) 和 f(j) 表示背景中氨基酸 i 和 j 的频率;则有:
 
表示在进化过程中,氨基酸在时间t后,突变为氨基酸的概率。
我们知道氨基酸突变的过程非常复杂,但可以通过概率模型简化为两步:
1.氨基酸发生了突变,并且变成了一个不同的氨基酸(即不再是自身)。 2.突变的氨基酸具体变成(而不是其他氨基酸)。 所以有以下式子:
解释:
  • :表示在时间t后,氨基酸突变为的概率。
  • :表示在时间t后,氨基酸突变为不同于自身的氨基酸的概率。
这个突变过程可以进一步分解为两个独立的部分:
1. :表示在发生突变之后,突变结果是氨基酸的概率。 2. :表示在时间t后突变为任何其他氨基酸的概率(而不是保持为自己)。

PAM矩阵的构建—Dayhoff’s approach

Dayhoff的团队通过研究不同蛋白质序列的差异,统计氨基酸突变的频率,基于这些突变数据,推导出每种氨基酸突变为其他氨基酸的概率。
具体步骤
  • 分析蛋白质序列:Dayhoff及其团队分析了71组蛋白质序列,来自34个超家族。这些组群是同源序列,相似度超过85%,这表明这些序列有共同祖先。
  • 手动构建序列比对:Dayhoff手动对这些蛋白质进行了多重序列比对,并推测出这些蛋白质的祖先序列。
  • 识别可接受的点突变:通过比较序列,Dayhoff确定了1572个已接受的点突变,这些突变是由于自然选择而保留在进化过程中的。
  • 基于这些点突变构建PAM矩阵:通过对这些突变的研究,Dayhoff估算了各种氨基酸替换的概率,最终得到了PAM1矩阵,这成为进化生物学和生物信息学中序列比对的重要工具。
 

1. 通过系统发育树识别可接受的点突变并列表计数

notion image
notion image
 

2. 计算归一化氨基酸频率

接下来,Dayhoff计算了所有氨基酸的归一化频率。这一步很重要,因为氨基酸在蛋白质中并不是均匀分布的,不同氨基酸出现的频率不同。
下面展示了一张表格,列出了各种氨基酸的频率。例如,Gly(甘氨酸)的频率为0.089,Ala(丙氨酸)为0.087。这表明甘氨酸和丙氨酸在蛋白质中的出现频率较高,而Trp(色氨酸)的频率仅为0.010,出现频率较低。
notion image
 

3. 计算每个氨基酸的相对突变率

每个氨基酸的相对突变性(mutability)表示该氨基酸参与突变的速率。这个值可以通过观察一个氨基酸与其他氨基酸的突变频率来计算。
公式如下:
:氨基酸的相对突变率,表示氨基酸在所有突变中出现的速率。 :表示氨基酸突变为其他氨基酸的事件数。 总次数:氨基酸在所有序列中出现的总次数。
通过这种方式,Dayhoff推导了每个氨基酸的突变倾向。例如,表格中显示了不同氨基酸的相对突变率,Asn(天冬酰胺)的相对突变性为134,表示它相对容易突变,而Trp(色氨酸)的值为18,表示它相对稳定,不易突变。
notion image

4. 总突变概率的计算

接下来,我们需要计算氨基酸突变为的具体概率,也就是 。这是在已知 已经发生突变的前提下,它突变为的概率。
公式如下:
:表示氨基酸突变为的事件数。 • :表示氨基酸突变为其他所有氨基酸的总次数。
这个公式计算了相对的突变频率,即如果突变了,突变为的具体概率是多少。它是通过已接受点突变数据来统计的。例如,如果表示某种突变非常常见,那么这个概率会比较大。
 
将相对突变率和具体突变概率结合在一起,Dayhoff给出的最终公式为:
其中:
是氨基酸相对突变率。 •是氨基酸突变为的具体概率。 •是一个归一化常数,用来确保所有突变概率的总和为1。
如何估算
Dayhoff假设在一个PAM1单位时间内,1%的氨基酸发生了突变,也就是说99%的氨基酸保持不变。因此,可以通过以下公式计算:
:表示氨基酸的出现频率(前面计算的归一化频率)。 •:是氨基酸的相对突变率。 •:表示在PAM1单位时间内,有99%的氨基酸保持不变。

实际突变概率矩阵(PAM1矩阵)

最终,Dayhoff构建了一个突变概率矩阵(PAM1矩阵),其中每个元素表示氨基酸突变为氨基酸的概率。PAM1表示经过1%的突变的情况。
例如,PPT中的PAM1矩阵展示了每个氨基酸突变为其他氨基酸的具体概率。这个矩阵是通过实际统计的1572个点突变,以及计算得到的氨基酸相对突变率和出现频率推导出来的。
notion image
 
 
上一篇
MSA(多序列比对)算法
下一篇
双序列比对 Pairwise sequence alignment ——序列比对Sequence Alignment.