生物信息学
测序基本原理
00 分钟
2024-11-4
2024-11-4
type
status
date
slug
summary
tags
category
icon
password
DNA测序是确定DNA分子中核苷酸(A、T、C、G)排列顺序的过程。通过测序,可以获取基因组的完整信息,理解遗传信息的结构和功能,为生物学研究和医学应用提供基础数据。下面介绍几种常见的测序方法。

Sanger测序——第一代测序

Sanger测序,也称为链终止测序,是一种经典的DNA测序方法,通过引入特定的“终止”核苷酸(ddNTP),阻断DNA链的延伸,从而能够逐步解析DNA的碱基顺序。这种方法尽管速度较慢,但在短序列测定上具有极高的准确性。
notion image
 

技术原理及简要步骤

步骤 1:DNA模板的准备与扩增
  • 目标DNA片段通常需要经过PCR扩增以获得足够的量,确保反应体系中有充足的模板DNA。
  • 此外,目标片段应该是单链的,这样可以让单链模板用于后续反应。
步骤 2:引物结合
  • 选择一个已知序列的DNA引物(短DNA片段),并将其与DNA模板的一端结合。这个引物是DNA合成的起始点。
  • DNA聚合酶会从引物开始,向3’方向延伸DNA链。
步骤 3:反应混合物准备
  • 将实验分成四个独立的反应试管,每个试管中包含:
    • 四种常规核苷酸(dNTP:dATP、dTTP、dGTP和dCTP):这些是正常的碱基,用于延伸DNA链。
    • 一种特定的双脱氧核苷酸(ddNTP:ddATP、ddTTP、ddGTP或ddCTP):ddNTP每个试管只加入一种,带有不同的荧光标记。ddNTP的特殊结构导致它一旦被添加到DNA链上,链的延伸便会终止。
    • DNA聚合酶:一种催化核苷酸依次添加到DNA链末端的酶。
p.s.
ddNTP分子缺少3’羟基(-OH),使其无法再添加新的核苷酸,因此加入ddNTP会使链的延伸中断。由于每个试管的ddNTP不同,生成的DNA片段长度各异,每个片段的末端都由特定的荧光ddNTP标记。
步骤 4:链延伸与终止反应
  • 在DNA聚合酶的作用下,dNTP和ddNTP被随机加入到链上。每当ddNTP偶然掺入,链的延伸便会停止。
  • 随着反应进行,形成了许多不同长度的DNA片段,每个片段末端代表一个特定的碱基(A、T、G或C)的荧光标记。
步骤 5:电泳分离与检测
  • 将每个反应试管中的产物加入电泳凝胶中,利用电泳将片段按长度大小分离。短片段在电泳过程中移动得更快,而长片段移动较慢。
  • 通过激光等检测装置读取荧光信号,识别每个片段末端的ddNTP类型,由此得到每个碱基的序列顺序。
notion image

技术优势与局限性

优势

  1. Sanger测序精度极高,是验证小片段DNA序列的首选方法。
  1. 适用于小规模测序(如单个基因或小片段的测序)。

局限性

  1. 每次只能读取大约800-1000个碱基,对于大型基因组测序效率较低。
  1. 成本较高,时间较长,不适合大规模或全基因组测序。

下一代测序NGS(第二代测序,以Illumina为例)

Illumina测序技术(Illumina Sequencing Technology),亦称为高通量测序或下一代测序(Next-Generation Sequencing, NGS),是目前应用最广泛的基因组测序平台之一。Illumina测序基于“合成测序”(Sequencing by Synthesis, SBS)原理,通过在固相支持物(Flow Cell)上进行桥式扩增,形成大量的簇(Clusters),然后通过逐碱基合成和荧光成像来确定碱基序列。其核心优势在于高通量、准确性高、灵活性强,适用于多种测序应用。

样本准备

1. DNA片段化

将高分子量的DNA或RNA剪切成适合测序的片段,通常在200-600 bp之间。通常的方法包括使用Covaris设备通过高强度超声波将DNA剪切成所需长度或者使用特定的核酸酶进行片段化(通常用于RNA测序)。

2. 文库构建

  1. 末端修复(End Repair):将DNA片段的末端转化为平末端(blunt ends),以便后续步骤。通常使用DNA聚合酶和/或内切酶修复片段末端,使其具有平整的3’和5’末端。
  1. A尾添加(A-Tailing):在DNA片段的3’末端添加一个腺嘌呤(A)碱基,为连接接头(adapter)做准备。通常使用Taq DNA聚合酶在3’末端添加单个A碱基。
notion image
  1. 接头连接(Adapter Ligation):在DNA片段两端连接Illumina测序所需的接头序列,这些接头包含测序引物结合位点和条形码(Barcode)序列。连接这些接头可以通过T4 DNA连接酶。根据文库构建策略,选择单末端(single-end)或双末端(paired-end)接头。
notion image
notion image
 
  1. 文库富集与纯化(PCR Enrichment and Purification):通过PCR扩增增加文库的浓度,并去除未连接接头的片段。
notion image

簇生成

簇生成是将文库中的DNA片段扩增成大量相同的拷贝簇,每个簇来源于一个单一DNA分子,以便进行高效的测序反应。簇生成主要包括以下步骤:

1. 流式细胞加载(Flow Cell Loading)

流式细胞是Illumina测序的核心组件,通常由玻璃片组成,表面覆盖有特定的引物。
加载方法
  • 混合文库:将文库按照推荐浓度稀释后,加载到流式细胞的不同通道(lanes)中。
  • 使用混合文库和桥式扩增试剂:确保文库均匀分布在流式细胞表面。

2. 桥式扩增(Bridge Amplification)

桥式扩增是在流式细胞表面进行的局部PCR扩增过程,将文库片段固定在流式细胞表面的引物位置,并通过热循环使其形成桥状结构,进而扩增成簇。
notion image
  1. 固定片段与引物结合 流式细胞表面覆盖有两种互补的引物,分别对应文库接头的两端(P5和P7)。文库片段通过接头序列与流式细胞上的引物互补结合。
  1. 桥式结构形成 通过温度变化使单链DNA片段与相邻的引物发生自我配对,形成桥状结构。使用DNA聚合酶在桥状结构上延伸,形成双链DNA。然后用碱溶液洗去非共价键连接的一条链。
  1. 通过多轮热循环,使每个桥状结构在流式细胞表面扩增成一个由数千个相同DNA分子组成的簇。
  1. 最后,通过特殊反应切掉并且洗去反向链,只留下正向链。

合成测序(Sequencing by Synthesis, SBS)

notion image

1.核苷酸加入(Nucleotide Incorporation)

  • 试剂组成
    • 可逆终止核苷酸(RTNs):包括四种带有不同荧光染料的核苷酸(dATP, dTTP, dCTP, dGTP),每种核苷酸都携带一个可逆的阻断基团(通常是酰胺基)。
    • DNA聚合酶:负责催化核苷酸的加入,常用高保真度的聚合酶,如Phusion High-Fidelity DNA Polymerase。
    • 缓冲液:维持反应的pH值和离子强度,确保聚合酶的活性和核苷酸的有效性。

2.碱基延伸(Extension)

在DNA聚合酶的催化下,RTNs被添加到模板链的3’端,形成新的双链DNA。由于阻断基团的存在,每个簇只能在每个循环中添加一个核苷酸,确保测序的准确性。形成的双链DNA桥在流式细胞表面固定,准备下一步的测序反应。

3.荧光成像(Imaging)

使用特定波长的激光激发带有荧光染料的RTNs。每种核苷酸带有不同颜色的荧光染料(如A-T-红色,C-T-绿色,G-T-蓝色,T-T-黄色)。捕捉每个簇的荧光信号,记录下当前循环中加入的碱基类型。通过专用软件将荧光信号转换为具体的碱基序列信息。
 
notion image

4.荧光染料与阻断基团去除(Dye and Blocking Group Removal)

通过化学方法(如碱性条件)将RTNs上的荧光染料从DNA链上去除,避免对下一循环的荧光信号产生干扰。去除后,DNA链的3’端恢复为开放状态,准备下一轮的核苷酸加入。

5.循环上面步骤,循环次数视序列长度而定

 

数据处理

可以发现Illumina测序只能测出一些短片段,所以需要Reads Mapping等数据处理手段,之后我们会介绍。

测序方法的对比

notion image
上一篇
Conda学习笔记
下一篇
基因的结构及其表达