基因组信息学实验

本学期总共六个实验,先后完成了对酵母YJM320的全基因组的模拟测序、序列组装、同源搜索、从头预测、启动子(TATA box)预测、全基因组数据可视化。

摘要

本学期总共六个实验,先后完成了对酵母YJM320的全基因组的模拟测序、序列组装、同源搜索、从头预测、启动子(TATA box)预测、全基因组数据可视化。
具体内容如下:利用art illumina工具对原始的酵母YJM320的全基因组进行模拟建模,利用fastqc对建模结果进行质控分析(质控结果很好)。然后对建模结果利用SOAPdenovo进行序列组装,组装结果为Scaffold265个,其N50 258107bp;contig大于100bp的共43082个,其N50为273bp。结果利用blastn和quast同原始基因组进行比对,两种方法计算覆盖度分别为75.94%和87.6%,利用IGV工具观察基因组,发现在12号染色体中有一段rRNA重复序列无法组装,这也是影响最终覆盖率的主要原因。
分别采用同源搜索(利用tblastn比对)和从头测序(Augustus)的方法构建全基因组,对所得结果同原基因组进行gffcompare比对,结果为从头测序结果优于同源建模。IGV是数据可视化的工具,利用它可以查看同源搜索和从头预测的结果。
采用HMM结合bootstrap预测全基因组中的TATA box分布,绘制打分图和ROC曲线图,有70%匹配的TATA box下游5000bp内有发现基因。

一、材料和方法

1.1、分析平台

1.1.1 硬件平台

(1).CPU: Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz

(2). 内存:8 GB 1600 MHz DDR3

(3). 硬盘:磁盘 0 (C:) TOSHIBA THNSNK128GVN8 M.2 2280 128GB

磁盘 1 (D: E: F:) TOSHIBA MQ01ABD100 932 GB

1.1.2 操作系统

Windows10 、Ubuntu 虚拟机

1.1.3 分析软件

(含版本号)

编程工具:

R 3.5.1 Perl 5.26.1

分析工具:

ART 2.5.8 sratoolkit 2.9.4 fastqc SOAPdenovo

Quast 本地blast gffcompare Augustus

1.1.4 数据库资源

NCBI Genome:https://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=341003

NCBI PubMed:https://www.ncbi.nlm.nih.gov/pubmed/

NCBI SRA:https://www.ncbi.nlm.nih.gov/sra/SRX257750[accn]]

UniProt:https://www.uniprot.org

EPD:https://epd.epfl.ch//index.php

1.2 研究对象

物种名称 Saccharomyces cerevisiae YJM320

Genbank Accession Number:GCA_000975885.2

1.3 方法

1.3.0 实验流程图