本学期总共六个实验,先后完成了对酵母YJM320的全基因组的模拟测序、序列组装、同源搜索、从头预测、启动子(TATA box)预测、全基因组数据可视化。
摘要
本学期总共六个实验,先后完成了对酵母YJM320的全基因组的模拟测序、序列组装、同源搜索、从头预测、启动子(TATA box)预测、全基因组数据可视化。
具体内容如下:利用art illumina工具对原始的酵母YJM320的全基因组进行模拟建模,利用fastqc对建模结果进行质控分析(质控结果很好)。然后对建模结果利用SOAPdenovo进行序列组装,组装结果为Scaffold265个,其N50 258107bp;contig大于100bp的共43082个,其N50为273bp。结果利用blastn和quast同原始基因组进行比对,两种方法计算覆盖度分别为75.94%和87.6%,利用IGV工具观察基因组,发现在12号染色体中有一段rRNA重复序列无法组装,这也是影响最终覆盖率的主要原因。
分别采用同源搜索(利用tblastn比对)和从头测序(Augustus)的方法构建全基因组,对所得结果同原基因组进行gffcompare比对,结果为从头测序结果优于同源建模。IGV是数据可视化的工具,利用它可以查看同源搜索和从头预测的结果。
采用HMM结合bootstrap预测全基因组中的TATA box分布,绘制打分图和ROC曲线图,有70%匹配的TATA box下游5000bp内有发现基因。
一、材料和方法
1.1、分析平台
1.1.1 硬件平台
(1).CPU: Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz
(2). 内存:8 GB 1600 MHz DDR3
(3). 硬盘:磁盘 0 (C:) TOSHIBA THNSNK128GVN8 M.2 2280 128GB
磁盘 1 (D: E: F:) TOSHIBA MQ01ABD100 932 GB
1.1.2 操作系统
Windows10 、Ubuntu 虚拟机
1.1.3 分析软件
(含版本号)
编程工具:
R 3.5.1 Perl 5.26.1
分析工具:
ART 2.5.8 sratoolkit 2.9.4 fastqc SOAPdenovo
Quast 本地blast gffcompare Augustus
1.1.4 数据库资源
NCBI Genome:https://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=341003
NCBI PubMed:https://www.ncbi.nlm.nih.gov/pubmed/
NCBI SRA:https://www.ncbi.nlm.nih.gov/sra/SRX257750[accn]]
UniProt:https://www.uniprot.org
EPD:https://epd.epfl.ch//index.php
1.2 研究对象
物种名称 Saccharomyces cerevisiae YJM320
Genbank Accession Number:GCA_000975885.2
1.3 方法
1.3.0 实验流程图