NCBI站点的一般介绍及其它资源库的介绍.ppt
《NCBI站点的一般介绍及其它资源库的介绍.ppt》由会员分享,可在线阅读,更多相关《NCBI站点的一般介绍及其它资源库的介绍.ppt(44页珍藏版)》请在三一办公上搜索。
1、NCBI站点的一般介绍及其它资源库的介绍,GenBank Overview生物信息学站点地图其它资源库的介绍,什么是GenBank?,GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。,纪录样本,关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。,访问GenBank,通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语
2、来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。,增长统计,参见公布通知的(每个分类的统计),(每个物种的统计),(GenBank增长)小节。,公布通知,最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。旧-同上相同,是过去公布的统计。遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。,向GenBank提交数据,关于提交序列数据
3、,收到accession number,和对纪录作更新的一般信息。BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体),Sequin,提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。
4、,GSSs,基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。HTGs-来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。,STSs 序列标签位点,短的在基因组上可以被唯一操作的序列,用于产生作图位点。注:SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。,国际核苷酸序列数据库合作组织,GenBank,DDBJ,EMBL
5、-合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL(European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。,DDBJ/EMBJ/GenBank特性表(见讲义),特性表格式和标准被合作数据库
6、用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。FTP GenBank and Daily Updates,GenBank普通文件格式,参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。ASN.1格式 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。,FASTA格式,定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括Ge
7、nBank+EMBL+DDBJ+PDB序列,不包括EST,STS,GSS,or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg.Z,sts.Z,和其它文件。,分子数据库概览,核酸序列Entrez核酸 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。,RefSeq,NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs
8、和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。dbEST 表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。dbGSS 基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。,dbSTS,序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。dbSNP 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和
9、微卫星变异。,完整的基因组,参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。疟原虫,UniGene,被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。人类UniGene 小鼠UniGene 大鼠UniGene 斑马鱼UniGene,BLAST,将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面To
10、ols/Sequence相似搜索部分)BLAST 查找BLAST指南,蛋白序列,Entrez蛋白 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept+Swiss-Prot+PIR+RPF+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。,RefSeq,NCBI数据库的参考序列。Curated,非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx,NM_x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NCBI 站点 一般 介绍 及其 资源库
链接地址:https://www.31ppt.com/p-5441230.html