欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    生物信息学绪论.ppt

    • 资源ID:5016191       资源大小:4.33MB        全文页数:105页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学绪论.ppt

    第一章 生物信息学绪论,金萍南京师范大学比较基因组学与生物信息学实验室,内 容,一、生物信息学定义二、生物信息学的发展历史三、生物信息学的主要研究内容四、生物信息学的研究意义五、生物信息学所用的方法和技术六、生物信息学学习方法七、研究生物信息学的一般步骤八、生物信息学的展望,3,一、生物信息学定义,4,生物信息学(Bioinformatics)名词的由来,八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。,5,生物信息学之父 林华安,Dr.Hwa A.Lim(林华安)1987年提出“Bio-informatique”“Bioinformatics”1955年出生于马来西亚。联合国Bioinformatics专家,University of Texas at Dallas分子与细胞生物学Adjunct Professor、中国科学院基因遗传研究所客座教授。1981年英国伦敦大学帝国学院(Imperial College,London University)毕业,1986年获得美国Rochester University生化物理学博士学位,30岁取得佛罗里达州立大学终生教授。1992年受聘担任美国国家癌症中心及美国国家科学基金会审核委员。1995年后,历任多家生物科技公司生化信息执行长、副总裁等高层管理职位。1997年,创立结合软件与数据分析的专业顾问公司D Trends,服务生物技术、制药及卫生保健等机构。,什么是生物信息学?,7,背景,人类基因组计划(Human Genome Project,HGP):1990年正式启动,旨在完成人类基因组约30亿个碱基的全序列测定。海量生物数据的迅速膨胀:DNA、RNA和蛋白质序列,蛋白质二级结构和三维结构数据,蛋白质相互作用数据等。对大量生物数据的管理、分析和信息化需求促进了生物信息学的迅速发展。,8,生命信息的组织、传递、表达,物理,化学,分子生物学,遗传学,信息技术,各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会科学,生物信息学诞生,9,生物信息学定义的历史演变,定义一:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(Bioinformatics is a new subject of genetic data collection,analysis and dissemination to the research community)。(Dr.Hwa A.Lim,1987)定义二:生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持(Bioinformatics refers to database-like activities,involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time)。(Dr.Hwa A.Lim,1994)定义三:生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe,2001),生物信息学,说文解字:生物+信息+学(bioinformatics)biology+information+theory广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。,11,“生物信息学和计算生物学”计划,NIH于2003年形成了一个通向生命科学未来的“中长期发展规划”-国立卫生研究院路线图(NIHRoadmap)。NIH路线图中启动了一个“生物信息学和计算生物学”计划,希望通过这个项目的实施而铺设一条通向生命科学未来的“信息高速公路”。该项目计划从2004年开始,建立数个“国立生物医学计算中心”,以便开发相关软件和数据管理工具。,12,计算生物学,计算生物学(Computational Biology)是生物学的一个分支。根据美国国家卫生研究所(NIH)的定义,它是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等,用于生物学、行为学和社会群体系统的研究的一门学科。,13,生物信息学与计算生物学区别与联系,有些人将计算生物学作为生物信息学的同义词处理;但是另外一些人认为计算生物学和生物信息学应当被作为不同的条目处理。生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。,14,生物信息学基本思想的产生,生物信息学 的迅速发展,二十世纪50年代,二十世纪80-90年代,生物科学和技术的发展,人类基因组计划的推动,二、生物信息学的发展历史,15,(一)前基因组时代的生物信息学,属于生物物理学范畴的传统生物信息学可以追溯到很久以前,如研究生物发光、生物电、生物磁和激素等信息物质的传递现象及其相应测定技术。以研究序列比对为标志的现代生物信息学则起源于20世纪7080年代。这一阶段的主要成就包括核酸和蛋白质序列的初步分析、生物学数据库的建立以及检索工具的开发。例如Dayhoff的替换矩阵、Neelleman和Wunsch的序列比对(sequence alignment)及GenBank(由美国国立生物技术信息中心建立和维护的核酸与蛋白质序列数据库)等大型数据库的建立,形成了生物信息学的雏形。,16,20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端(序列比对算法)20世纪80年代初期,生物信息分析方法的发展20世纪80年代以后,生物信息服务机构和数据库20世纪90年代后,HGP促进生物信息学的迅速发展,生物信息学的孕育和初步形成,17,1956:美国田纳西州首次召开了“生物学中的理论研讨会”;1962:Zucherkandl和Pauling研究了序列变化与进化的关系,开创了一个新的领域分子进化;1967:Dayhoff研制出蛋白质序列图集,即后来著名的蛋白质信息源PIR;1970:Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;1970:Gibbs和McIntyre发表著名的矩阵打点做图法;1978:Gingeras等人研制了核酸序列中酶切位点识别程序;1981:Smith和Waterman提出了著名的公共子序列识别算法,同年Doolittle提出了关于序列模式的概念;,18,1982:GenBank第3版本正式发行;1983:Wilbur和Lipman发表了数据库相似序列搜索算法;1986:日本核酸序列数据库DDBJ诞生;1986:蛋白质数据库SWISS-PROT诞生;1988:美国国家生物技术信息中心NCBI诞生;1988:成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生;1988:Person和Lipman发表了著名的序列比较算法FASTA;1990:快速相似性序列搜索算法BLAST问世,1987年BLAST的改进版本PSI-BLAST投入使用,19,(二)基因组时代的生物信息学,以基因组计划的实施为标志的基因组时代(1990年至2001年)是生物信息学成为一个较完整的新兴学科并得到高速发展的时期。这一时期生物信息学确立了自身的研究领域和学科特征,成为生命科学的热点学科和重要前沿领域之一。这一阶段的主要成就包括大分子序列以及表达序列标签(expressed sequence tag,EST)数据库的高速发展、BLAST(basic local alignment search tool)和FASTA(fast alignment)等工具软件的研制和相应新算法的提出、基因的寻找与识别、电子克隆(in silico cloning)技术等,大大提高了管理和利用海量数据的能力。,人类基因组计划(HGP,Human Genome Project)目标:整体上破解人类遗传信息的奥秘,由美国NIH和能源部提出和带头,美、英、德、法、日、中共同参与的国际合作项目。重大国际研究项目:测定人类基因组全部DNA序列,构建人类基因组遗传图谱和物理图谱。1990年:正式启动,30亿美元。2001年:人类基因组草图公开发表。2003年:美国宣布该项目完成。,HGP的历史回顾,1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人 类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动,第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996 完成人类基因组计划的遗传作图 启动模式生物基因组计划,H.inf全基因组,Saccharomyces cerevisiae酿酒酵母,Caenorhabditis elegans秀丽线虫,1997 大肠杆菌(E.coli)全基因组测序完成1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序 Celera公司加入,与公共领域竞争 启动水稻基因组计划1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度,大肠杆菌及其全基因组,水稻基因组计划,1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作,Drosophila melanogaster果蝇,Arabidopsis thaliana拟南芥,2001年2月15日Nature封面,2001年2月16日Science封面,2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果,26,我国对人类基因组计划的贡献,28,人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2109个碱基对的序列测定,主要任务包括做图(遗传图谱物理图谱以及转录图谱的绘制)、测序和基因识别,其根本任务是解读和破译生物体的生老病死以及与疾病相关的遗传信息。,29,人类基因组,人类基因组的组成,线粒体基因组(16.6kb),细胞核基因组(3200Mb),基因外序列,基因和基因有关序列,约10%,约90%,专一或中等重复序列,Non-coding DNA,假基因,内含子,基因片段,10%,90%,专一的或低拷贝数序列,中度至高度重复序列,2030%,7080%,分散重复序列,串联重复序列/成簇重复序列,约60%,约40%,蛋白编码基因,rRNA基因,tRNA基因,Coding DNA,估计10万最初公布3.5万目前研究确定2.45万,30,笼统的说,人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。,人类基因组计划的实施意义,引言,HGP带来的科学挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作,发现生物学规律,解读生物遗传密码,认识生命的本质,研究基因组数据之间的关系,分析现有的基因组数据,利用数学模型和计算技术,32,基因组计划带来的科学挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。1、信息的整合2、信息的储存3、信息的比较4、信息的分析5、信息的分解,基因组学,功能基因组学,33,34,生物信息学的研究,结构基因组学时期,35,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1 生物分子数据的收集与管理,36,2 数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,37,3 运用计算机软件进行序列拼接,38,4 基因识别与定位,39,5 基因相关的SNP研究,Single Nucleotide Polymorphisms(SNP),是指在基因组上单个核苷酸的变异,一般而言,SNP 是指变异频率大于1%的单核苷酸变异,40,40,基因变异与疾病,41,与以前的该RILs的重组图谱比较分析,在150个RILs中鉴定出2334个重组框,平均每个框的大小约164 kb利用sliding window方法分析SNP位点与表型间的关系与重组位点,利用全基因组重测序分析表型差异,Sliding window方法,42,6 非编码区信息结构分析,在微生物中,非编码区只占整个基因组序列的10%20;但在高等生物和人类基因组中,非编码序列则占了基因组序列的绝大部分。在人的基因组中,非编码序列超过95%,43,非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,44,6 比较基因组学,比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。,45,比较基因组分析,各类功能基因中氨基酸在物种间差异比例,差异同源蛋白GO分类,进化关系分析,46,7 基因组演化与物种演化(生命之树),47,生物进化谱系树,大鼠、小鼠、狗、大熊猫、牛,家鸡、火鸡,斑马鱼,拟南芥、水稻、杨树、酿酒葡萄、短柄草、黄瓜、高粱、玉米,1535个细菌基因组、49个真菌基因组和78个古细菌,利什曼原虫、椎体虫,四类蓝藻,隐藻,蜜蜂,48,尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。,49,8 基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热 点和重点 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能 所用方法主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法 等表达数据缺点:仅反映mRNA丰度,噪声,,50,蛋白质三维结构测定主要方法:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法,9 蛋白质结构及功能预测,51,基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构,蛋白质结构,52,另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构,53,基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。,10 蛋白质组研究,54,蛋白质组研究,55,1)、诊断类药物:生物芯片设计 遗传病:基因诊断 感染性疾病:抗体、基因芯片、PCR技术,11 药物设计:,56,病人健康人,基因芯片诊断,及早治疗,对症下药,57,2)、预防类药物:计算机辅助疫苗设计 计算机预测抗原表位,58,所谓基因组药物(Genomic drug)是指利用基因序列数据,经生物信息学分析、高通量基因表达、高通量功能筛选和体内外药效研究开发得到的新药候选物 实际上利用了反向生物学的原理沿着从基因序列一蛋白质一功能一药物的途径研制新药,其优势是取自庞大的人类基因资源及其编码蛋白质做为原材料,具有巨大的开发潜力。,3)、开发基因组药物,59,美国的人类基因组科学公司(HGS公司)。根据其1999年2月公布的消息,在功能基因组研究领域,HGS公司己发现95的人类cDNA;克隆了9000个人类分泌蛋白质的全长cDNA;发现了3000个基因的可能医学应用;发现了35个新的白细胞介素类分子和40个新的生长因子类分子;已有3个基因组药物进入临床。,60,4)、寻找药物作用新靶点,基因组比较:抗微生物同源性搜索表达差异分析,61,理想的抗生素靶标应为微生物细胞存活所必须,在病原体中高度保守,且在人体中不存在或与人类基因有根本差异。,基因组研究促进了新靶标的发现:,62,生物信息学和人类基因组计划为药物靶标的发现和新药的研制开创了新天地,未来的药物设计将是基于生物信息学的知识挖掘的过程,通过数据分析首先确立靶标分子,预测蛋白质分子结构,设计药物分子与靶标分子相互作用,63,计算机辅助分子建模,分子三维结构可视化。1982年,Dock程序已成功的有HIV蛋白酶抑制剂、二氢叶酸还原酶抑制剂等,5)、计算机辅助药物设计,64,开发阶段:药物基因组学 减少药物副作用 避免开发风险,65,66,67,(三)后基因组时代的生物信息学,随着人类基因组计划的顺利进行,人类全基因组测序工作已经完成。测序工作的完成并不代表基因组计划的结束,相反标志着“后基因组信息学”的开始。基因组学研究也由结构基因组转向了功能基因组的研究,通过对基因组的分析来了解生物体的功能成为后基因组时代的主要目标。后基因组时代,生物综合论将成为生物学的主流研究方法。人们在网络观点下、在分子相互作用网络水平理解生物学的基本原理。后基因组生物信息学有时也称为功能基因组系统学。功能基因组系统学的出现,是生物信息学领域的一个重大变化,它由主要以整理、储存、分析生物学数据或知识转变为综合多种生物分子及其相互作用的知识来了解生物系统的功能。,68,后基因组研究对象的多层次性,后基因组研究对象是多层次的,人们从包括基因组(Genome)、转录组(Transcriptome)、蛋白质组(Proteome)、相互作用组(Interactome)、定位组(Localizome)、折叠子组(foldome)、代谢组(Metabolome)、表型组(Phenome)等方面,从组的角度研究各类生物学过程。如果说基因组问题涉及遗传图谱(Genetic map)、限制性图谱(Restriction map)和物理图谱(Physical map),那么其它的组学涉及功能图谱(Functional maps)。,69,但现在更加合理的看法是基因组只是细胞中分子之间相互作用的整个网络的一部分。基因组只是细胞指令的大仓库,相互作用网络本身才是那个所谓的指令系统,这个系统遵循固有程序引导发育过程,并产生生殖细胞。后基因组生物信息学是以对一系列生物学知识的综合为特征的,是在网络观点下、在分子网络层次上研究和理解生命的基本规律。,70,功能基因组学发展趋势,功能基因组学发展的一个最新和重要领域是系统生物学(Systems Biology),系统生物学研究问题有如下三个特点:1、更好整合生物过程不同阶段的分散数据如整合基因组、转录组、蛋白质组和代谢组的数据,得到对生物学过程的总体认识。另外一个方面是为了满足整合数据库的复杂查询。2、对复杂生物过程的更好模拟包括蛋白质折叠和复杂系统建模(如信号/代谢通路和发病机理)3、生物过程动态研究从一个通路的成分到一个通路的动力学,71,功能基因组系统学,正如前面所述,在相互作用网络背景下阐释“功能”是功能基因组系统学的一个主要特点。另外一个特点是复杂系统的思想,把生物体看作一个复杂系统进行研究。主要有三个特征:1 多层次数据整合 整合包括基因组、蛋白质组、转录、表达和调控路径等方面数据2 系统的复杂性特点具有复杂系统的自组织、自调控和突变等特点3 信息学分析采用信息学方法对多种数据进行分析是功能基因组系统学的又一特点,72,传统生物学关注的是一个一个的通路,而后基因组生物信息学则希望研究各个通路之间的相互作用,构成一个复杂的相互作用网络,从而从更高的层面上理解生命过程。通俗地说:传统生物学看到的是树木,后基因组生物信息学则看到的是森林。,73,图中显示了基于信息学方法、整合多层次数据在网络层面研究细胞内复杂生物过程的基本思想。,基于知识的网络预测,74,一切从基因组开始“基因组到生命”(GenomestoLife,GTL)计划,75,76,高通量测序在组学中的应用,从头测序,基因组重测序,转录组测序,Small RNA测序,Lister et al.Current Opinion in Plant Biology(2009)12:107,77,78,79,80,分子生物网络的分类,分子生物网络的分类标准基于分子生物学的分类标准。,分子生物网络分类,基因调控网络,信号转导网络,表观遗传调控网络,疾病基因网络,代谢网络,蛋白质互作网络,81,1.信号传导网络,cAMP与蛋白激酶对细胞活性的影响,82,2.基因调控网络,83,3.蛋白质互作网络,人类蛋白质互作网络,84,4.代谢网络,85,86,5.疾病基因网络,87,6.表观遗传调控网络,88,89,90,91,三、生物信息学的主要研究内容,生物信息的存储与查询;序列比对;基因预测及基因组分析;比较基因组与系统发育分析;RNA结构预测;蛋白质结构预测;分子设计与药物设计;生物网络;生物芯片。,生物信息学系统化概图,四、生物信息学的研究意义,生物信息学将是21世纪生物学的核心,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,五、生物信息学所用的方法和技术,1、数学统计方法(高维、样本量的问题)2、动态规划方法 3、机器学习与模式识别技术(从数据中学习)4、数据库技术及数据挖掘 5、人工神经网络技术6、专家系统 7、分子模型化技术8、量子力学和分子力学计算 9、生物分子的计算机模拟10、因特网(Internet)技术(Grid计算)。,95,生物信息学的相关杂志,96,六、生物信息学学习方法,(一)采用多学科交叉的方法来学习 例如,一个生物信息学问题的解决,可能需要在实验生物学充分的实验证据基础之上进行计算生物学的算法与理论推导,加上高效的编程和简明的界面设计才能最终完成。生物学,计算机科学和数学等多个相关学科。,97,(二)以网络作为平台和工具进行学习 例如,大量的序列数据保存在网络的生物信息学服务器中,生物信息数据的提交、发布、提取、查询相关、比对和其他计算等都需要通过网络实现,也可以通过网络共享数据乃至进行生物信息学方面的并行计算,大量生物信息学工具软件、教学课件、参考资料、论坛和新闻组等资源都是存在于网络之中,因此,必须熟练掌握以网络作为平台和工具的方法学习生物信息学。,98,(三)在理论和实践的高度互动中学习 例如蛋白质和核酸序列等生物信息学的研究对象来自于试验研究,而算法则属于理论研究,所以生物信息学属于一门理论性和实践性高度互动的学科,即具有很强的理论性,又具有很强的实践性。因此,需要再理论与实践的高度互动中学习这门科学,不断的在学习中实践、在实践中学习!,99,七、研究生物信息学的一般步骤,1.确立研究的生物学体系。例如:生物芯片数据分析;蛋白质三级结构与功能;2.确定研究的问题。已有哪些计算方面的工作?是否需要实验的支持?3.构建生物学/数学模型,例如:ligand结合位点的预测,构建特异性识别位点的结构模式模型。4.计算方法的选择或开发:HMM,SVM,ANN或新方法。5.计算结果分析,与同类工具做比较。构建相应的数据库/软件/在线网站等。6.扩展及应用:有哪些用处?,100,八、生物信息学的展望,101,诺贝尔奖获得者Gilbert指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。大数据的时代已经到来,巨大的科学数据的积累将导致重大的科学发现。17世纪初,开普勒从其老师第谷手中接过了他穷毕生精力所观测到的多颗天体的运行数据,发现了开普勒三大定律,开普勒也被后人尊称为“天空的立法者”。若干年后,在开普勒三大定律的基础上,牛顿发现了万有引力定律。19世纪中叶,已经发现了63种元素以及测定了大量的数据。这些庞大的资料使俄国化学家门捷列夫终于在1869年发现了元素周期表,为现代化学奠定了基础。第三个例子是20世纪初,氢原子和其它原子光谱数据的大量积累,促使丹麦物理学家玻尔于1913年提出了氢原子的量子理论,为量子力学的建立奠定了基础。历史的经验值得注意。有理由认为,21世纪末生物学数据的大量积累将可导致重大的科学发现。,102,生物信息学研究面临的挑战,103,总结:生物信息学,生物信息学(Bioinformatics)是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)。,104,生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。,谢谢!,

    注意事项

    本文(生物信息学绪论.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开