欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第2章 文献信息检索基础ppt课件.ppt

    • 资源ID:2133177       资源大小:1.96MB        全文页数:113页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第2章 文献信息检索基础ppt课件.ppt

    2023/1/15,第二章 文献信息检索基础,第一节 信息、知识、文献、情报第二节 信息资源第三节 信息检索,2023/1/15,知识,信息,第一节 信息、知识、文献、情报,文献,情报,2023/1/15,知识:信息的条理化与系统化则产生了知识。经济合作与发展组织(OCED)出版的以知识为基础的经济报告,把知识分为四种类型:第一类 知事(Know-what)、(Know-when)、(Know-where)第二类 知因(Know-why)第三类 知道怎样做的知识(Know-how)第四类 谁以及是怎样创造知识的(Know-who)情报:专业的知识,2023/1/15,文献的定义中华人民共和国国家标准文献著录总则(GB3792.1-83):文献:记录知识的一切载体。文献情报术语国际标准(草案)(ISO/DIS5127):“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存贮在磁盘上。这种附着在各种载体上的记录统称为文献。”,2023/1/15,信息、知识、文献、情报的结构关系图,专业的知识,记录下来的知识,系统化的信息,有组织的数据,信息的原材料,情报,文献,知识,信息,数据,客观事物本身的运动,2023/1/15,信息、知识、文献、情报之间的关系1)包含关系 信息包含知识,知识包含情报。2)转化关系 文献是记录有知识的载体,当文献中记录的知识传递给用户,并为用户所利用时,就转化为情报。3)交叉关系 情报虽大多来自文献,但也可能来自口头和实物,所以情报与文献存在交叉关系。,2023/1/15,第二节 信息资源,1、信息资源的概念信息资源,顾名思义,就是信息的来源。在信息资源中,文献信息资源是主体。,文献信息源,非文献信息源,印刷型,电子型,口头型,实物型,信息资源,2023/1/15,2、文献信息源的分类,按文献的载体形式划分(纸质或电子文献)按文献加工的级别划分(四次文献);按文献的发布形式划分(十大文献信息源),2023/1/15,文献信息源的分类 1 按物质载体和记录形式划分,1)印刷型(Printed form)以纸张为载体2)缩微型(Microform)以感光材料为载体3)声像型(Audio-Visual form)以声像记录材料为载体4)电子型(Machine Readable form)以计算机信息存储设备为载体,2023/1/15,按文献的级别,一次文献,二次文献,三次文献,零次文献,文献信息源的分类 2 按加工级别划分,2023/1/15,(1)零次文献未正式发表的口头、书面或电子形式的科技文献,也称为“半文献”。如私人笔记、文章草稿、实验记录会议记录、书信文稿及各种内部档案等。,2023/1/15,(2)一次文献 即原始文献。*作者以自己的研究成果为基础创作或撰写的文献;*对知识的第一次加工;具有创造性;如:图书、期刊论文、科技报告、会议论文、专利说明书、技术标准以及学位论文等公开发表的文献,都属于一次文献。,2023/1/15,(3)二次文献*对一次文献进行加工整理而成的具有报道和检 索作用的文献;*对知识的第二次加工;有序化;提供一次文献 线索;*目录、题录、文摘等检索工具。,2023/1/15,理解几个二次文献:目录(书目):系统积累和提供出版物的名称、收藏单位及索取号的检索工具,常常用于查找出版物的出版单位和收藏地点。(如:图书、期刊的馆藏目录)题录:以文献题名组织文献信息的一类检索工具。(以单篇论文为单位,检索其外表特征,如文献题名、著者姓名、文献出处等)文摘:在题录的基础之上,增加文献信息的内容摘要的一类检索工具。是系统报道、积累和检索文献信息的重要检索工具,是二次文献的核心。索引:将文献中具有检索意义的事项(可以是人名、地名、词语、概念、或其他事项)按照一定方式有序编排起来,以供检索的数据库。,2023/1/15,2023/1/15,2023/1/15,2023/1/15,2023/1/15,(4)三次文献 利用二次文献,选择有关的一次文献再加以分析、综合而编写出来的第三个层次的文献形式专题报告、综述、进展以及手册、百科全书、年鉴等工具书,这就是三次文献。三次文献具有系统性、综合性、知识性和概括性的特点,它从一次文献中汲取重要内容提供给人们,便于他们高效率地了解某一领域的状况、动态、发展趋势和有关情况。,2023/1/15,从检索的角度来看:,一次文献是检索的对象(目标)二次文献是检索的工具(手段)三次文献是情报研究的成果(检索目标+检索手段),2023/1/15,按出版形式的不同,1 图 书,2 连续出版物,3 特种文献,3.会议文献4.专利文献5.标准文献6.学位论文7.产品样本8.技术档案 9.科技报告 10.政府出版物,期刊*报纸*年报、年鉴等*,文献信息源的分类 3 按出版形式划分(十大文献信息源),2023/1/15,1.图书,按照联合国教科文组织的定义,图书是指49页以上的以印刷方式单本刊行的出版物。包括专著、汇编本、多卷本、丛书等。优点:图书的内容全面系统,基础理论性强,论点成熟可靠。缺点:图书的撰写、编辑、出版所需要的时间较长,传递信息速度慢。(1)阅读用书(2)参考工具书 如中国大百科全书(3)检索用书 如四库全书,表1-1,2023/1/15,国际标准书号(ISBN)(前缀号、地域号、出版社代码、书序号、校验码),2023/1/15,国际标准书号英文全称为International Standard Book Number(简称ISBN)(P29)2007年之前,国际标准书号由十位数字组成。分为四段(组号、出版者号、书序号、校验码)。由2007年1月1日起,国际标准书号由10位增至13位数字,即在现有的10位书号前面加上“978”以转换为新的13位格式。例如:ISBN 978-7-5019-5191-8,转换后的13位书号与国际条形码编码(EAN-UCC)系统接轨。,2023/1/15,校验码的计算:用1分别乘ISBN的前12位中的奇数位,用3乘以偶数位,加权取和以10为模,得到校验位的值,其值范围应该为0-9.假设某图书13位ISBN号码是:987-7-30904-547-3;计算加权和S:S918371733103910341534173=117;计算S10的余数M:M=117mod10=7;计算10M的差N:N=107=3(如果10M的值为10则校验码取0)所以,本书的13位ISBN的校验码是3。,2023/1/15,2.期刊,期刊也称杂志,是“一种以印刷形式或其他形式逐次刊行的,通常有数字或年月顺序编号,并打算无限期地连续出版下去的出版物”1)形式特征 有相对固定的名称和版式、有连续出版的时间顺序标识即出版年、月、卷、期号。2)内容特征(1)内容新颖,能及时反映最新研究成果和动态。(2)信息量大,发行与流通面广,便于获取。(3)按期连续出版,便于研究者长期跟踪研究。,图1-1,2023/1/15,3)类型期刊按其性质和用途不同,可分为:(1)学术性与技术性期刊 主要刊登科学研究和生产方面的学术论文、研究报告、会议论文、实验报告等原始文献。(2)检索性期刊 以期刊的形式出版的专供人们用于查找文献线索的一类刊物。(3)其他期刊 包括快报性刊物、资料性刊物等。,2023/1/15,国际标准连续出版物号():是International Standard Serial Number的简称,是ISDS(国际连续出版物数据系统)国际中心为在该系统登记的连续出版物分配的号码。采用ISSN编码系统的出版物有:期刊、会议录等。国际标准连续出版物号由以“”为前缀的位数字(两段位数字,中间以一连字符“”相接)组成。如ISSN 10007490国内连续出版物号 CN11-1762/G3,2023/1/15,报纸,1)定义 以刊载新闻和评论为主的出版周期较短的定期连续性出版物。2)特点 传递信息快,信息量大,现实感强,传播面广,具有群众性和通俗性,是重要的社会舆论工具和情报源。3)分类 按出版发行周期分为:日报、双日报、周报等 按内容分为:时事政治类、科技类、商业类、文教类等。,2023/1/15,3.专利,专利是专利制度的产物,广义上是指所有与专利有关的资料。狭义上的专利文献仅指专利说明书 内容特征:内容新颖、技术性强、实用性强并具有法律效力等特点。它是寓技术、法律和经济于一体的带有启发性的一种重要文献信息。,图1-2,2023/1/15,4.标准,标准又称为规范1)形式特征 标准编号(标准号)是由“标准代号+顺序号+年代号”组成。2)内容特征(1)法律约束力(2)从技术的新颖程度看,当前的标准往往是5年前最新的专利。也有少数专利很快成为标准。,GB 7907-87(核桃丰产与坚果品质)标准名称 标准发布年号 标准顺序号标准代号,2023/1/15,3)类型(1)按照使用范围划分 中华人民共和国标准化法将我国标准分为国家标准、行业标准、地方标准、企业标准四级。【实例】标准号“GB/T 15310.3-1994”表示1994年的国家推荐性标准。(2)按照内容特点划分 方法标准【实例】GB/T 19497-2004 农业车辆牵引车上钩型机械连接装置试验方法和要求。术语标准【实例】GB/T 167861997 术语工作 计算机应用 数据类目,2023/1/15,5.学位论文,学位论文是高等院校或研究机构的学生为获取某种学位而撰写的学术论文。按学位的不同分为学士论文、硕士论文和博士论文。内容特征(1)内容比较系统和完整(2)学术性和独创性(3)保密性,2023/1/15,6.科技报告,科技报告是指某项科研成果的立项报告、中试报告、中期阶段性报告、结题报告,或鉴定报告,是关于某项研究的阶段性进展总结报告或研究成果的正式报告。1)形式特征一般不是正式出版物,每件报告单独成册,有机构名称和统一的编号。2)内容特征 内容较为成熟,专深具体,2023/1/15,7.会议文献,会议文献是指在各种学术会议上发表的论文、报告及其他有关资料。1)形式特征(1)图书形式(2)期刊形式(3)科技报告形式:部分会议论文被编入科技报告。(4)视听资料形式:在开会期间进行录音、录象,会后以视听资料的形式发表 2)内容特征 内容新颖,及时性强;学术水平高,专业性强,可靠性高.,2023/1/15,8.产品样本资料,产品样本资料是指厂商或贸易机构为宣传和推销其产品而印发的免费赠给消费者的资料。1)内容特征(1)形象直观(2)数据较为可靠2)类型(1)根据出版形式划分(2)根据其内容划分,2023/1/15,9.技术档案,技术档案是指在生产或科研活动中形成的有具体工程和研究对象的技术文件的总称。【实例】福建省科技档案馆的一个档案的简要资料是:中亚热带常绿阔叶林生态采伐作业系统研究 时间:2005年9月8日 来源:科技档案馆 主要完成单位:福建农林大学 主要完成人员:周新年、邱仁辉、杨玉盛、游明兴、潘仁钊 省级成果登记号:20010074 1、主要内容 选择皆伐作业的5种集材方式与采伐强度为30%的择伐作业,进行土壤理性质指标变化程度的比较。经主成分分析得出不同采伐、集材方式对林地土壤理化性质的干扰程度,并作出科学排序。2、技术特点(1)前期准备充裕,文献资料翔实,研究基础坚实。(2)研究路线正确可靠。(3)充分利用已建立的长期定位基地,将其研究成果迅速大力推广。3、在国内外相关领域的作用、影响发表论文56篇,其中一篇被EI收录,26篇被其它国际权威文献收录,被国内外同行引用66次。产生间接经济效益6000万元。,第1章绪论,2023/1/15,10.政府出版物,政府出版物是指政府部门及其所属机构所颁发出版的文献。1)内容特征 政府出版物对于了解某国的科技、经济等方面的政策和事件有一定参考价值。2)类型(1)行政性文件(2)科技文件,2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,一、信息检索的概念、意义、类型,信息检索(Information Retrieval,Information Search)即将信息按照一定的方式组织和存储起来。并根据信息用户的需要查找出特定信息的技术和过程。广义的信息检索包括信息的存储和信息的检索。狭义的信息检索:信息的有序化识别和查找的过程。职能:存储、检索,2023/1/15,信息检索与利用的意义,与时俱进,跟踪学术最新动态 节省科研时间,提高工作效率 避免重复研究 搞科技创新更要检索文献 挖掘分析文献制定高明的市场谋略,第1章绪论,2023/1/15,【案例】,日本是如何推理出大庆油田机密的?1.大庆油田的位置。2.大庆油田的规模。3.大庆油田的加工能力。4.提前设计适合中国专用的石油设备。启示:,2023/1/15,信息检索的类型按信息检索的对象划分:,文献检索,数据检索,事实检索,以文献为对象的一种检索活动。凡是查找某个题目的有关文献以及回答这些文献的情况、出处、收藏地点等等,均属于文献检索的范畴。,以数据为对象的检索,如查找数学公式、数据图表、某一材料的成分、性能等,是一种确定性检索。,是以特定的事实为检索对象。事实内容包括大量的科学事件和社会事件。,2023/1/15,三种类型的区别 数据检索关于“量”的方面的检索,是一种确定性检索。事实检索关于“质”的方面的检索,是一种确定性检索。文献检索是一种相关性的检索,具有不确定性,是这三种检索形式中,使用最广、效果最大、最重要的一种。,2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,信息检索原理,检索提问式,信息的选择与收集,信息特征,标识语言,检索工具匹配,检索结果,信息源,用户,信息需求,检索提问,数据库,2023/1/15,狭义的信息检索_一个匹配(Match)过程。即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。,2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,信息检索语言,1.信息检索语言的定义:为建立信息检索系统而创建专门用来描述信息特征(内容特征或外表特征)和表达检索提问的一种人工语言,又称为信息存储与检索语言、标引语言、索引语言等。信息检索语言是为检索的需要而创制的符号系统,用以对文献和信息的内容特征或外部特征及其相互关系进行标引的标识体系。,2023/1/15,2.作用保证不同标引人员表征信息特征的一致性;保证检索提问和文献标引的一致性;保证检索结果和检索要求的一致性;对内容相同或相关的信息,加以集中或揭示,表述其相关性;便于对大量信息加以系统化或组织有序化。,2023/1/15,3.信息检索语言的类型,检索标识系统,描述文献外部特征,描述文献内容特征,责任者(著、译、编者等).责任者途径,题名(书名、篇名等)题名途径,文献代码(标准号、专利号等)代码途径,引用文献引文途径,出版日期、出版地其他途径,自然语言标识关键词,人工语言标识,主题研究对象标识系统,标题词,叙词,单元词,主题语言,学科分类号系统分类语言,分子式、结构式索引其他途径,2023/1/15,3.1 分类检索语言介绍 分类检索语言是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系。,2023/1/15,我国主要分类法介绍:1.中国图书馆分类法(简称中图法)2.中国科学院图书馆图书分类法(简称科图法)3.中国人民大学图书馆图书分类法(简称人大法)目前我们一般使用的是中国图书馆图书分类法(中图法)国外主要分类法:杜威十进分类法(简称 DDC)国际十进分类法(简称UDC)美国国会图书馆图书分类法(简称LC),2023/1/15,中国图书馆图书分类法(中图法)分5大部类22大类,类号采用汉语拼音字母与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。,2023/1/15,2023/1/15,T工业技术TB一般工业技术TB1工程基础科学TB11工程数学TB111数论与代数的应用TB112数学分析与函数的应用TB113几何的应用TB114概率论、数理统计的应用TB114.1运筹学的应用TB114.2工程控制论TB114.3可靠性理论TB115计算数学的应用TB12工程力学TB121工程静力学TB122工程动力学TB123工程振动学TB124变形体工程力学TB125工程塑性力学、工程弹性力学TB126工程流体力学,2023/1/15,用规范化的人工符号-字母、数字和语词表示这些类目,就构成分类表,类号和类名就是分类检索语言。T工业技术TH机械、仪表工业 TH12机械设计、计算与制图 TH126 机械制图 TH128 机械模型,2023/1/15,用规范化的人工符号-字母、数字和语词表示这些类目,就构成分类表,类号和类名就是分类检索语言。T工业技术 TN无线电电子学、电信技术 TN3半导体技术 TN31半导体二极管,2023/1/15,用规范化的人工符号-字母、数字和语词表示这些类目,就构成分类表,类号和类名就是分类检索语言。T工业技术TU建筑科学 TU2建筑设计 TU24民用建筑 TU241居住建筑,2023/1/15,2023/1/15,2023/1/15,2023/1/15,索书号,索书号是图书馆赋予每一种馆藏图书的号码。这种号码具有一定结构并带有特定的意义。在馆藏系统中,每种索书号是唯一的,可以准确地确定馆藏图书在书架上的排列位置,是读者查找图书必要的代码信息。索书号由两部分组成:分类号/种次号。如:英语写作规范的索书号315/1486数字信号处理的索书号TN911.72/1110信息检索与利用的索书号G252.7/1129,2023/1/15,3.2 主题检索语言介绍 主题语言是以代表文献内容特征和科学概念的概念词作为检索标识,按字顺编排的检索语言。主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。,2023/1/15,(1)标题词语言最早使用的一种主题语言。它以规范化的自然语言作为标识,来表达文献涉及的主题概念。(2)单元词语言是从文献内容中抽选出来的不可再分割的概念单元的词,作为单独标引文献的单位。(3)叙词语言汉语中也称主题词法,是以规范化的叙词(主题词)对文献内容进行描述的检索语言。我国的汉语主题词表,就是一部大型的叙词表。(4)关键词语言直接从文献题名、文摘或正文中抽取出来的未经规范化处理的词。是一种用自然语言做标识的检索语言。目前因特网上的搜索引擎和数据库检索基本上都是关键词检索机制。,2023/1/15,如何选择关键词 选择有实质性意义的词汇例如:检索“词汇的动态与词汇规范研究”这一课题,应选择 词汇 动态 规范 这三个有实质性意义的词 列举出所有同义词、近义词,防止漏检。例如:微型计算机 微机 微电脑 个人计算机 个人电脑(同义词)多元文化-文化多元化(近义词)学生-学员(近义词),2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,信息检索途径(检索点),书名途径 title著者途径 author序号途径 code,coden(专利号、标准号、索书号)分类途径 classification主题途径 subject,2023/1/15,信息检索的方法可归纳为3种:追溯法、常用法和分段法.(1)追溯法(引文法):指从已有的文献后所列参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩检的检索方法。已知文献 参考文献 参考文献的 原文 参考文献 原文(2)常用法:利用检索工具来查找文献的方法。可分为:倒查法、顺查法和抽查法.(3)分段法:是上述两种方法的结合,也称为循环法或交替法.,2023/1/15,常用的信息检索工具,搜索引擎(学术搜索引擎)图书馆联机公共查询目录文摘型数据库全文数据库(电子图书、电子期刊、专利、标准、学位论文、会议文献)数据与事实型数据库常用门户网站,2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,信息检索技术,信息检索技术,是指利用现代信息检索系统检索信息而采用的相关技术。常用的有:布尔逻辑检索技术 截词检索技术 位置检索技术 限定检索技术 短语或词组检索 精确与模糊检索 加权检索,2023/1/15,1.布尔逻辑检索技术 采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索提问式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:逻辑“与”、逻辑“或”、逻辑“非”,2023/1/15,(1)逻辑“与”逻辑“与”(用and 或*表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为“A and B”或“A*B”。如:Color and Television,表示要检索“Color Television”,2023/1/15,(2)逻辑“或”逻辑“或”(用or或“+”表示)是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为:“A or B”或“A+B”。如:Gear or Gearwheel表示要检索“Gear”或“Gearwheel”的结果。,2023/1/15,(3)逻辑“非”逻辑“非”(用“not”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A not B”或“A-B”。如:Energy not Nuclear,表示要检索“Energy”但排除了“Energy Nuclear”的结果。,2023/1/15,布尔算符的优先级,优先级为not,and,or,运算符两侧必须各有一个空格(半角)。逻辑非(-)最高,逻辑与(*)次之,逻辑或(+)最低。可以用()改变优先级 例如,(A or D)and B,(A+D)*B表示先执行“A or D”的检索,再与B进行and 运算。,2023/1/15,运算符号制定检索策略要尽量使检索词简短合理使用逻辑算符号,提高检索效率逻辑“与”:提高查准率;逻辑“或”:提高查全率;逻辑“非”:提高查准率。,2023/1/15,2.截词检索技术 是指在检索词的适当位置截断,用截断的词的一个局部进行的检索,不同的检索系统其截词检索的表示是不同的。常用的截词符有?、等,表示有限截断和无限截断。后截断,前方一致。如:Compu*可检出computer,computers,computing等检索词的文献;前截断,后方一致。如:*history可检出prehistory,post history,history等检索词的文献.中截断,中间一致。如:m*n可检出manmen等检索词的文献.,2023/1/15,使用截词的目的是提高文献的查全率。截词检索在有些数据库中也称为模糊检索,截词符、模糊字符和通配符的含义都是基本相的。合理使用截词符主要注意以下几个问题:第一,截词的长度要适合,不能太短,否则会使检索结果过多。例如,electro*将检索出含有electron,electronic,electrostatic等的文献,如果写成elec*就可能检索出许多意思完全不相关的文献。,2023/1/15,第二,要考虑到有一些特殊单词,它的词性、单复数或其它变化不一定体现在词的末尾,这时就要充分考虑使用词首截词或词中截词。如:*conductors 将检索出conductors,semiconductors等dr*v*将检索出drive drove driver driving 等colo*r 将检索出color 或colour,2023/1/15,3.位置检索技术 位置检索也叫邻近检索。是把词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。(N)算符Near(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。(nN)算符n Near(nN)表示此算符两侧的检索词之间允许间隔最多n 个词,且两者的顺序可以颠倒。如:library(N)digital,检索结果为:library digital,或digital library.Econom*(2N)recovery:Econom*of the recovery,2023/1/15,4.限定检索技术限定检索技术包括:字段限定检索 二次检索 范围限定检索目的:提高检索效率和查准率。,2023/1/15,字段限定检索,在命令式检索中,通常要用字段代码来限定检索的字段,不同的数据库使用的字段代码略有不同。以维普中文科技期刊库为例,字段标识为:A=作者,M=题名或关键词,K=关键词,J=刊名,T=题名,R=文摘,例:K=信息检索*J=大学图书馆学报 A=(王博+李新)*K=信息检索 CNKI直接用字段名称标识,如:题名=计算机 and 机构海南大学,2023/1/15,二次检索:用户一次检索的检索结果中可能会遇到某些数据是不需要的,这说明检索条件限制过宽,这时就可以考虑采用二次检索。二次检索是在一次检索的检索结果中运用“与、或、非”进行再限制检索,其目的是缩小检索范围,最终得到期望的检索结果。,2023/1/15,5.短语或词组检索,短语或词组检索是指命中记录包含与所输入的检索词完全一致的词组或短语。可使用双引号(“”)进行词组检索。如“computer network”、“数字图书馆”、“上海世博会”,2023/1/15,6.精确匹配和模糊检索,不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。“前方一致”属于模糊检索的一种。如在作者字段中输入“刘开?”便可查到作者“刘开”、“刘开扬”、“刘开强”的文章。又如以关键词为检索途径,输入“经济?”,便可查到“经济”、“经济法”、“经济学”、“经济预测”、“经济效益审计”等等。,2023/1/15,第三节 信息检索,一、信息检索的概念、意义、类型二、信息检索原理三、信息检索语言四、信息检索途径、方法、工具五、信息检索技术 六、信息检索的一般程序七、信息检索效果的评价,2023/1/15,信息检索的一般程序 广义上的检索策略,就是在分析检索提问的基础上,确定检索的数据库、检索的用词,并明确检索词之间的逻辑关系和查找步骤,所作出的正确、恰当的检索方案。狭义上的检索策略,就是指构建检索表达式。即检索用词与各运算符的组配成的表达式。,2023/1/15,信息检索的一般程序1.分析检索课题 2.选择检索系统和数据库 3.确定检索词 4.构建检索提问式 5.上机检索并调整检索策略 6.输出检索结果,2023/1/15,1.分析检索课题(1)弄清信息需求的目的和意图。(2)分析课题涉及的学科范围、主题要求。(3)课题所需信息的内容及其特征。(4)课题所需信息的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等。(5)课题对查新、查准、查全的指标要求。,2023/1/15,2.选择检索系统和数据库考虑以下几个方面:(1)数据库收录的信息内容所涉及的学科范围;(2)数据库收录的文献类型、数量、时间范围以及更新周期;(3)数据库所提供的检索途径、检索功能和服务方式。,2023/1/15,3.确定检索词 检索词是表达信息需求和检索课题内容的基本单元,选择恰当与否,会直接影响检索效果。检索词包括主题、作者、分类、号码等。检索词的选择与确定要注意:根据检索课题所涉及的学科专业和技术内容选词;根据检索目的选词。考虑相应的同义词。对同一事物,人们对其有不同的称呼和表达,如“计算机”又称“电脑”、“图形图像与图形图象。要用逻辑或进行检索,如(图形图像 or 图形图象)。上位词、下位词:检索词有上位词下位词之分。不同外来词译定的变化:“aspirin”、“阿斯匹林”,“阿司匹林”,“乙酰水杨酸”。缩写和中外文:如在CNKI中,用世界贸易组织检出875条数据,而用“世界贸易组织 or 世贸 or WTO”检出27337 条数据。,2023/1/15,注意事项:1、检索词尽可能使用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌将整个题名输入到检索框中。,2023/1/15,检索词的选择,要提炼关键的、核心的词作为检索词 去掉意义太泛或“无所谓有”的词 例1:网络数据库的安全性研究 关键词1:网络数据库 研究对象 关键词2:安全研究目的 而意义太泛的词“研究”不应作为检索词,2023/1/15,例2 基于代理技术的网络入侵检测关键词1:(网络)入侵检测,但入侵检测一般即指网络中的入侵检测,意义重复,网络可不要关键词2:代理(技术),在入侵检测中使用“代理”,“代理”本身就是指的一项技术,因而也可不要,2023/1/15,4.构建检索提问式(1)使用逻辑“与”算符可以缩小命中范围,起到缩检的作用,得到的检索结果专指性强,查准率也就高。(2)使用逻辑“或”算符可以扩大命中范围,得到更多的检索结果,起到扩检的作用,查全率也就高。(3)使用“非”算符可以缩小命中范围,得到更切题的检索效果,也可以提高查准率,但是使用时要慎重,以免把一些相关信息漏掉。另外,在构建检索提问式时,还要注意位置算符、截词符等的使用方法,及各个检索项的限定要求及输入次序等。,2023/1/15,例:检索华东理工大学教师以外的科研人员撰写的有关磁流体密封的文献 检索表达式:关键词=(磁流体 and(密封 or 泄漏))not 机构=(华东理工大学),2023/1/15,5.上机检索并调整检索策略 检索结果信息量过少(1)选全同义词与相关词并用逻辑“或”将它们连接起来,增加网罗度;(2)减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;(3)去除某些字段限制;,2023/1/15,漏检:如忽略了同义词,或同一个词的多种表达,有可能造成漏检 同义词:自行车单车 脚踏车 airplane aircraft plane避免漏检的方法:1)将同义词等列出来,然后用布尔逻辑运算符or将其连接起来 如:齿轮箱K=(gear box+gear case)2)专有名词的固定表达:PDM(positive displacement motor)螺杆 DP(Drill pipe 钻杆)钻杆 3)中英文混用:网络数据库web数据库,2023/1/15,有时不需要精确匹配,意思匹配即可 如:安全 安全机制 安全性 安全模型 安全系统 所以在选择检索词时,只需“安全”即可,2023/1/15,又如:智能机器人控制系统的研究 控制 控制系统 控制理论 控制方法 控制器 所以将“控制”作为检索词即可,2023/1/15,5.上机检索并调整检索策略 检索结果信息量过多(1)减少同义词与同族相关词;(2)增加限制概念,采用逻辑“与”连接检索词;(3)使用字段限定,将检索词限定在某个或某些字段范围,限制输出结果的文献类型、语种、出版国家;(4)使用逻辑“非”算符,排除无关概念;,2023/1/15,误检:如一词多义或虚假匹配时,有可能造成误检 如:cell细胞;电池 代理 销售代理、业务代理、代理人、代理技术,2023/1/15,课题:检索有关网络数据库的安全性研究的文献检索式1:T=(网络+web)*k=(数据库*安全)检索更全面,会包括如“基于网络的”,“网络中数据库”,但也可能会包括一些和课题无关的文章,如“数据库 网络链接”检索结果:25篇检索式2:T=(网络数据库+web数据库)*k=安全 检索更准确,一定是关于网络数据库的内容,但会漏掉一些相关文章 检索结果:17篇,2023/1/15,3.11 信息检索效果的评价为了说明与衡量检索效率,在文献检索理论中常使用查全率、查准率、漏检率、误检率四个指标。,2023/1/15,n 收录文献总量 x 相关文献量 w检出相关文献量 m检出文献量,查全率=检出的相关文献数与系统中相关文献总数之比=W/X查准率=检出的相关文献数与检出的文献总数之比=W/M漏检率=1-查全率误检率=1-查准率,一般来说,查全率与查准率是呈负相关的关系。应当根据具体课题的要求,合理调节查全率和查准率。,2023/1/15,影响检索效果的因素,查全率与查准率是评价检索效果的两项重要指标。它们与信息资源的存储与检索两个方面是直接相关的,即与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。,2023/1/15,1影响查全率的因素从信息存储来看,主要有:检索系统收录文献范围有限;索引功能不完善;词汇缺乏控制和专指性;词间关系模糊或不正确;标引前后不一致或标引人员遗漏了原文的重要概念或用词不当等。从信息检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练;不能全面地描述检索要求等。,2023/1/15,2.影响查准率的因素 影响查准率的因素主要有:检索系统不具备逻辑“非”功能和二次检索功能;检索式中使用逻辑“或”不当;索引词不能准确描述信息主题和检索要求;选词及词间关系不正确;标引过于详尽;组配规则不严或组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索式中允许容纳的词数量有限;截词部位不当等等。,2023/1/15,3.提高检索效果的措施:(1)采用提高查全率的措施(2)采用提高查准率的措施(3)选择合适的检索系统(4)提高用户使用检索系统的能力,2023/1/15,总结:信息检索是从已存储的信息资源中检索出与用户提问相关的文献、知识、事实、数据的逻辑运算和技术操作过程的总和,以文献检索为本源。是从大量集合的文献中查找出主题及其属性符合用户要求的情报过程。查找的对象不一定就是文献,有时也可能是正在研究中的项目,或正进行某项工作的人员与机构,或图书馆的藏书目录。课题的检索选用哪一种方法,要根据具体情况而定。一是根据课题研究的需要,二是视所能利用的检索工具和检索手段。,2023/1/15,纸上得来终觉浅,绝知此事要躬行!,

    注意事项

    本文(第2章 文献信息检索基础ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开