欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第二章信息检索的基本原理ppt课件.ppt

    • 资源ID:1929902       资源大小:2.20MB        全文页数:83页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第二章信息检索的基本原理ppt课件.ppt

    QQ群:186097216,目 录,第一节 信息检索的涵义及类型,第二节 信息与信息源,第三节 信息检索方法与步骤,第四节 信息检索效果的评价,4,1,2,3,第一节 信息检索的涵义及类型,信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。即对信息集合与需求的匹配与选择。,信息检索的类型根据信息检索对象形式不同,分为:,信息检索的类型根据信息储存媒体和检索手段不同,分为:,信息检索的类型 根据信息检索信息形式不同,分为:,检索的作用,1.与时俱进,跟踪所关注问题的最新动态2.节省查找信息的时间,提高学习或工作效率3.知识创新需要检索信息,避免重复研究走弯路,找什么?,怎么找?,怎么利用?,信息资源的类型(类型、特点、作用),检索原理与技术(检索原理、方法和途径;常用数据库介绍、网上资源检索、特种文献检索等),分析、组织、管理,信息检索,第二节 信息与信息源,信息论的奠基人,美国数学家克劳德香农(Claude E. Shannon):“信息是用来消除不确定性的东西。”,控制论的创始人,美国科学家维纳(N. Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。”,中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。”,一、信息,(一)什么是信息? (Information),(一)什么是信息“信息是事物运动的状态与方式,是物质的一种属性。”“信息”是我们的一个生存环境,吸收信息的内容和层次决定所处水平和层次,吸收与获得信息的层次越高越准确,则思考方式就越准确,找到问题的解决方案也就越准确,获得的物质与精神报酬就越来越高。,信息爆炸,信息的使用周期越来越短,可以进行加工和处理,必须依附于一定的载体才能流通和传递,是实现信息资源共享的基础,可被多个用户使用,信息,可被感知、获取、传递和利用,(二)信息的特征,二、信息源,信息源,顾名思义,就是信息的来源。联合国教科文组织出版的文献术语将其定义为:个人为满足其信息需要而获得信息的来源。表达方式潜在信息资源-在认识和创造过程中储存在大脑中的信息资 源,不具有广泛传播和长久保存的能力,不 能被他人利用现实信息资源-表达后能为他人利用的资源,口语信息资源-讲演体语信息资源-舞蹈实物信息资源-文物文献信息资源-文字,第二节:信息源的主要类型,1、根据载体形式划分2、按结构等级(文献的加工程度)划分3、根据编辑出版形式划分,1、 根据载体形式划分,印刷型,缩微型,机读型,视听型,图 书,连续出版物,资 料,缩微平片,缩微胶卷,缩微胶片,磁带、磁盘,光 盘,联机网络版,录音带、录像带,唱片、幻灯片,电影胶卷,信息等级,2、按加工处理的深度划分,零次信息:普通网页,电子邮件等一次信息:以作者本人的生产和科研工作为依据而创作的原始信息。如正式在期刊上发表的论文、专著等。二次信息:将分散无序的一次信息进行加工整理后,使之成为系统有序的信息。如数据库中的题录、目录、搜索引擎等。 三次信息:根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、文献综述、进展报告等。,零次信息,未正式发表的口头、书面或电子形式的文献,也称为“半文献”。如私人笔记、文章草稿、会议记录、书信文稿及各种内部档案等。,网上零次信息,对应于网上信息资源,属于零次信息范畴的有:E-mail、BBS、QQ、NEWSgroup以及非专业权威网站上发布的信息等等。,零次信息的特点,数量多,内容新,更具有启发性;信息反馈迅速、及时、准确;具有高度选择性和针对性;有限性和不可靠性,要特别提防虚假信息。,一次信息(多指一次文献),一次文献通常是指发表在正式出版的书刊上的的文献,一次文献通常是以作者自己的研究成果、工作经验和实践体会为原始依据而形成的,这类文献中包含有大量的最新信息。,一次文献的特点,内容比较具体、丰富,具有新颖性、创造性、系统性等特点;经过权威机构筛选,科学性基本有保证;可以回溯检索,不像新闻那样有时效性;由于数量巨大,往往检索困难。一般都是首先检索二次文献后,再去查阅一次文献。另外网上一次文献资源相对较少。,二次信息,是对一次文献加工、提炼和浓缩而成。 是将分散、无序的信息转变成有序的、便于管理的系统。 包括目录、题录、文摘和索引等检索工具,可对一次文献进行报道和线索指引。 对应于网上信息资源,属于二次信息范畴的有题录数据库、网上图书馆目录等等。,二次信息的特点,具有浓缩性、汇集性、有序性等特点,检索方便,网上二次信息资源丰富;除网上图书馆目录可以免费获取外,大型数据库的检索一般均须付费;受加工和出版周期的影响,一般二次信息比一次文献要晚一段时间。,三次信息源,用科学方法和专业知识对一次文献和二次文献进行汇集、综合、分析、详述等深度加工而形成的。它包括手册、百科全书、年鉴、名录、指南等参考工具书。还有二次书目、指南以及综述性、评论性文献都属三次文献范畴。,三次文献的特点,权威性强,一般读一篇综述即可了解某一领域某段时间的全部发展情况,对科研指导性强;资源相对稀少,没有专门的三次文献数据库,一般分散在二次文献数据库中,或字典、词典、辞典、百科全书、专题目录、数据手册等工具书中加工和出版周期更长,甚至可能比二次文献还晚数年。,一次信息,二次信息,三次信息,期刊论文,会议论文,科技报告,专利说明书,学位论文,标 准,目 录,文 摘,索 引,百科全书,手 册,年 鉴,词 典,综 述,述 评,记录,知识的产生,传播,信息的利用,某些数据库,信息级别示意图,几点启示,1、使用搜索引擎得到的零次文献较多,但这绝不是无用的文献,要善于从零次文献中获取有用信息,作为获取一次文献的线索。2、写作论文必须依据一次和三次文献。著录格式则必须按二次文献的格式写作。3、检索信息主要靠二次文献,因此,熟悉二次文献的著录格式和检索点非常重要。4、三次文献是“关于文献的文献”,是最难写作的文献类型。论文文献综述恰恰属于此类。,.根据信息源的编辑出版形式划分,图 书,连续出版物,特种文献,普通图书,工具书,期刊型书籍,报 纸,期 刊,科技报告,专利文献,学位论文,标准规范,政府出版物,产品资料,会议文献,小结:十大信息源,(1)科技图书 (6)科技报告 (2)科技期刊 (7)政府出版物 (3)会议文献 (8)标准文献 (4)专利文献 (9)科技档案 (5)学位论文 (10)产品样本,特种文献,第三节 信息检索途径与步骤,(一)信息检索的途径1、文献外部特征的检索途径(1)责任者途径(著者姓名途径)(2)题名途径(书名途径)(3)文献类型途径(4)代码途径(序号途径) 以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。,常用文献类型用单字母标识,具体如下:,(1)期刊J(journal) (2)专著M(monograph) (3)论文集C(collected papers) (4)学位论文D(dissertation) (5)专利P(patent) (6)技术标准S(standardization) (7)报纸N(newspaper article) (8)科技报告R(report),各种文献的识别要素、特点与主要用途对比,各种文献的识别要素、特点与主要用途对比,国际通行的出版物代码,由13位阿拉伯数字组成,ISBN号具有专指性,唯一代表某种书的某一版本,2007年1月1日起正式使用13位ISBN号。,前缀号:国际物品编码协会( ENA)为图书分配的商品代码。目前使用978,预留979。组号:组号是国家、地区、语言或其他组织集团的代号。由国际书号中心(International ISBN agency)负责分配。中国组号为一位数字“7”。 出版社号:由国家标准书号中心负责分配,其位数视申请出版社图书出版量多少而异。 书序号:由出版社负责管理分配,每个出版社所出各种图书的序号校验号:是校验ISBN编号是否合法。,978-7-118-05497-2,前缀号,例:国际标准书号,(一)信息检索的途径,2、文献内容特征的检索途径(1)分类途径 是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一般检索系统均提供数据库所使用的分类表的分类号索引。如:中国图书馆分类法(2)主题途径 是根据表达文献主题内容的主题词及其派生出的关键词为标识查找文献信息的途径。(3)分类主题途径 是分类途径与主题途径的结合,能够尽量避免两者的不足,取其多长。(4)其他检索途径 出处途径 时间途径 任意词途径 专门术语途径,分类途径,描述文献内容特征,分类语言,主题语言,描述文献外部特征,著者,出版事项,代码/序号,标题词语言,自然语言,叙词语言,关键词语言,题名,检索语言,A 马克思主义、列宁主义、毛泽东思想、邓小平理论,B 哲学、宗教,C 社会科学总论D 政治、法律E 军 事F 经 济G 文化、科学、 教育、体育H 语言、文字I 文 学J 艺 术K 历史、地理,N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学,Z 综合性图书,社 会 科 学,自 然 科 学,中图法(知识分类),(二)计算机检索技术,1、布尔逻辑检索 是应用布尔逻辑代数的原理设计的、应用于计算机信息检索系统的一种主流检索技术与方法。三种类型: 逻辑与( AND) 逻辑或( OR ) 逻辑非( NOT ),布尔逻辑检索,1) 逻辑“与”运算符:AND 或 *检索式: A AND B或A*B含 义:检出的信息中必须同时含有“A”和“B”两个检索词。提高检准率,增强检索专指性。,例:逻辑与(AND或*),计算机在图书馆的应用,计算机,图书馆,计算机 AND 图书馆,人类活动对群落多样性的影响 检索概念: 人类活动 群落多样性 影响 检索式 人类活动 AND 群落多样性 人类活动 AND 群落多样性 AND 影响,人类活动 AND 群落多样性 AND 影响,布尔逻辑检索,2)逻辑“或”运算符:OR 或 +检索式: A OR B或A+B含 义: 数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。提高检全率,扩大检索范围如:“微机+电脑+PC机” “微机or电脑orPC机”,布尔逻辑检索,3)逻辑“非”运算符:NOT 或 检索式: A NOT B或A B在含检索词A的记录中,去掉含检索词B的记录例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米-甜玉米例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内,布尔逻辑检索,布尔逻辑运算符的运算顺序,优先级高,优先级低,截词检索,2、截词检索 截词检索是在词干的不同位置添加截词符,以此代表词的可变部位,从而减少相同词干的检索词的输入数量,是提高检全率的一种常用检索方法。 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。 在不同的检索系统里用不同的符号,一般为:*、?、!提高查全率,防止漏检的有力手段,截词检索,1) 按截词的数量划分有限截断:即一个截词符只代表0或1个字符。 如:apple? 可检出apple、applet等结果无限截断:一个截词符可代表多个字符。 如: comput! 可检出:computer、computers,computering等结果注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。,截词检索,2)按截词的位置划分,1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断,1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索,1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字符串的检索;3.实质:后截断是前方一致检索,后截断,前截断,中截断,截词检索,后截断主要使用于如下几种情况: 检索词的单复数的描述; 如:book? 同根词的表达;如:chemi*可以检索出chemical、 chemistry、chemist等同根词 年代的表达;如:20?(21世纪),199?(20世纪90年代) 作者如:Moyer*可以检索出所有姓Moyer的作者,截词检索,前截断:又称左截断,截词符在词的左边如:输入 *computer检索结果microcomputerminicomputer,截词检索,中截断:截词符在检索词的中间输入: organi ? ation检索结果organizationorganisation中截断主要使用于如下几种情况: 检索词的拼写方式存在美式、英式之分; 检索词在某个元音位置出现的单复数不同;如:man与men作用扩大检索范围,提高检全率,减少检索词的输入量,位置检索,3、位置检索 (1)词级位置检索指在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。 位置算符 包括(W)、(N)算符,表示检索词之间的顺序关系 (W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。 例:?S solar( )energy (nw):表示两个词之间可插入n个词,且词序不可颠倒。 例:? S solar(3w)energy(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。 例:?S fiber(N)optic (nN)表示两个词之间最多可插入n个词,词序任意。 例:?S fiber(4N)optic,位置检索,(2)子字段级或自然句级算符,用于限定检索词出现在同一子字段或自然句中,用(S)表示,S为subfield或sentence的缩写,表示其两侧的检索词必须出现在同一子字段中,即一个句子或一个短语中。 例如:rapid(S)transit,即rapid与transit在同一个子字段或一个句子中,位置检索,(3)字段级算符字段级算符用于限定检索词出现在数据库记录中的某个字段。算符用(F)表示,F为field的缩写。例如:air (F)pollution, 表示air与pollution必须在同一字段中出现。,讨论:,1、查询高波教授的文章。 发表(作者)、指导(导师)2、检索关于研究老舍的论文。 输入“老舍”时必须选择途径为“标题”或“关键词”3、研究“法律与经济和政治的关系”的课题。 检索的信息是法律与经济和法律与政治之间的关系,因此“经济”与“政治”的关系是逻辑“或”,不是“与”,检索式“法律(经济+政治)”比“法律经济政治”检索的范围大得多。,二、信息检索的步骤,1. 信息需求分析,2. 选择检索工具(或数据库)与检索手段,3. 确定检索途径与拟定检索式,4. 实施试检索操作,5. 检索结果的评价与获取原始文献,1. 信息需求分析,只有对信息需求真正了解,才能获得正确的检索结果。需求分析是在问题及其最终解决方案之间架设桥梁的第一步。分析清楚需求间的逻辑关系包括因果关系、依赖关系、主次关系等,需求优先级的排列,就能探索出描述这些需求的多种解决方案 。,信息需求所涉及的通用问题,信息需求差异,每个人的知识结构、所处环境和面临的问题都有所不同,由此而产生的信息需求也千差万别的。即使面对同一课题,不同身份的人需求的内容也不相同。在学术研究过程中,研究人员在课题设计、课题实验(试验)、成果发表、论文写作等不同阶段的信息需求也会不同,信息需求类型和文献类型的对应关系,2. 检索流程,检索流程是从确立信息需求到信息需求满足的全过程。对于不同的检索系统、不同的课题、不同的用户来说,其具体检索流程有所不同。通用信息检索流程一般包括:分析检索课题、选择检索工具、确定检索策略、调整检索策略及获取原始文献等流程,(1)分析检索课题,进行信息需求分析,课题分析确定检索主题确定检索的范围:地理、时间段、文献类型等预期所需文献信息数量, 分析课题的主题内容 分析课题的主题内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。 确定检索时间范围 根据课题研究的起始年代和研究的高峰期确定检索的时间范围。, 确定课题的文献类型 通过对课题进行主题分析后,确定所需信息的文献类型。 如果属于基础理论性探讨,要侧重于查找期刊论文、会议论文。 如果是尖端技术,应侧重于科技报告。 如属于发明创造,技术革新,则应侧重于专利文献。 如为产品定型设计,则需利用标准文献及产品样本。 明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。, 分析用户的检索评价要求 分析用户对检索评介指标是查新、查准还是查全。 一般来说,若要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字, 若要解决研究中某具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字; 若要撰写综述、述评或专著等,强调一个“全”字。, 分析用户的检索是否有特殊要求是否对特定的研究机构感兴趣? 是否对特定的作者的研究感兴趣? 是否有特定的出版机构的文献与你的研究主题 相关?其它?,(2)选择检索工具,掌握数据库资源所覆盖的学科范围掌握各种数据收录文献的类型查看数据库的详细介绍和说明请教图书馆员要求介绍检索的最佳数据库,从内容上和时间上,考虑检索工具对课题的覆盖和一致性,比如就综合考虑数据库收录的齐全、编制的质量、使用的方便等因素。在手段上和技术上,有机检条件一般就不选择手检工具,机检无疑有较高的效率。考虑价格和可获性,选择手工容易获得的检索工具,注意数据库的价格,权衡价格效益比。,(3)确定检索策略,根据待查课题的已知条件、课题检索的深度,以及检索工具本身可能提供的检索途径,选择检索途径、建立检索式并实施检索。,(4)调整检索策略,检索调整的基本目的,就是为了提高检索结果与用户需求的一致度。(这里的需求既可以是用户开始检索时明确表达的需求,也可以是检索过程中的动态需求)。如果检索结果过多或者过少甚至为零,就需要根据命中文献量的多少、命中文献的切题情况等,来决定是扩大检索范围还是缩小检索范围。,不满意 非目标性结果,检查检索词的拼写 检查检索词的准确性-查阅词典、字典、词表,删除错误名词 调查被检索的数据库 数据库说明、期刊列表确定是否覆盖你所需要检索的主题,扩大检索范围可采用以下方法:(1)降低检索词的专指度,可选一些上位词或相关词补充到检索式;(2)减少检索词,删去某个不甚重要的检索词;(3)进行族性检索,可用分类号或采用一组近义词、同义词或相关词用OR连接;(4)进行截词检索,可以采用后截断、前截断、前后截断等方法(5)增加检索途径,如将主题途径与非主题途径结合起来使用(6)取消限制过严的前后缀符、限制符。,缩小检索范围入手可采用以下方法:(1)提高检索式的专指度,增加或换用下位词或子概念或专指度较强的自由词;(2)逐步缩小检索途径的检索范围:全文主题文摘关键词题名;(3)有些数据库还能限定期刊范围:全部期刊重要期刊核心期刊。(4)用AND连接一些进一步限定主题概念的相关检索项;(5)用位置算符控制检索词的词间顺序与位置;(6)增加检索途径例如文献类型、语种、地理范围、年代范围、作者或号码作为限定。(7)利用NOT限制与提问不相关的文献的输出;(8)使用精确运算符,或选择精确匹配(中文库),满 意,是否获得全部所需? 打印、Email或存档 是否需要获取全文 ? 连接全文连接;图书馆期刊、资料;原文传递服务,(5)获取原始文献,利用全文数据库直接获取利用文献传递系统获取中国国家科技图书文献中心(简称NSTL) (http:/,第四节 检索效果评价,信息检索效果是利用检索系统进行检索所产生的有效结果。检索效果评价是根据一定指标,对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。,1、 查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 检准率(P)=检出切题文献数量/检出文献总量 100% 2、查全率:它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度 查全率(R)=检出切题文献数量/数据库或检索工具中存贮的切题文献数量 100%,查全率和查准率的一个计算例子,例: 设某检索系统的数据库中共有相关文献20篇。针对某一个提问,检出文献总数为30篇,其中相关文献数为15篇。求查全率R、查准率P。结论:查全率较高,但是查准率较低,关于查全率和查准率的讨论,“宁可错杀一千,不可放过一人” 偏重查全率,忽视查准率。冤杀太多。 判断是否有罪:如果没有证据证明你无罪,那么判定你有罪。查全率高,有些人受冤枉如果没有证据证明你有罪,那么判定你无罪。,查准率低,有些人逍遥法外,思考题,1.什么是信息检索?简述其划分方式。2.信息是什么?简述其特征。3.掌握计算机信息检索的技术与方法。4.假设某查询,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档。求查全率R、查准率P。5. 如何提高信息检索效果?,

    注意事项

    本文(第二章信息检索的基本原理ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开