欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息检索(西交大 工程硕士)ppt课件.ppt

    • 资源ID:1402028       资源大小:2.75MB        全文页数:194页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索(西交大 工程硕士)ppt课件.ppt

    信息检索,主讲:陈建兵,信息检索的威力 美国普林斯顿大学物理系一个年轻大学生名叫约瀚菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。,信息检索的威力,20世纪70年代,美国核专家泰勒收到一份题为制造核弹的方法的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。” 但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。,信息检索的威力,美国在实施“阿波罗登月计划”中,对阿波罗飞船燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。 在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40、民间占47、国家研究机构占40,平均重复率在40以上;我国的重复率则更高。,原始社会占有更多的生活资料奴隶社会占有更多的奴隶封建社会占有更多的土地资本主义社会占有更多的生产资料当今社会占有更多的信息,人类社会各时期富有的象征,科学研究的特点,科学研究和科技发展的最大特点是连续性和继承性。科学研究的这两大特点使科学研究几乎离不开记录科技活动的科技文献和信息,可以说没有科技信息就没有科学技术的发展。,信息爆炸与信息检索 信息爆炸是由于现代科技的特点造成的,高速发展、大规模、高集成度,边缘学科、交叉学科、横断学科层出不穷,新的成果从出现到应用的时间间隔越来越短等等,使得人们获取和利用有用信息越来越困难。 美国著名未来学家阿尔文托夫勒曾经在20世纪80年代初期提出:面对“第三次浪潮”文明的冲击,每个人都要自觉地扫除三种文盲,即文字文盲、计算机文盲和传播媒介文盲。当时互联网还没有出现,他指的传播媒介仍然是传统意义上的传媒。而今天人们已经能够很容易通过互联网来传播自己的观点。,信息爆炸: A 导致文献量急剧增加; B 文献分布异常分散; C 文献寿命越来越短 吸收信息的能力不高: 由于条件限制,人们吸收和利用情报的能力并未得到相应的提高。由于信息不灵科研项目的重复率大大高于世界发达国家。90年代中期以前,至少有40在国外已取得了研究成果。,9,信息素养(Information Literacy)的概念于1974年由美国信息产业协会主席保罗泽考斯基提出,是信息时代人才培养模式中出现的一个新概念,已引起了世界各国越来越广泛的重视。,信息素养,定义为“知道何时需要信息,并已具有检索、评价和有效使用所需信息的能力”,已成为评价人才综合素质的一项重要指标。,10,信息素养内容,信息能力 信息挑选与获取能力 信息免疫与批判能力 信息处理与保存能力 创造性的信息应用能力,信息意识: 信息第一意识 信息抢先意识 信息忧患意识 再学习和终身学习意识,信息品质 较高的情商 积极向上的生活态度 善于与他人合作的精神 自觉维护社会秩序和公益事业的精神,一、信息、知识、文献,某海军陆战队在原始森林进行为时一个月左右的生存实验,具体要求如下:第一,每个队员除了身上穿的衣服外,随身只能带三件物品,每件物品不能超过二公斤;第二,队员都是由飞机空降到半径为1000公里原始森林的中心地带,要求在一个月时间内从森林里走出来。问题:队员带哪三件物品合适?,理想的答案:钢刀、火石、指南针 钢刀能获取猎物;火石可以取火;指南针可以指明方向。人类要在世界上生存与发展要获取物质、能量、信息三大要素。对于物质跟能量大家比较好理解,对于但是对于信息与人类的关系,大家就比较难解了。上面例子中的指南针就是我们获取信息的一种工具,有了它,陆战队员们就可以用它获取走出原始森林的方向,没有它,可能一辈子都走出原始森林。而指南针向指的方向就是一种信息,即方向信息和方位信息。,信息(information)的定义,辞海 “信息,消息。” 韦氏字典(美国):“信息是用以通信的事实,是在观察中得到的数据、新闻和知识”。 信息论创始人香侬(C.E.Sannon)认为:“信息是用来消除随机不确定性的东西”。 法国物理学家布里渊(LBrillouin)认为:信息是原材料,知识是思维对信息的加工的产物 甘仞初在管理信息系统中把事物之间相互联系、相互作用的状态的描述,称为信息。,信息的定义,目前大多数学者接受的定义是:“信息具有物质属性,是物质的存在方式及运动的规律和特点的表征,是事物及其现象的内外特征、相互联系及作用的反映。”,信息的特征,(1)客观性地震,海啸,花草树林的发芽、生长和枯萎,广播电视、网络的新闻、广告等等发出的信息,不管你知道不知道,感知不感知,它都是客观存在。只要有物质存在,就有信息的存在。因此,信息是客观存在的,不以人们的意志为转移的。它是现实世界中各种事物运动与状态的反映,它可以被人们所感知、处理、存储和使用。它的客观性还表现在反映客观世界变化的信息包含在各种物质之中。,(2)时效性,朝鲜战争与兰德咨询公司故事 在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜” 。其主题词只有7个字,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行了一场错误的战争”。一直到前些年,美国政府检讨当年决策错误时,向兰德公司付了一大笔款,表示对科学预测的重新估价与信服。很明显,如果美国政府当年尊重科学预测,相信中共会出兵,他是决不敢冒这个险的,那朝鲜历史将重新改写,抗美援朝也就不存在了。 由上例可以看出信息是具有较强时效性的。客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。,(3)传递性,大庆油田产量失密事件1960年王进喜被冠之以“铁人”的称号以后,国内的各大报纸对他都有了相关的报道。谁想到被狡猾的日本人嗅出蛛丝马迹,竟从中了解了大庆油田开采的一些情况。日本人发现,王进喜原来的工作地点是甘肃玉门油田,1959年10月参加国庆观礼后他就销声匿迹了,由此推断大庆开发时间应该为1959年9月;1966年7月,中国画报曾刊载王铁人头戴厚厚瓜皮帽的照片,凭着对中国地理的熟知,日本人很快就推断出王进喜的工作地应该在零下30度的东北地区;还根据运原油的列车上灰尘的厚度,测算出了油田与北京的距离,断定油田应在哈尔滨与齐齐哈尔之间;10月份,人民中国也刊登出宣传王进喜的文章,在其中透出一个“马家窑”的地理信息,日本人便由此推出大庆在安达车站附近。据称,日本人通过精细、准确的情报对大庆油田进行了成功调查,后来几乎垄断了我国石油设备进口市场。,从上例中可以看出,大庆油田的信息是刊载在人民画报等这些公开发行的报刊杂志上的,而日本人正是利用这些公开的报纸、杂志分析中我国大庆油田的产量和设备需求,获取了最高的经济利益。在本例中,大庆石油信息从国内报刊杂志社这一信息的发源地通过人民画报等报刊杂志这些载体,传到了日本人的手里,经过他们的分析、处理后,加以运用,获取了高额的经济利益。信息的传递性是指任何信息只有从信源出发,经过信息载体传递才能被信宿接受并进行处理和运用。也就是说,信息可以在时间上或空间上从一点移动到另一点,可以通过语言、动作、文字、通信、电子计算机等各种渠道和媒介传播。,(4)共享性,英国剧作家萧伯纳说:你我是朋友,各拿一个苹果,彼此交换,交换后仍然是个有一个苹果。倘若你有一种思想,彼此交流思想,那么我们每个人就有两种思想了。,同一内容的信息可以在同一时间或不同时间里被多个信息用户使用。一条信息被用户吸收和利用并不影响信息的本身和被其他用户的反复使用,各用户分享的份额也不会因为分享的人的多少而受影响。正如萧伯纳所举的“苹果与思想”的例子,苹果交换以后双方仍然各自仅有一个苹果,但信息交换以后双方都有了两种信息。信息共享性是推动社会交流的原动力。,(5)中介性,人们看柳树发芽,就知道春天来了,看到天上乌云滚滚,就知道要下雨了,这就是这些自然世界发出的信息。信息是介于物质世界和精神世界之间的过渡状态的东西,是人们认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知过程本身就是一个以信息为中介的信息运动过程。人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程。,信息的类型,信息类型可根据不同的角度来分1从产生信息的客体的性质来分,可分为:自然信息:瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化;生物信息:生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流);机器信息:自动控制系统内信号、指令等;社会信息:社会信息就是指人与人之间交流的信息,既包括通过手势、身体、眼神所传达的非语义信息,也包括用语言、文字、图表等描述一切对人类社会运动变化状态的语义信息。按照人类活动领域,社会信息又可分为科技信息、经济信息、政治信息、军事信息、文化信息等。,按载体形式划分,印刷型信息缩微型信息声像型信息电子型信息,按载体形式划分,印刷型信息 又称为书本型信息,是以纸张为主要载体,以印刷为记录手段的传统信息形式,如图书、期刊、报纸等。优点是阅读、携带、利用方便;缺点是信息存储密度小、体积大、分量重、收藏和管理困难。,按载体形式划分,缩微型信息 是一种以缩微胶片为载体,利用缩微摄影技术为记录手段而产生的信息形式,其优点是体积小、存储密度高、保存期长,缺点是需要配备专用的缩微阅读机才能阅读。,按载体形式划分,声像型信息 声像型信息又称为视听型文献,这是一种以磁性或光学材料为存储介质,借助特殊的机械装置直接把图像和声音记录的一种信息形式,如唱片、录音带、电影拷贝、幻灯片等。它记录的对象主要不是文字,而是富有动感的声音和图像。,按载体形式划分,电子型信息 指以数字代码方式将图、文、声、像等信息存储到磁、光、电介质上并通过计算机阅读的信息形式。如各种电子图书、电子期刊、联机数据库、网络数据库、网络新闻、光盘数据库等。其特点是存储量大,出版周期短,传递迅速,可以融文本、图像、声音等多媒体信息于一体,易复制,共享性好。,按信息级别划分,为便于利用信息,信息工作者将信息加工处理为不同等级: 次信息 通过交流、实物获得信息。真实、直观,但难以积累和管理。 一次信息 以作者本人的生产和科研工作为依据而创作的原始信息。如专著、期刊论文、学术论文等。 二次信息 将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。 如书目、文摘、搜索引擎的搜索结果等。 三次信息 根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、综述、述评、字词典等。,一次信息,二次信息,三次信息,期刊论文,会议论文,科技报告,专利说明书,学位论文,标 准,目 录,文 摘,搜索引擎,百科全书,手 册,年 鉴,词 典,综 述,述 评,记录,知识的产生,传播,信息的利用,信息级别示意图,某些数据库,从一次信息到二次信息、三次信息,是对知识与信息进行创造、有序化和高度浓缩、提炼、再创造的过程,也是知识与信息从无序到有序的结构化、系统化的过程。概括地说,零次信息是一次信息的素材;一次信息是信息的基本形式,是检索的对象;二次信息对一次信息的加工处理,是检索一次信息的工具;三次信息则是对一次信息与二次信息分析研究的成果。 在查找信息的具体过程中,一般是先对相关的三次信息和二次信息进行分析与研究,找到有关的三次信息和二次信息的线索,再利用线索调取所需要的一次信息,同时可通过一次信息后列出的参考文献(又称引用文献),进一步扩大阅读范围,以找到有实用价值的文献。在馆藏量较大的图书、信息研究机构,采用这种查找方法尤为便捷。因为在茫茫书海里,获取某方面的文献仅凭一本一本地去找,即使查到一些文献也是随机的、偶然的、不系统的、不完整的。利用二次信息和三次信息来控制与组织一次文献便可克服上述问题。,知识(Knowledge) 知识是人类认识的成果和结果,人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,然后经过大脑的思维活动进行加工处理,这种加工处理后的信息就是知识。,知识,知识是人们在改造客观世界的实践中所获得的认识和经验的总和。它包括感性知识和理性知识人脑通过对客观事物发出的信息的接受、选择和处理,得到对事物一般特征的认识,形成了感性认识,即感性知识;在反复的实践和认识过程中,人脑通过对感性知识的判断、推理和综合,加深了对事物本质的认识,形成了理性认识;即理性知识。人们是用自身的器官大脑来感知信息,储存信息,通过大脑对信息的加工形成知识。可见,知识是信息的一部分。,知识和文献,文献(Document/Literature)中华人民共和国国家标准文献著录总则中给文献下的定义是: 文献是记录有知识的一切载体。具体说是用文字、图形、符号等技术手段记录人类知识的一切物质载体。,文献的四要素信息内容:是文献所表达的思想意识、知识信息的涵义和内容。信息符号:是揭示和表达知识、信息内容的标识符号,是物化和标识文献信息内容的工具。现代文献采用的信息符号有:文字、图形、编码、声频、视频等。载体材料:是承载文献信息符号,从而使信息内容有所依附并便于传播交流的物质材料。载体材料一般可分为纸型和非纸型两大类。纸型是以纸张为载体;非纸型的载体材料很多,如甲骨、金石、捐帛、竹木、贝叶、兽皮、胶片、磁带、磁盘、光盘等。记录方式:是指将包含信息内容的信息符号存储到载体材料上去的方式。加书写、雕刻、打字、印刷、拍摄、录制、复印和计算机录入等。,信息知识文献,信息、知识和文献的关系图,十大情报源,所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。 a.科技图书:是对某专门知识或某学科进行系统的论述或概括的一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。 b.科技期刊(periodical):又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advances in .(进展)等。ii.快报型。Communication(通讯)、letters(通讯)、bulletin等。iii.消息性(newsy journals)。news(新闻)、news letters等。iv.资料性(data journals)。data、event等。科技期刊是最重要的一类文献来源。,c.科技报告,报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构 可以说,报告是一种典型的机关团体出版物,常用的报告名称有: 科技报告按按报告的形式可分为:report(报告书),technical notes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technical translations(技术译丛),special publications(特种出版物)。 按研究的进展情况分:primary report(初步报告),progress report(进展报告), interrim report(中间报告),final report(中间报告)。 科技报告与其它文献的显著不同为根据科研水平的高低,科技报告分为若干密级,如top secret(绝密)、secret(秘密)、confidential(保密)、restricted(非密限制发行)、unclassified(公开)、declassified(解密)。,d.会议文献:是指学术会议文献,它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议类型大致可分为国际会议、全国性会议及地区会议等。会议和会议文献常用的主要名称有conference(大会)、meeting(小型会议)、symposium(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。e.专利文献:在实行专利制度的国家,凡是本国或外国的个人和企业有了创造发明,都可以根据专利法的规定,向本国或外国专利局提出申请,经审查合格,批准授予在一定年限内享有创造发明成果的权利,并在法律上受到保护,这样一种受到法律保护的技术专有权利叫做专利。专利是与产业活动密切相关的,因而其实用性非常强。 根据专利的技术水平和应用情况,其类型有invention(发明)、utility patent(实用新型)、和design patent(外观设计)等。,f.标准文献,标准化主要包括三个方面:.产品标准化,即产品质量要符合技术规定;.产品规格化和系列化,即产品按型号大小来分档,成系列的发展,从而保证以较少的品种来满足广泛的要求;.零部件通用化,即同类机型零部件,特别是易损件要做到最大限度的通用互换性。 经过公认权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的标准化工作成果,就是标准文献。,g.学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文。博士学位论文中,常含有独创性的学术性文献资料。h.产品资料:一般是指品样本,即产品说明书。好的产品说明书含有丰富的内容,包括产品规格、产品特点、产品专利号等多种对生产有用的信息。I.技术档案:是指在生产建设中和科技部门的技术活动中形成的,有一定的工程对象的技术文件的总称。j.科技报纸:一些专门刊登科技类文献的报纸对了解当前的学科前沿和水平以及科学新闻很有益处。,二、信息检索,信息检索的涵义广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,所以它的全称又叫“信息的存储与检索”。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询。完整的信息检索概念包括两项工作: (1)信息存储过程,即搜集、筛选、整理、积累现有信息及检索工具,建立信息检索系统; (2)信息检索过程,即利用信息检索工具查找所需要的信息。,检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。,检索原理图示,信息检索的原理,、信息的外部特征(客观特征)、信息的内部特征(主题、分类)、信息的存储过程、信息的检索过程(查找图书、衣物,车站接人),信息检索的意义,避免重复研究或走弯路节省研究人员或用户的时间是获取新知识的捷径,知识有两类,一类是我们自己知道的,另一类是我们在什么地方可以找到-塞缪尔.约翰逊,信息检索语言,: 信息检索语言的含义 信息检索语言是用来表达信息概念的一种人工语言,它是根据信息组织和检索需要所编制的特殊标识,是存储信息、组织信息和检索信息的符号。,:信息检索语言的功能 沟通“信息源”与“检索”的桥梁和纽带; 标引、组织和编排信息,形成各种信息检索工具或检索系统; 利用检索语言将信息从检索工具或检索系统中查检出来,:信息检索语言的分类 信息检索语言根据描述对象分类有两大类 第一类:描述文献内容特征 学科分类(学科专业角度入手,但无法反映新兴学科) 主题(从表达主题的信息概念入手,但不能满足族性检索)分类主题 第二类:描述文献外部特征 题名 著者 出版者 其他,分类语言和主题语言,分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。 主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。,人工语言 (规范语言) 和自然语言(非规范语言),artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。,信息检索工具,:信息检索工具的含义 系统汇集某一学科或各门学科的相关知识,按照一定的体例和排检方法编排,提供查阅、征引和解答各种问题的一种文献。,:信息检索工具的功能 可以提供读书目录提示,告诉你读什么书。 提供所需信息的线索,快捷得到研究资料。,:信息检索工具的分类 第一类:指示型检索工具 书目 索引 文摘 检索工具指南 第二类:参考型检索工具 字典、词典 百科全书 类书、政书 年鉴、手册 名录 表谱,信息检索系统 含义满足信息用户的信息需求而建立的拥有特定存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(Information Retrieval System,简称IRS)。信息检索系统基本要素检索者检索工具信息资料,信息检索系统的体系结构,信息组织和检索系统,比较/匹配,检索流程,组织流程,存贮1:概述/搜索请求,存贮2:信息的表示,信息检索语言、工具、系统三者的关系信息检索语言检索者与信息源的“沟通”的桥梁和中介信息检索工具检索者检索需求信息的依赖手段信息检索系统检索活动的整体特征描述与区分(人、工具、信息源),信息检索系统类型:以信息存储和检索所设备和手段划分手工信息检索系统: 书本式检索系统 卡片式检索系统 计算机信息检索系统:计算机光盘检索系统 计算机联机检索系统 计算机网络检索系统,信息检索类型,:按揭示信息内容的程度划分: 题录 目录 索引 文摘 全文,信息检索的类型,:按存贮和检索的内容划分 文献检索 数据检索 事实检索 图像检索,信息检索的类型,以检索内容划分,信息检索类型,:按检索系统中信息的组织方式划分 全文检索 多媒体检索 超媒体检索,三个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段,信息检索的发展历程,手工信息检索阶段,正规的参考咨询工作是由美国公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。,机械信息检索两种基本类型机电信息检索系统光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。,机械信息检索阶段,计算机信息检索,1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。,信息检索技术两个发展方向:传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力;信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。,信息检索策略,信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检全率和检准率。检全率() (漏检率)检准率()(误检率),信息检索效率的评价,检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。,查全率 R(Recall ratio)查准率 P(precision ratio),检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。,检全率与检准率的互逆相互曲线,检索策略的受制因素与策略选择 (1)以检全为目标的检索策略的调节与控制; (2)以检准为目标的检索策略的调节与控制; (3)以最小投入为目标的检索策略的调节与控制。,信息检索的程序,:分析研究信息检索课题 明确信息检索课题所涉及的领域和范围;明确所需信息的内容及其内容特征;明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构等;明确信息检索课题对查新、查准和查全的指标要求。,:选择信息检索工具 信息检索工具是人们为了充分、准确、有效地利用已有的信息资源。 根据研究问题和信息资源特点选择适当的检索工具。,:确定信息检索方法 每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。 常用的信息检索方法 顺查法 倒查法 抽查法 追溯法 循环法,:掌握获取原始信息的线索 在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。,:获取原始信息 判断文献的出版类型:根据文献出处中已有的信息,判断其出版类型。整理文献出处:将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。尽可能多渠道、多方式地获取原始信息。,手工信息检索的技术与方法,(1)手工信息检索工具 目录:图书或其他单独出版物规律化、系统化的记载 索引:把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具文摘:把文献资料的主要内容,由有一定水平和经验的编者将其准确、简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具年鉴:以描述和统计的方式逐年提供某年度某一领域信息的工具书手册:汇集某一学科领域或业务部门专门知识的工具书百科全书:荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书,(2)手工信息检索工具的排检技术 字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。分类排检技术:将信息素材按学科或事物性质系统地加以排列。 主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。 时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。地序排检技术:按一定时期的行政区域来排列信息素材的技术。 ,(3)手工信息检索方法顺查法:一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。 倒查法:一种逆时间顺序由近而远地查找信息的方法。 抽查法:一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。追溯法:又叫回溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法。 循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。,机械信息检索的技术与方法,机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。 光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型: 寻址检索方式 编码检索方式,计算机信息检索的技术与方法,(1)联机信息检索 :联机检索的特点信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。 优点:检索速度快;检索范围广而全面;检索途径多、质量高;检索内容新、实时性强;检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。缺陷:主机负担重,一旦出现故障,则整个网络都将瘫痪;信息组织方式以线性为主,不够灵活;联机检索不像Internet是面向最终用户的,操作也没有后者方便。,:联机信息检索系统 由检索服务机构、国际通讯网络及终端三部分构成。联机检索的技术原理:计算机联机完成数据的收集、分析、加工处理、存储、传递通信和检索信息的全过程。 联机信息检索的服务方式 a、定题信息提供 b、专题回溯检索 c、联机订购原文 d、电子邮件,(2)光盘信息检索 :光盘检索的特点使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输所造成的失误;光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式;光盘存贮容量大、耐用、复制费用低;可以把文本、图形、图像、声音及动态形象结合在一起;如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制;在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供;数据库费用大。,:光盘信息检索方法光盘检索系统的功能和指令与联机检索没有很大区别,但更方便。功能键:Help(帮助)、Index(索引)、History(查阅历史)、Display(显示)、Print(打印)、Select Database(选择数据库)、Format Window(格式窗)、Quit(退出)等 检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。 用户可以在任何时刻回顾其查找的历史,重新使用或修改以前的任何提问。 屏幕帮助是光盘数据库最常用也是重要的功能之一。,(3)网络信息检索 :特点 信息量更大; 需要处理各种不同的语言(大多是自然语言); 信息检索的范围更宽(多学科、多领域); 信息查询的时效性要求更高; 检全率较高,而检准率较低。,:网络信息检索模式 广义:从根本上解决有效利用网络信息资源问题的关键 如何对网络上的海量多态信息进行组织,如何对这些信息建立索引,如何对索引及时更新; 如何设计检索算法以使检索提问在检全、检准、响应时间、检索结果控制与显示方面表现良好; 如何为用户设计一个简单易用的友好界面 狭义:在现实世界中有效利用网络资源的核心 只是以网络(如互联网)为媒介,利用网上已提供的一些信息检索工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索查询的一种方法与技术。,:搜索引擎(Search Engine) 搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,就是一种在互联网上查找信息的工具。工作的基本原理是:用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。检索的结果:WWW上的主页、新闻组中的文章、软件的存放地址及其作者、企业网站、个人主页等。,每一种搜索引擎均有自己的特色,一般都提供了普通搜索和高级搜索两种途径。 著名搜索引擎: Yahoo Alta Vista Excite 搜狐(Sohu,英文搜索引擎:Yahoo!(http:/)Infoseek(http:/)Alta Vista(http:/)Excite(http:/)WebCrawler(http:/)Google(http:/)Lycos(http:/)中文引擎:网易(http:/)搜狐(http:/)新浪(http:/)常青藤(http:/)北大天网(http:/或http:/:8080/gbindex.htm雅虎中文简体版(http:/)与繁体版(http:/),三、文献检索,文献检索语言 定义:在自然语言的基础上经过处理后能够表达文献特征、供情报检索系统存储和检索共同使用的人工语言 文献检索语言是由符号、代码或科技词语组成的集合。其中符号、代码是按学科门类严格编制的;科技词语是经过优选的和规范化的。 检索语言可分为:分类语言、主题语言、代码语言。 要求:检索语言要求接近自然语言;单一性。,检索语言与自然语言,(1)自然语言:人类在社会生活的交流过程中长期形成的习惯语言,随着时代的发展而不断变化,其含义具有较强的失控性 (2)为了使情报的贮存和检索能够规范化,必须制订一定量的规范化的检索语言,文献检索语言的功能,作用 (1)具有严密性(单一性),为文献的标引和检索提供了共同语言的依据 (2)系统性,标引文献时可以将同一主题概念的文献集中存储在一起,便于用户检索 (3)可控性,在标引文献的主题概念时,可以将文献所包含的情报内容及其外表特征简明的表示出来,检索语言的功能,(1)对文献的信息内容及其特征加以规范化的标引;(2)对内容相同相关文献信息加以集中揭示其相关性;(3)可以使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排序进行有序化的检索;(4)便于将标引用语和检索用语进行相符性比较。,分类法与分类检索语言,所谓分类,是按事物的性质将客观事物加以区别,并按逻辑顺序将其排列,用以区别事物,认识事物的一种方法。 以文献为对象的分类,即为文献分类。文献分类法是历史最为悠久、最常用的文献检索语言。按其结构原理分为体系分类法、组配分类法和混合分类法。 我国目前的分类法是建立在学科分类体系上的,属于体系分类法。它是将全部文献按其性质分为几个主要大类,把相同的文献集中在一起,相近的文献连接在一起,并将它们按由一般到具体的逻辑顺序加以排列,从而组成一个系统。,中国图书分类法,中图法把全部的知识门类分为马列、毛泽东思想;哲学;社会科学;自然科学;综合性图书这五大部类,在此基础上建成了由22个大类组成的体系系列。 中国图书分类法,其他常见分类语言,(1)国际十进制分类法(UDC) (2)中科法和人大法 (3)全国图书统一编号方案 (4)科技期刊编目 (5)中国标准书号、中国标准刊号和中国标准音像制品编码,主题检索语言,主题是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题,即文献的 “内容”。,标题词:独立定型,经过规范化处理的可直接主题内容的词,单元词:经过规范化处理的可直接表达主题最小、最基本的词,关键词:从文献题名、文摘和正文中抽出,只作极

    注意事项

    本文(信息检索(西交大 工程硕士)ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开