欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息组织第4章主题法ppt课件.ppt

    • 资源ID:1314504       资源大小:1.41MB        全文页数:66页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息组织第4章主题法ppt课件.ppt

    第4章,信息组织技术方法主题法,5.1 主题法的沿革,主题法是以自然语言中的名词术语作为标识符号,并依据这些标识符号的语义和字顺,编排和组织文献信息资源建立各种查询工具和检索系统。主题法的基本要素: 词语标识、语义脉络、字顺系统主题法的两种涵义:指一种用语词标识处理文献信息资源,组织主题检索工具或检索系统的方法指主题检索语言(主题标引语言),主题检索语言的演变标题语言单元词语言;叙词语言关键词语言,标题法,早期类型的主题检索语言开始:1856年,英国Crestadoro发表图书馆的编目技术形成:1895年出版的美国图书馆学会标题表和1911年诞生的美国国会图书馆标题表 标题法:以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容。,叙词法,新型的后组式主题检索语言 与单元词出现同期,美国穆尔斯(C. N. Mooers)创造是对单元词语言的直接继承,但克服了单元词语言的不足,吸收并综合了多种标引语言的原理和方法,是能结合计算机使用的后组式语言,是目前主要的受控语言。,叙词法,3.1.2 叙词描述语言 (1)叙词语言的前身单元词语言 (2)叙词语言的原理 (3)叙词表 主题标引实例,叙词法,概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如: 字面组配 概念组配模拟+控制-模拟控制 模拟+控制-模拟控制河北梆子河北梆子 河北地方剧梆子河北梆子 香蕉+苹果-香蕉苹果 香蕉味食品+苹果-香蕉苹果,叙词法,在以上第一例中,无论是字面组配还是概念组配,其结果都是“模拟控制”,第二例“河北”和“梆子”,如果用“河北”检索则范围太广泛,用“河北地方剧”更符合检索要求;第三例中,根据字面组配原理,“香蕉”和“苹果”组配是“香蕉苹果”,而概念组配的结果应是指“一种香蕉和苹果杂交的品种”,而这样的品种目前是不存在的。所谓“香蕉苹果”只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用“香蕉味的食品”和“苹果”两个词组配,才符合概念逻辑。,叙词法,吸收:以分面组配语言的概念组配代替单元词语言的字面组配适当采用标题语言的先组式采用标题语言和单元词语言对语词的严格控制采用并完善标题语言的参照系统采用体系分类语言的原理编制叙词分类索引和等级索引采用关键词语言的轮排方法,编制叙词轮排索引,叙词法,优点:概念组配准确,标引能力强结构完备,词汇控制严格适合多途径检索,检索效率高对检索系统的适应性强缺点:叙词表编制和管理难度较大利用叙词语言标引和检索较复杂,使信息报道速度相对较慢,叙词法,我国目前使用最广的中国分类主题词表(前身是汉语主题词表)就是属于叙词法,有电子版和印刷版两种形式。中国分类主题词表是分类主题一体化的词表,与中图法相互对应,这对文献信息的组织和检索十分方便。可以看出,各个主题词及其之间的关系是严格控制的,从而构成一个严密的语义网络,为建立高效的文献信息检索系统提供了保证。 中国分类主题词表实例,叙词法,下面是它的主题词款目片段: fu nan 主题词的汉语拼音呋喃 主题词Efuran 主题词英译名O626.11 中图法类号D 氧茂同义词S 氧杂环化合物上位概念F 四氢呋喃下位概念呋喃甲醇呋喃甲醛呋喃酮呋喃西林Z 杂环化合物族首词C 呋喃并喹啉生物碱 相关词,关键词法,自然语言形式的情报检索语言 随计算机出现,为适应索引编制自动化的需要产生直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过关键词轮排方法揭示文献主题。关键词表简单,不必设参照,使用禁用词表。,关键词法,关键词是指出现在文献标题(篇名、章节名)、文摘、正文中,对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容是重要的、关键性的(可作为检索“入口”的)那些语词。它与标题词语言、叙词语言同属主题法系统。但是,标题词语言、叙词语言使用的都是经规范化的自然语言,而关键词语言基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。,关键词法,关键词是从文献题目或文摘、正文中提取出来的具有实质意义,能代表文献主题内容的词汇。 它与叙词的区别在于非规范化,是自然语言。 其优点是便于计算机检索系统的应用,能准确检索到许多新概念方面的文献;缺点是因为关键词是作者自己选定的,词的形式不同,拼法不同或各近义词、同义词等容易造成文献分散在各不同关键词之中,不能集中。例如:异博定、异博停、维拉帕米是同一种药物的不同名称,均可作为关键词,若仅选一个关键词检索,就会漏掉另二个词的文献。,关键词法,优点:直接源于自然词汇,专指性优于其它主题语言标引无需查表,简便易行,节省人力及时更新词汇,报道信息快适于计算机自动抽词标引,标引一致性高、标引深度大,关键词法,缺点: 词语不规范,不能显示词间的等同关系、等级关系和相关关系,查全率、查准率相对较低,5.2 国内外主题语言应用实例,叙词语言的语义关系特性,是通过叙词表体现的。国内用叙词语言编制的叙词表已有七、八十种之多。最常用的有,汉语主题词表、化工汉语主题词表、机械工程主题词表、电子技术汉语主题词表、国防科学技术叙词表等。常见的国外叙词表有,INSPEC叙词表、工程索引叙词表、工程与科学叙词表等。下面以汉语主题词表为例,说明其词表结构和功能。,汉语主题词表,1975 年,中国情报所、北京图书馆、国防科工委情报所、电子科技情报所、六二八所、机械科技情报所等单位组建全国1048个单位、7519人参加的汉语主题词 表研究编辑工作,是全国汉学信息处理系统工程(简称748工程)的组成部分,目的是建立全国统一的联机情报检索网络。该主题词表是中国第一部大型综合性 检索工具书,全书包括主表、附表、词族索引、范畴表、英汉对照索引等、共分3卷10个分册。其收词范围之广、编辑技术之先进、结构体系之严谨,当时是国内 外一流的。该成果获1985年国家科技进步二等奖。,主题法的历史可以追溯到我国古代“用韵以统字,用字以系事”的类书。但目前大多数被承认的主题法的早期典型是1876 年科特创制的标题法,此后,美国于1909 年至1914 年出版的国会图书馆标题表,使得标题语言在国际上有了较大的发展。进入20 世纪60 年代,为了适应计算机处理信息的需要,大量的叙词表问世。,现在全世界有各种叙词表千余种,较著名的有美国国会航空航天局叙词表、分面叙词表、医学主题词表(MeSH) 等。在我国,20 世纪三、四十年代,已有少数主题词表问世,但都没有得到实际的应用。主题法在我国大规模的编制和应用始于20 世纪70 年代。1971 年航空科技资料主题词表第二版被改造成为我国的第一部叙词表。,此后,其它一些主题词表陆续出版。尤其是1979 年出版的汉语主题词表,不仅成为世界上最大规模的叙词表,而且为后来我国叙词语言的发展做了人才和理论准备。目前已编制和正在编制的专业主题词表已达七、八十部之多。他们是时代的产物,反映了信息高层次整合和检索的需求,是主题检索发展的客观规律的具体体现。,主题检索弥补分类检索的不足,在我国信息检索中初露端倪。到了21 世纪,为了适应计算机组织和检索文献信息的需要,主题法已向自然语言标引和检索以及分类主题一体化方向发展。,主题法在网络信息组织中的运用,主题组织采用概念组配的方式,以最能反映学科领域的核心词汇为基础,揭示与标引信息记录,使不同主题需要的用户能够找到所需信息。此外,由于主题标识大多是学科核心词汇,便于检全关于某一事物各个方面的信息,如查找某一细小专深的主题、交叉学科的复杂主题或新主题等,便于进行计算机网络化检索,实现资源共享。,再加上主题组织的直接性,其语词标识基本上是独立完整的事物概念,可以满足特性检索的要求;因此,主题标引技术广泛应用于各类存取系统,尤其是期刊与计算机存取系统。目前世界上几乎所有的计算机信息存取系统都采用了主题词作为检索标识,特别是当前主题组织越来越多地应用于网络信息存取,尤其是关键词法存取越来越受到人们的青睐。,主题法在网络信息组织中的运用,主题法在网络信息组织中的应用现状 主题法在网络信息组织中的使用主要表现为两种方式,一是使用现有词表(叙词表、标题表)组织网络信息。目前,使用现有词表组织网络信息的还不多,主要是美国国会图书馆标题法 (LCSH) 和医学标题表 (MeSH) 被一些网络信息检索系统采用。采用 LCSH 的系统有: CyberHoundExpertSearch,ElectronicJournalSubjectIndex 等。采用 MeSH 的系统有: CliniWebBrowse,AlphabeticalListofNLMSections 等。,主题法在网络信息组织中的运用,二是广泛采用关键词法。关键词法是将信息原来所用的能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。由于关键词法具有种种优点,关键词的抽取可以完全自动化,因此关键词检索在网络中的应用相当广泛。目前,大部分搜索引擎的索引数据库几乎都采用关键词法进行信息组织。,关键词法作为信息组织的标识,在标引时不必查表、选词,标引速度快、成本低,特别适合网络信息的特点。网络信息最主要的特点就是数量庞杂而且增长迅速。使用关键词法可以降低信息标引的成本,提高标引工作的效率。关键词法不依赖专职标引人员,可由作者或机器自动标引。,现在搜索引擎一般用“蜘蛛”去完成标引工作,就是利用了关键词法的这一优点,不存在人为性和滞后性。采用关键词法,能够及时地应用最新的提法以及最新的词汇,不会像其它情报检索语言那样要依靠词表来对语词选择和规范,而词表的制定和修改是需要一个过程的,这样就不可避免的带来滞后性。,同时关键词法可以采用自动标引的方式,不会产生人工标引那种“仁者见仁,智者见智”的局面。这也就是关键词法在网络信息组织中得到广泛应用的主要原因。,主题法在网络信息组织中的运用,3.3.1 网络索引机器人(1)网络索引机器人定义:(2)网络索引机器人工作原理3.3.2 网络搜索引擎 (1)网络搜索引擎定义:(2)建立搜索引擎的关键技术,搜索引擎,搜索引擎起源于1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出的Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在各个FTP主机中的文件。,用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。它虽然和现代的搜索引擎不同,但原理是相同的,所以Archie是搜索引擎的鼻祖。搜索引擎实际是一个根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。,1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta Search Engine) 。与传统搜索引擎的不同之处在于,它是通过一个操作平台,聚集并调用一批独立搜索引擎同时进行搜索的检索工具。,用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。应该说元搜索引擎是个非常好的概念,但搜索效果还不理想,所以没有哪个元搜索引擎有过强势地位,普及程度不理想。,GOOGEL 简介,Google(www.G)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。,GOOGLE 的成功得益于其强大的功能和独到的特点:Google检索网页数量达24亿,搜索引擎中排名第一; Google支持多达132种语言,包括简体中文和繁体中文; Google网站只提供搜索引擎功能,没有花里胡哨的累赘; Google速度极快,年初时据说有15000多台服务器,200多条T3级宽带;,Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果; Google智能化的“手气不错”功能,提供可能最符合要求的网站; Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。 Google具有独到的图片搜索功能; Google具有强大的新闻组搜索功能; Google具有二进制文件搜索功能(PDF,DOC,SWF等); Google还有很多尚在开发阶段的令人吃惊的设想和功能。,主题法在网络信息组织中的运用,搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。,主题法在网络信息组织中的运用,整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。,主题法在网络信息组织中的运用,接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。,主题法在网络信息组织中的运用,利用主题法组织网络信息的优势 主题法包括标题法、单元词法、叙词法和关键词法。鉴于关键词法的广泛使用,本文将重点讨论关键词法在网络信息组织中的应用。关键词法是直接使用自然语言的一种方法,关键词法的优点概述如下:关键词是信息中使用的自然语词,依事物聚类,表达主题直观、专指,便于特性检索,可以保证有较高的检准率。关键词具有较强的组配性。搜索引擎的布尔逻辑检索就是通过布尔逻辑算符把一些具有简单概念的关键词组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。,采用关键词法,不存在词汇滞后问题。在联机网络环境下,关键词语言具有广泛的用户基础,它的检索习惯和技巧容易被用户所接受。关键词的抽取可以完全自动化,用它来组织揭示信息速度快、成本低。以上优点是关键词法在网络信息组织中得到广泛应用的主要原因。,主题法在网络信息组织中的运用,在网络中,几乎每一个搜索引擎都具有关键词检索功能,这也就意味着搜索引擎的索引数据库采用了关键词法进行信息组织,也就是从网站、网页的题名、地址、摘要,甚至网页的正文抽取关键词作为索引词,提供指向相关网络信息资源的超文本链接。搜索引擎提供的主要有简单关键词检索和高级关键词检索,其检索功能有所不同。,主题法在网络信息组织中的运用,简单关键词检索。它只是要求将关键词直接输入检索框中,可以输入一个或多个关键词,不要求对关键词加以限制,系统按照自己的规则可能会将输入的关键词分解为几个部分,并将包含每部分字符的信息都显示出来,也可能查出字面相同但内容相差很远的信息。目前,只有简单关键词检索功能的搜索引擎几乎没有了。绝大多数搜索引擎具有简单关键词检索和高级关键词检索功能。,主题法在网络信息组织中的运用,高级关键词检索。它一般有以下几种方式:(1)布尔检索。大多数搜索引擎具有布尔逻辑检索功能,有的允许进行逻辑和、逻辑或、逻辑非三种逻辑运算,有的只能进行两种或一种逻辑运算。使用布尔运算符,如AND、OR、NOT,或+号和-号,或将关键词之间的空格默认为逻辑和或逻辑或。(2)精确检索。是将一个词组当作一个独立的运算单元,进行严格匹配,以提高检准率,精确检索可以显著改善检准率。Google高级检索实例,主题法在网络信息组织中的运用,(3)模糊检索。它不仅可以根据输入的关键词进行查找,而且会自动地用关键词的同义词、近义词进行查找,从而提高检全率。显然,为进行模糊查找,检索系统必须配备一个相当于后控制词表的同义词、近义词表。(4)截词检索。在搜索引擎中,目前多只提供右截法,截词符多采用星号*。,主题法在网络信息组织中的运用,(5)位置检索。目前只有一些搜索引擎具有位置查找功能,而且大多数只有一种临近位置运算,即Near运算。(6)字段检索。这是将关键词查找限定在特定字段进行的一种功能。在搜索引擎中,字段查找多表现为限定前缀的形式。(7)限制检索。这是将关键词查找限制在特定信息范围内进行,限制的信息范围主要有网络系统、信息类型、时间段和语种等。,主题法在网络信息组织中的运用,(8)管道检索。这是用管道符号“”连接两个或多个关键词,查找时系统自动地先对前一个词进行匹配,然后在其基础上再对后一个词进行匹配,依次类推,以达到逐渐缩小检索范围,提高检准率的效果。(9)区分大小写检索。有的搜索引擎能够区分检索词的大小写,将同一个词的大写形式和小写形式视为不同的词进行查找。(10)自然语言检索。这是指用户可以直接用自然语言的字、词、句子作提问式进行检索,系统可以自动分析提问的要求,识别需要查找的关键词及词间关系。自然语言查找使检索变得直接、简单、特别适合非专业的检索者。,主题法在网络信息组织中存在的缺陷,关键词属于自然语言,不作词汇规范和词间关系显示是它的最大特点亦是它最大的缺陷。由于概念与语词不能一一对应,容易造成检索内容的分散,由于不能显示概念间的关系,难以进行族性检索。在网络环境下,采用简单的关键词检索,检索效率都很低,普遍存在着检索结果过多尤其是不相关内容过多的问题。,主题法在网络信息组织中的进一步完善后控词表技术,关键词固有的缺陷,使关键词检索方法在网络信息检索中难以得到令人满意的检索效果。虽然大多数搜索引擎都采用了增强关键词检索功能的基本措施,如:布尔逻辑检索、搜寻范围限定检索、二次检索、检索结果相关度排序等,但这些措施还不可能彻底消除关键词检索的缺陷。要提高关键词的检索效率,就必须介入人工语言的因素,在保留自然语言易用性优点的基础上,充分发挥人工语言对信息进行系统组织和对自然语言进行规范控制的作用。目前,较一致的看法是采用后控词表的方法。,主题法在网络信息组织中的进一步完善后控词表技术,使用后控词表是改善关键词法性能的有效措施之一。后控词表采取的是“标引不控制检索控制”的模式。张琪玉教授指出,后控词表中的控制词并非直接用于标引,而是对作为信息检索标识的自然语言进行控制,建立等级、等同、相关关系。因此,在后控词表中,标引检索用词是自然语言,非标引检索用词却是人工语言。后控词表作为一种用户接口,它成功地实现了自然语言与人工语言的转换,克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。随着机读词表的进一步发展及语言处理技术的突破,实现对关键词的后控制是完全可能的。,网络信息组织的发展方向分类主题一体化,分类法与主题法是网络信息组织的两种基本方法,但分类检索与主题检索是完全独立的两个系统,两者没有内在的联系。单纯使用分类和语词的方法组织信息,都满足不了网上用户的查询需求,面对 Internet 上浩如烟海的信息,用户更需要多种多样的检索方法、功能更完备的检索方法和更加智能化的检索方法。,网络信息组织的发展方向分类主题一体化,分类法的族性检索与主题法的特性检索反映了人类思维的两个不同侧面,分类主题一体化是网络信息组织的发展趋势,是自然语言与人工语言的一体化,两者的结合是功能上的互补与增强,它能克服分类法单纯以学科聚类,主题法单纯以事物聚类的局限性。分类主题一体化的实质是在类名、主题词、关键词之间建立对应关系,以便互相转换、互相控制,从而为用户提供分类的、主题的、分类主题的信息检索功能。,网络信息组织的发展方向分类主题一体化,分类主题一体化的信息组织模式在优化检索性能上的作用可归纳为:分类与主题组配检索。把对某主题、某事物的关键词检索限定在某一类目范围内进行,以排除无用信息,提高检准率;或在类目范围内进行关键词检索,把检索范围控制在一定的知识领域内,达到精确检索的目的。实现系统的扩检、缩检功能。例如通过关键词与主题词的对应,将关键词转换成主题词,再转换成多个同义关键词进行扩检,从而提高检全率。或通过分类与主题的对应,实现系统的缩检功能。,网络带来的资源共享与交互方式,使信息资源数量猛增。由于网络信息的无序性、不稳定性、冗余性和多样性,信息用户对网络信息的需求很难得到满足,用主题语言来组织网络信息在这种状况下应运而生。主题语言尤其是关键词法,由于其独具的优点在网络信息组织中得到广泛的应用。,但是关键词法检准率低的缺点,使该检索方法在网络信息检索中很难得到令人满意的检索效果,使用后控制词表改善了关键词法的性能。到了21 世纪,为了适应计算机在组织和检索文献信息中的需求,主题法向分类主题一体化的方向发展。,分类法的族性检索与主题法的特性检索反映了人类思维的两个不同的侧面,分类主题一体化是网络信息组织的发展趋势,将会促进网络信息资源的有效存取和检索。,

    注意事项

    本文(信息组织第4章主题法ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开