欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载
     

    信息检索可视化研究.doc

    • 资源ID:4020917       资源大小:29KB        全文页数:10页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索可视化研究.doc

    信息检索可视化研究信息可视化冯艺东汪国平董士海(北京大学计算机科学技术系,北京100871)摘要我们处在一个信息爆炸的时代。对繁杂的抽象信息之间的复杂关系进行探索的努力,促使了信息可视化这一崭新科学领域的出现,它结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法。信息可视化与科学可视化的区别在于,科学可视化的研究对象主要是具有几何属性的科学数据,而信息可视化则主要应用于没有几何属性的抽象信息,揭示信息之间的关系和信息中隐藏的特征。本文对信息可视化的概念、意义、主要问题和技术、研究现状作了综述,并简单介绍了我们正在进行的相关研究工作。关键词信息可视化可视化结构科学可视化人机交互知识挖掘1什么是信息可视化可视化是这样一个过程,它将数据信息和知识转化为一种视觉形式,充分利用人们对可视模式快速识别的自然能力1。可视化将人脑和现代计算机这两个最强大的信息处理系统联系在一起。有效的可视界面使得我们能够观察、操纵、研究、浏览、探索、过滤、发现、理解大规模数据,并与之方便交互,从而可以极其有效地发现隐藏在信息内部的特征和规律。在我们这个信息日益丰富的社会,可视化技术研究和应用开发已经从根本上改变了我们表示和理解大型复杂数据的方式。可视化的影响广泛而深入,引导我们获得新的洞察和有效的决策。可视化作为一个有组织的科学分支起源于美国国家科学基金会(NSF)的报告科学计算中的可视化2。在那篇报告里,可视化被设想为这样一种工具,它能够处理大型科学数据,并且能够提高科学家观察数据中现象的能力。虽然最初的概念不见得是这样,但是今天我们讨论科学可视化总是基于物理数据,例如人体、地球、分子等等。计算机用来绘制它们某些可观察的属性。虽然这些可视化也可能源于对这些物理空间的抽象,但是这些信息在本质上仍然是几何的,都是基于物理空间的。近几年来,随着INTERNET的飞速发展,商业数据的大量计算,电子商务的全面展开,以及数据仓库的大规模应用,产生了一个广泛的需求:可视化技术不仅要用于科学数据,而且要作为一个基本工具,应用于抽象信息,揭示信息之间的关系和信息中隐藏的特征。所有上述这些非物理信息,可以通过映射为一种可视化形式来方便观察,而这些信息都没有明显的空间特征。除了如何绘制关心的对象的可视化属性的问题以外,更重要的问题是如何把非空间抽象信息映射为有效的可视化形式3。这就是信息可视化的研究范畴。信息可视化结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法,逐步发展起来。信息可视化实际上是人和信息之间的一种可视化界2面,因此交互技术在这里显得尤为重要,传统的人机交互技术几乎都可以得到应用。人机交互是研究人、计算机以及它们相互影响的技术4。可以说,信息可视化是研究人、计算机表示的信息以及它们相互影响的技术。"信息可视化"这个术语第一次出现在Robertson,Card和Mackinlay在1989年发表的文章用于交互性用户界面的认知协处理器5中。该文认为,硬件系统的图形性能和速度已经使得在用户界面中探索3D和动画成为可能。为了充分利用这些性能,新的软件结构必须支持复杂的异步交互智能体(多智能体问题),并且,还应支持流畅的交互动画(动画问题)。该文认为"信息可视化"是对上述两个问题的解决要求最迫切的领域,因此将该项研究在该领域中进行试验,利用2D和3D动画对象来表示信息和信息的结构。此后,信息可视化方面的研究和文献陆续出现,信息可视化作为一个学科逐渐成长起来。在这个领域,人们更加关心的是认知能力提高的方式,而不是图形的质量。交互性和动画成了这些系统更为重要的特征。Jim Foley在最近发表的关于计算机图形学的"十大尚未解决的关键问题"6一文中,将信息可视化列为第三位。Foley认为,随着存储成本的急剧下降,和随之而来的数据仓库技术的日益普遍,信息可视化将会越来越重要。因为计算机能够处理的信息中,只有很少一小部分是具有几何属性的,而剩下的绝大部分都是没有几何属性的抽象信息。我们可以利用数据挖掘技术获取数据之间的复杂关系,而新的信息可视化技术将帮助我们探究这些关系。因此,对创造性信息可视化方式的探索之路,将永无止境。2信息可视化的主要科学问题及相关技术2.1信息可视化参考模型图2-1信息可视化参考模型3我们可以把可视化认为是从数据到可视化形式再到人的感知系统的可调节的映射。如图2-1所示是这些映射的一个图示,它是信息可视化的一个简单参考模型。在该模型中,从原始数据到人,中间要经历一系列数据变换。图中从左到右的每个箭头表示的都可能是一连串的变换。从人到每个变换(从右到左)的箭头,表明用户操作的控制对这些变换的调整。数据变换把原始数据映射为数据表(数据的相关性描述);可视化映射把数据表转换为可视化结构(结合了空间基、标记和图形属性的结构);视图变换通过定义位置、缩放比例、裁减等图形参数创建可视化结构的视图;用户的交互动作则用来控制这些变换的参数,例如把视图约束到特定的数据范围,或者改变变换的属性等。可视化和它们的控制最终服务于任务。3信息可视化要解决的主要问题就是上述参考模型中的映射、变换及交互控制。2.2可视化结构在信息可视化的参考模型中,其核心是数据表到可视化结构的映射。数据表基于数学关系,可视化结构则基于能够被人的视觉有效处理的图形属性。科学可视化主要集中在物理数据上,与之不同的是,信息可视化的研究主要集中在抽象信息上。在很多情况下,信息本身并不能自动映射到几何物理空间。这个不同意味着许多信息类型没有自然或明显的物理表示形式。因此,一个关键的问题就是发现新的可视化隐喻(可视化结构)来表示信息,并且理解这些隐喻所支持的分析任务。可视化结构有三个基本的组成部分:空间基,标记,标记的图形属性。在可视化过程中,数据表被映射为可视化结构,可视化结构在一个空间基中用标记和图形属性对信息进行编码。为了得到一个好的可视化结构,这个映射必须能够保持数据的原有信息,并且只有数据表中的数据才能在可视化结构中被表示。要获得一个好的映射并不是一件很容易的事,因为在可视化结构中很容易出现不必要的数据。映射又必须是能够很容易被人感知的。如果一个映射比其他的映射能够更快地被理解,能够表达更多的差别,或者能够更不容易导致错误,那么这个映射比其他的映射就更有表现力。如何寻求一个好的可视化结构,是信息可视化的一个关键问题。2.3视图变换视图变换交互地改变和增强可视化结构,通过建立图形属性来建立可视化结构的视图,使静态表示变成可视化。可视化存在于时空关系中。视图变换通过利用时间属性能够从可视化中获得比静态情况下更多的信息。有三种常见的视图变换:1.位置探查位置探查是这样一种视图变换,它利用一个可视化结构中的位置揭示附加的数据信息。2.视点控制视点控制是利用仿射变换移动(zoom)、摇动(pan)和裁减(clip)视点来进行视图变换。这类变换非常普遍,通过放大可视化结构或改变视点,使得细节可见。另一种视点控制技术叫作overview+detail,同时使用overview和detail两个窗口,overview窗口提供detail视图的context,并且充当改变detail视图的控制部件,detail窗口用于选定区域的放大或聚焦。3.变形变形是一种改变可视化结构来生成focus+context视图的可视化变换。在这里,overview和detail被合成了一个可视化结构。可视化空间的物理范围是非常有限的计算机屏幕,相对于可视化空间而言,信息空间几乎是无限的。为了弥补可视化空间和信息空间之间的失衡,增大可视化空间的逻辑范围,就需要用到对可视化空间的变形技术。如果变形能够让用户通过变形感知到更大的未变形的可视化结构,那么这样的变形就是有效的。2.4交互和可视化控制在信息可视化中,交互与从数据映射到可视化形式的变换有关。在信息可视化参考模型中,用户通过操作可视化控制来改变变换过程中的参数,以达到交互的目的。这些控制可以4以单独的用户界面的形式实现(如各种控制按钮或滚动条等),也可以和可视化结构合在一起(如overview+detail)。很多信息可视化的交互技术在本质上是某种形式的选择方法,通过选择数据表中对象的子集获得当前的可视化结构。这些交互技术可以用来定位数据,揭示数据中的模式,选择变换的参数等,如Details-on-demand技术,Brushing技术等。这些交互技术不仅可以提高用户与信息交互的速度,同时可以避免用户走错方向,解决信息迷途问题。Furnas在1986年的发表的通用化鱼眼视图7一文中首次研究了鱼眼视图,这种技术是一种放大某一显示画面中的某块小的局部区域的透镜技术,放大区域的周围退到背景显示,但仍然是可见的。后来有很多人在这项技术的基础上作了很多发展,创造了一系列技术,允许用户观察一个小的中心焦点区域的同时,保持一个较大周围区域的可见性,这就是focus+context技术的含义所在。这种技术可以将一个信息集合的特定部分的细节视图,通过某种方式和该信息集合的总体结构视图混合在一起;也可以认为是在显示一个大的信息空间(context)的同时,其中的一部分以更细节的方式显示(focus)。3信息可视化发展现状和研究热点信息可视化作为一个新的科学领域,目前绝大多数研究工作都还处在发展新技术和构建一些有意思的新系统方面。同时,已经开始出现一些信息可视化方面的实用工具。下面介绍几个信息可视化领域当前研究的热点问题:1.层次信息的可视化抽象信息之间的关系最普遍的一种就是层次关系,如磁盘目录结构,文档管理,图书分类等。层次关系几乎无处不在,并且,在某些情况下,任意的图都可以转化为层次关系8。层次信息的可视化结构最直观的方式就是树型结构。但是传统的树型结构有一个很大的缺点:当结构的层次增多或者节点增多时,该结构需要占据大量的可视化空间。而计算机屏幕所能够提供的可视化空间非常有限,因此必须通过滚动浏览的方式把握整个层次结构,这对于查找某个节点或者获得整个结构的信息非常困难。图3-1 Cone tree图3-2 Hyperbolic tree 5George G.Robertson等人提出了一种称作cone tree(图3-1)的方法8。Cone tree将层次结构在三维空间中均衡排列。层次结构的顶部放置在可视化空间的顶端,每个cone的顶点表示该层结构的顶点,其子节点(三维)均匀排列在该cone的底部。Cone的底的直径随着层次结构的深入逐渐减小,以保证最底层的结构也能在可视化空间中有效表示。每个cone之间透明遮挡,从而可以保证每个cone可以很容易被感知,还不会妨碍后面的cone。同时佐以旋转、拖动等方便的交互技术,可以很容易实现对复杂层次关系的把握。Xerox Palo Alto研究中心的用户界面研究组的John Lamping等人提出了一种基于双曲几何的可视化和操纵大型层次结构的focus+context技术,称为Hyperbolic tree910(图3-2)。这种技术将更多的可视化空间给了当前层次结构中当前关注的部分,而同时又能够把整个层次结构显示出来。该技术通过一种规范的算法将层次关系显示在一个双曲平面上,然后将这个双曲平面映射到显示区域中。所选择的映射方式提供了一种鱼眼变形来支持focus和context之间的平滑过渡。Hyperbolic tree通过方便的交互手段很好地解决了层次结构中focus+context之间的平滑过渡问题。目前,这种技术已经有了成熟的产品(Inxight软件公司),用于磁盘目录、网站结构、电子图书馆编目等的可视化。2.多维信息可视化我们生活在一个三维物理空间世界中。我们的视觉感知很难脱离前后、左右、上下的三维空间定势。四维信息都很难直观地理解,更何况是更多维的信息。而绝大多数抽象信息又是三维以上的多维信息,如金融信息、股票信息、数据仓库等。因此多维信息的可视化是信息可视化的一个重要目标。我们之所以能够在二维屏幕上显示三维空间信息,是因为我们的视觉习惯已经在我们的脑海中留下了三维空间的烙印。可以说,我们只能看到三维空间,那么又如何可视化三维以上的多维信息呢?图3-3 Table lens哥伦比亚大学计算机系的Steven Feiner和Clifford Beshers提出了一种基于坐标嵌套的多维可视化结构worlds within worlds11。输入变量映射到多个轴组成的坐标系统中,整个高维函数通过将一个坐标系嵌套在另一个坐标系中实现可视化。内部坐标系在外部坐标系中的移动,将导致显示曲面的变化,因为这时候曲面的三个变量(分别由外部坐标系的三个轴6所代表)已经发生了改变。当两个坐标系统在同一个位置的时候,嵌套将会导致闭包。该方法通过将虚拟现实技术用于操纵可视化结构来减少闭包。这种方法表示的信息维数非常有限,并且,为了消除坐标系嵌套引起造成的视觉混乱,必须运用复杂的交互方式,技术实现非常困难。在数据仓库和信息挖掘中,大型数据表的表示是一个关键问题。大型数据库中的数据基本上全是多维的,如何将大型多维数据表中隐含的特征(即数据之间的关系)用一种直观的方式表示出来,对于信息挖掘至关重要。Xerox Palo Alto研究中心的用户界面研究组的Rao和Card提出的table lens1213(图3-3)技术是可视化和理解大型数据表的一项技术。该技术通过将符号和图形表示融入到一个可操纵的单一的focus+context显示中,以及一些简单的操作(如排序),支持在一个大型数据空间中的浏览,同时又可以很容易地分离关注的特征或模式。它把统计分析和电子表格的易用性结合在了一起,适合于大型数据分析领域,如金融数据、保险数据和药物分析等。应该说table lens是一种很好的多维信息可视化结构。目前,这种技术也已经有了相应的产品(Inxight软件公司)。3.文档(文本)信息可视化我们面临的信息中,绝大多数是文本信息,如电子邮件、因特网文档、科学论文、报纸文章等等。文档信息是我们记忆的延伸,我们需要经常和文档信息进行交流。各种文档信息堆积如山,可视化可以帮助我们快捷地从文档信息中获取我们需要的内容和知识。文档信息可视化可以分为两类:一类是对单个文档本身的可视化,另一类是对大型文档集合的可视化。Stephen G.Eick等人在可视化系统Seesoft中实现了一种对计算机程序进行可视化的方法14。通过将程序的每行代码根据其长度映射为一条短线(图3-4),可以实现同时分析多至50000行代码。每条短线的颜色可以用来表示某种关注的统计特征,如红色表示最近修改过的代码,蓝色表示最近最少修改过的代码,等等。Seesoft可以用于可视化各种数据源的数据,例如:版本控制系统,可以跟踪版本时间、程序员、代码目的等;静态分析,如函数调用的位置;动态分析,如特征数据。运用灵活的交互技术,用户可以方便地操纵代码的简化表示,以发现所关注的特征。对某段代码进一步的细致观察可以通过附加窗口显示实际代码来实现。Seesoft可以用于知识发现、项目管理、代码调整,开发方法分析等领域。图3-4 Seesoft图3-5 Themespace 7对于大型文档集合而言,文档之间的主题或内容相关性对于使用者而言是非常重要的。例如,我们在因特网上搜索信息的时候,非常需要快速把握成千上万的搜索结果与搜索条件之间,以及搜索结果相互之间的相关性,从而可以迅速找到真正需要的信息。美国西北太平洋国家实验室(Pacific Northwest National Laboratory)的科学家们提出了一系列的信息访问和可视化分析工具,这些技术统称为SPIRE(Spatial Paradigm for Information Retrieval and Exploration)。SPIRE可以用于几乎任何类型的大型文档集合,确定文档之间的关系,把他们表示为对人而言非常自然的可视化形式15。例如,James A.Wise等人提出的一种对大型文档集合之间的关系进行可视化的方法Themespace(图3-5)16。在Themespace中,文档空间中的主题在计算机屏幕上显示为一个自然地形图。Themespace中的山峰表示该处的主题是主导性的,山谷则表示该处的主题相对较弱。山峰或山谷的形状(如是大范围的小丘还是高的尖顶),表示主题信息是如何分布的以及在文档之间是如何关联的。通过这种可视化的方式,可以避免语言处理从而节约用户的脑力工作,对于信息检索和知识挖掘非常有用。4.Web可视化可以说,信息爆炸的始作蛹者是因特网。目前,Web上的信息以TB计,这些信息分布在遍及世界各地的上百万个不同的网站上,网站通过文档之间的超链彼此交织在一起。并且,不论Web的规模有多大,有一点是肯定的,它还将继续膨胀。如何方便地利用Web上的信息,成了一个迫切需要解决的问题。然而,目前的信息访问方式却远远不能让人满意。信息可视化在帮助人们理解信息空间的结构,快速发现所需信息等方面将会扮演令人信服的重要角色。Web是由一个一个的网站组成的,因此,单个网站的可视化在Web可视化中占据着重要的地位。Xerox Palo Alto研究中心用户界面研究组的Ed H.Chi等人提出了一种可视化网站变化的方法17。它将Xerox的网站中的7000多个节点重新组织成一个树,在考虑的时间范围内存在的每个节点在树中有一个相应的位置。连线的颜色和粗细根据每个节点的访问量决定。网站的不同时期用不同的树表示。这样可以很容易地发现网站内容的变化和访问量的变化。Web是一个信息空间,如何可视化它的结构是最重要的。Web空间的结构实际上一个网,目前这方面的研究主要集中在如何有效地可视化信息空间的网络结构方面。4我们的研究工作目前,我们有关信息可视化的研究工作主要集中在如下几个方面:层次信息可视化,多维信息可视化,信息可视化中的交互技术,信息可视化与信息可听化,信息迷途的解决。下面简要介绍一下我们正在进行的两个研究实例。1.局域网状态及流量可视化我们在使用网络的过程中经常会遇见这样的情况:网络速度很慢,但是不知道问题出在什么地方。对于网络管理者而言,时刻知道网络状态和流量情况,可以及时排除故障,根据情况调整网络结构,对用户进行有效管理。本实例的目的就是为网络管理者提供一个能够实时监控网络状态和流量的可视化系统。2.股市信息可视化8股市信息纷繁复杂,股市信息瞬息万变。对于股民而言,"时间就是金钱"有着其直接的现实意义。因此,一个好的可视化系统应能做到帮助股民迅速理解和接受各种信息,发现股市信息中的特征和走势,帮助股民迅速做出决策。本实例的目的就是要构建这样一个股市信息可视化系统。5结束语这是一个前所未有的信息时代,我们每天都处在各种信息的包围之中。需要一种快捷有效的方式帮助我们发现隐藏在庞杂信息当中的模式和知识,帮助我们决策。这就是信息可视化的意义所在。信息的日益丰富决定着将来的用户界面主要是一种信息界面,从某种意义上说,信息可视化代表着下一代用户界面的方向。参考文献1.Nahum D.Gershon,Stephen G.Eick."Information Visualization",IEEE Computer Graphics and Applications,7-8/1997,29-31.2.B.H.McCormick,T.A.DeFanti,and M.D.Brown,eds.,"Visualization in Scientific Computing",Computer Graphics,Vol.21,No.6,Nov.1987.3.Stuart Card,Jock Mackinlay,Ben Shneiderman.Readings in Information Visualization:Using Vision to Think.Morgan Kaufmann,1999.4.董士海、王坚、戴国忠等,人机交互和多通道用户界面,科学出版社,1999年8月。5.G.Robertson,S.K.Card and J.D.Mackinlay."The Cognitive Co-processor for Interactive User Interfaces".Proceedings of the ACM SIGGRAPH symposium on User interface software and technology,1989,Pages 10-18.6.Jim Foley,"Getting There:The Ten Top Problems Left",Vision 2000 issue of IEEE Computer Graphics and Applications.7.G WFurnas."Generalized Fisheye Views".Conference proc特别声明:1:资料来源于互联网,版权归属原作者2:资料内容属于网络意见,与本账号立场无关3:如有侵权,请告知,立即删除。

    注意事项

    本文(信息检索可视化研究.doc)为本站会员(文库蛋蛋多)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开