欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载
     

    数据可视化技术分析剖析ppt课件.ppt

    • 资源ID:2082106       资源大小:2.88MB        全文页数:30页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据可视化技术分析剖析ppt课件.ppt

    数据可视化技术分析,学生姓名:王修岩,目录,Contents,C,问题与挑战,课题背景及意义 当前,我们的世界已经迈入大数据(big data)时代。截至 2012 年,全世界每天产生 2.5EB的数据。然而,无论数据有多大,最终,信息必须流经一个最紧的瓶颈,人脑吸收和处理新信息的能力所能达到的速度。人类视觉系统不足以满足人类以数据本身的形式来工作的要求,因此迫切需要提供可视化的工具。所谓数据可视化,是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非 空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方法看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。,研究背景及意义,返回,一幅图胜过千言万语.人类从外界获得的信息约有 80%以上来自于视觉系统,当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧.如图 所示是互联网星际图,将 196 个国家的 35 万个网站数据整合起来,并根据 200 多万个网站链接将这些星球通过关系链联系起来,每一个星球的大小根据其网站流量来决定,而星球之间的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接.我们可以立即看出,Facebook 以及 Google 是流量最大的的网站。,研究背景及意义,返回,可视化的主要方法,人类的认知系统可以识别空间三维物体,对于抽象的无线识别很困难。目前对于构成可视化的方法中主要的方法,有以下几个方面。,空间三维图形:通过图形的密度颜色分布,大致能够了解数据的分布,数据之间的相似性和数据之间的关系。颜色图:分为彩色图和灰度图。彩色图的每一种颜色,对应着不用的属性维,灰度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深数值越大。亮度:对于特定的区域,用不同的亮度来辅助人眼对视点的观察。数学的方法:利用数学中统计的方法,先对数据关系进行分析,得到数据的大体分布信息,然后再结合其他可视化方法来进行细节数据分析。或者利用数学统计方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。,返回,可视化的主要方法,目前主要的多维数据可视化技术1 Scatterplot Matrix(散点图矩阵)Scatter plot 是显示多个数据维中任意两个数据维之间的依赖关系的矩阵图,分别把多维数据中的每一个维数对称地标注在横轴和纵轴上,把它们在数据集中每一对出现的频度作为关系依赖的评价,这样每两维的关系被显示在这个平面网格图中(图 3)。在 Scatter plot 的 matrix n 维矩阵中,scatterplots 会产生 n*(n-1)/2 对维之间的关系。,返回,可视化的主要方法,2 几何图技术 1)星型图:每个星型标记的构造方法如下:任选空间的某一点作为一个星型标记的中心点,由中心点作出 n 条线段来代表 n 个数据维,这 n 个线段把平面平均分成 n 份。一般地,每一个线段长度代表一个数据维的值的大小。把一个星型标记线段的终点全部用直线连接起来,就构成了一个星型图(图 4)。每一个星型图都代表数据库中一条记录,这样一组数据就用一组星型来代表。2)雷达图:类似于星型图的构造方法。,3)Andrews Gurves:对于多维数据的数据点 x=(x1,x2,*,*,*,*,xn),被周期函数 Fx(t)=X1/sqrt(2)+X2sin(t)+X3cot+X4Sin(2t)+cos(2t)作用于一个多维数据点或者(一个多维)数据集合,被显示成为一组曲线,曲线的分布情况反映了数据的性质。4)shapecoding 技术:主要思想是每一个数据点位于一个已经分解成 n 个细胞表格的长方形中,而且每一个细胞表格的颜色由每一维来控制。5)Grand-tour 技术:从不同的视角看待多维数据,投影数据在可能的 d-planes 通过泛化的旋转。,返回,可视化的主要方法,3 平行坐标技术平行坐标技术是最早提出的以二维形式表示 n 维空间的数据可视化技术之一。它的基本思想是将 n 维数据空间用n 条等距离的平行轴映射到二维平面上,每条轴线都对应于一个属性维。坐标轴的取值范围,从对应数据维属性的最小值到最大值均匀分布(名词性属性依次在数据维上标出即可),这样数据库中的每一条数据记录都可以转换成为图形的形式,都可以用一条折线表示在 n 条平行轴上(图 6)。,返回,传统的数据挖掘过程如图1所示,是以机器为中心的;而新的吸纳了可视化技术的数据挖掘过程是以人为中心的,如图2所示。以人为中心的数据挖掘过程,将数据挖掘与可视化技术完美结合,提高了数据挖掘过程的灵活性、有效性、与用户的交互性。,数据挖掘的可视化,在数据挖掘算法所生成的大量的模式中,最终只有少量的信息能够以文字形式解释和评估。因而可视化技术作为服务于计算机与用户之间的沟通纽带,为用户提供关于数据和知识的直观信息。传统的数据挖掘过程不可见、不可观,用户无法干预挖掘过程,对用户来说好像一个黑箱子。使用适当的可视化技术,帮助用户更紧密地与整个过程结合,解决挖掘系统中的存在的一些问题。,返回,数据挖掘中的可视化可分为以下三类:(1)数据可视化。数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别。离散点图可能是数据挖掘中用的最广泛的可视化工具,帮助人们分析数据聚类,观察数据的分布,有无奇异点。对于只有两个或三个属性的数据,可采用平面或立体的表现形式,多个属性的数据集,要用到离散点矩阵,矩阵的每一单元为数据基于某两维的表示。(2)数据挖掘过程可视化。数据挖掘的过程的各个环节用可视化的方式表现出来,用户可从中直观的看到内容。易于理解并有助于知识的运用。(3)数据挖掘模型可视化。有些模型很难被解释,模型可视化可从两个方面考虑:1,让模型输出可视化,模型用一种有意义的方式表示。2,交互,允许用户操纵模型,改变模型输入以观察模型输出的变化。,数据挖掘的可视化,返回,如图3(a)所示。作为观察”数据山“的第一步,应用于数据预处理阶段。以图形方式提供一个数据可视印象,给用户一个大体直观感受,帮助用户确定从何处着手挖掘。如图3(b)所示。作为直接执行数据挖掘的一种方法,应用于数据挖掘实施阶段,允许用户借助人脑的探索分析功能寻找发现模式。当人脑可以对显示的图形做出判断时,这种方式较使用计算机的自动数据挖掘技术有效的多。如果3(c)所示。作为挖掘结果和预测模型的一种方式,应用于数据挖掘的最后阶段,使最终用户能够更好地理解挖掘出的结果模式。,数据挖掘的可视化,返回,可视化技术在数据挖掘中可以起到以下作用:(1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性。(2)利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果。(3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。,数据挖掘的可视化,返回,大数据环境下数据可视化,大数据可视分析是指大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。,返回,大数据环境下数据可视化,上图是经典的信息可视化参考模型大数据分析将掘取信息和洞悉知识作为目标,根据信息的特征把信息可视化技术分为一维信息、二维信息、三维信息、多维信息、层次信息、网络信息、时序信息可视化。随着大数据的兴起于发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务等主流应用领域逐渐催生了几类特征鲜明的信息类型,包括文本、网络或图、时空、多维数据等,这些与大数据密切相关的信息类型,将成为大数据可视化的主要研究领域。,返回,大数据环境下数据可视化,文本信息是大数据时代非结构化数据类型的典型代表。如图所示,典型的文本可视化技术是标签云。,将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化,目前,大多用字体大小代表该关键词的重要性,在互联网的应用中,多用于快速识别网络媒体的主题热度,当关键词规模不断增大时,若不设置阀值,将出现布局密集和重叠覆盖等问题,此时需提供交互界面允许用户对关键词进行操作。,返回,大数据环境下数据可视化,文本中通常蕴含着逻辑层次结构和一定的叙述模式,为了对结构语义进行可视化,如图前者DAViewer将文本以树的形式进行可视化,同时展现了相似度统计,修辞结构以及相应的文本内容。如图后者DocuBurst以放射状层次圆环的形式展示文本结构。,返回,大数据环境下数据可视化,文本的形成和变化过程与时间属性密切相关。如图前者(Theme)用河流作为隐喻,河流从左至右的流淌代表时间序列,文本主题按不同颜色带表示,频度以色带宽窄表示。基于河流的隐喻研究者又提出了后者(TextFlow),进一步展示了主题的合并和分支关系。,返回,大数据环境下数据可视化,网络关联关系是大数据中最常见的关系,例如互联网与社交网络,层次结构也属于网络信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一。对于具有海量节点和边的大规模网络,如何在有限的屏幕空间中进行可视化,将是大数据时代面临的难点和重点.除了对静态的网络拓扑关系进行可视化,大数据相关的网络往往具有动态演化性,因此,如何对动态网络的特征进行可视化,也是不可或缺的研究内容.,返回,大数据环境下数据可视化,研究者提出了大量网络可视化或图可视化技术,Herman 等人 综述了图可视化的基本方法和技术,如图所示.经典的基于节点和边的可视化,是图可视化的主要形式.图中主要展示了具有层次特征的图可视化的典型技术,例如 H 状树 H-Tree、圆锥树 Cone Tree、气球图 Balloon View、放射图 Radial Graph、三维放射图 3D Radial、双曲树 Hyperbolic Tree 等.,返回,大数据环境下数据可视化,对于具有层次特征的图,空间填充法也是常采用的可视化方法,例如树图技术Treemaps 及其改进技术,如图 所示是基于矩形填充、Voronoi 图填充、嵌套圆填充的树可视化技术.Gou 等人综合集成了上述多种图可视化技术,提出了 TreeNetViz,综合了放射图、基于空间填充法的树可视化技术.这些图可视化方法技术的特点是直观表达了图节点之间的关系,但算法难以支撑大规模(如百万以上)图的可视化,并且只有当图的规模在界面像素总数规模范围以内时效果才较好(例如百万以内),因此面临大数据中的图,需要对这些方法进行改进,例如计算并行化、图聚簇简化可视化、多尺度交互等.,返回,大数据环境下数据可视化,大规模网络中,随着海量节点和边的数目不断增多,例如规模达到百万以上时,可视化界面中会出现节点和边大量聚集、重叠和覆盖问题,使得分析者难以辨识可视化效果.图简化(graph simplification)方法是处理此类大规模图可视化的主要手段:一类简化是对边进行聚集处理,例如基于边捆绑(edge bundling)的方法,使得复杂网络可视化效果更为清晰,下图展示了 3 种基于边捆绑的大规模密集图可视化技术.此外,Ersoy 等人还提出了基于骨架的图可视化技术,主要方法是根据边的分布规律计算出骨架,然后再基于骨架对边进行捆绑;,返回,大数据环境下数据可视化,另一类简化是通过层次聚类与多尺度交互,将大规模图转化为层次化树结构,并通过多尺度交互来对不同层次的图进行可视化.例如,如图所示的 ASK-Graphview 能够对具有 1 600 万条边的图进行分层可视化.这些方法技术将为大数据时代大规模图可视化提供有力的支持,同时我们应该看到,交互技术的引入,也将是解决大规模图可视化不可或缺的手段,返回,大数据环境下数据可视化,时空数据是指带有地理位置与时间标签的数据.传感器与移动终端的迅速普及,使得时空数据成为大数据时代典型的数据类型.时空数据可视化与地理制图学相结合,重点对时间与空间维度以及与之相关的信息对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示.大数据环境下时空数据的高维性、实时性等特点,也是时空数据可视化的重点.,返回,大数据环境下数据可视化,为了反映信息对象随时间进展与空间位置所发生的行为变化,通常通过信息对象的属性可视化来展现.流式地图 Flow map 是一种典型的方法,将时间事件流与地图进行融合,下图 显示了使用 Flow map 分别对 1864年法国红酒的出口情况以及拿破仑进攻俄罗斯的情况可视化的例子.,返回,大数据环境下数据可视化,散点图(scatter plot)是最为常用的多维可视化方法,二维散点图将多维中的两个维度属性值集合映射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值,例如,可通过不同形状、颜色、尺寸等来代表连续或离散的属性值。如下图所示.二维散点图能够展示的维度十分有限。研究者将其扩展到三维空间,通过可旋转的 Scatter plot 方块(dice)扩展了可映射维度的数目,如下图中右图所示.散点图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况.,返回,大数据环境下数据可视化,投影(projection)是能够同时展示多维的可视化方法之一.如左图所示,VaR 将各维度属性列集合通过投影函数映射到一个方块形图形标记中,并根据维度之间的关联度对各个小方块进行布局.基于投影的多维可视化方法一方面反映了维度属性值的分布规律,同时也直观展示了多维度之间的语义关系.,平行坐标(parallel coordinates)是研究和应用最为广泛的一种多维可视化技术,如右图 所示,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息.近年来,研究者将平行坐标与散点图等其他可视化技术进行集成,提出了平行坐标散点图 PCP(parallel coordinate plots).,返回,问题与挑战,(1)多源、异构、非完整、非一致、非准确数据的集成与接口大数据可视化所依赖的基础是数据,而大数据时代数据的来源众多。且对来自于异构环境,即使获得数据源,得到的数据的完整性、一致性、准确性都难以保证。数据质量的不确定问题将直接影响可视化分析的科学性和准确性,大数据可视化的前提是建立在集成的数据接口,并且与可视化分析系统形成松耦合的接口关系,以供各种可视化算法方便的调用,使得可视化分析系统的研发者和使用者不需要关系数据接口背后的复杂机理。,返回,问题与挑战,(2)可扩展性问题大数据的数据规模目前已经呈现爆炸式增长,数据量的无限积累与数据的持续演化,导致普通计算机的处理能力难以达到理想的范围,同时主流显示设备的像素数也难以跟上大数据增长的脚步,造成像素的总和还不如要可视化的数据多而且,大量在较小的数据规模下可行的可视化技术在面临极端大规模数据时讲无能为力。所以,大数据可视化分析系统应该具有较好的可扩展性,即感知扩展性和交互扩展性只取决于可视化的精度而不是依赖数据规模的大小,以支持实时的可视化与交互操作。因此,未来如何面对超高维数据的降维以降低数据规模,如何结合大规模并行处理方法与超级计算机,如何将目前有价值的可视化算法和人机交互技术提升和拓展到大数据领域,将是未来严峻的挑战。,返回,问题与挑战,(3)可视化与数据挖掘技术之间的松散关系问题目前,可视化技术运用于数据玩具,一般是作为表达工具,如生成最初的视图,解决负责结构的数据和显示分析结构,而分析方法本身并不包括可视化。现有的项目插入策略,知识简单将分析过程和图形可视化交错在一起,这突出了两者的欠缺和限制。例如,由于传统分析过程不能对多媒体数据进行分析,我们只有放弃在可视化数据挖掘环境中研究电影及音乐,而这本是可视化技术的优势所在。一个更强的可视化数据挖掘策略依赖于将可视化与分析过程紧密结合起来形成一个统一强大的可视化数据挖掘工具。目前,使人类可视地参与到分析过程中以实现决策支持依然是一个主要的挑战:以基于可视化的人类决策代替一个分析过程的某以数据步骤;当决策不再能够自动生成时,以可视化支持人类来及处理决策。,2023年1月8日星期日,谢 谢,

    注意事项

    本文(数据可视化技术分析剖析ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开