欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大数据关键技术ppt课件.ppt

    • 资源ID:2118728       资源大小:748KB        全文页数:64页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据关键技术ppt课件.ppt

    大数据关键技术,肖波中央民族大学2014.10.,报告内容,一、大数据时代的诞生二、大数据关键技术三、大数据与高等教育四、我们开展的相关研究,一、大数据时代的诞生,大数据与云计算大数据是云计算的核心内容 大数据改变世界,云计算由何而来?,HPC:High-Performance ComputingHTC:High-Throughput ComputingP2P:Peer to PeerMPP:Massively Parallel Processors,最早是由天文学和基因学创造出了“大数据”这一概念。自然2008年大数据专刊,大数据名称的起源,一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节,大数据的定义,大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。,大数据的定义,大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构。,大数据的4V,Volumes(GB-TB-PB-EB-ZB-)Variety(all-structure,semi-structure,non-struture)Velocity(speed,frequency)Value(information),二、大数据关键技术,大数据采集与预处理大数据存储及管理大数据计算模式与系统大数据分析与挖掘大数据可视化计算大数据隐私与安全大数据应用技术,大数据采集与预处理,大数据采集所说的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。,Big Data,数据的结构结构化、非结构化、半结构化数据,-12-,结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者,大数据采集的四种来源,管理信息系统(结构化数据)Web信息系统(非结构化,半结构化)物理信息系统(传感器,多媒体数据)科学实验系统(仿真数据),大数据预处理技术,主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。,预处理取得进展的技术,异构数据集成技术WEB中实体识别技术 DeepWeb技术(Web中不能被传统的搜索引擎索引到的那部分内容)传感器网络融合技术-数据清洗和质量控制工具:Data Flux,Data Stage,InformaticalPowe Center.,数据质量(缺乏系统研究),精确性(数据符合规定的精度)一致性(数据之间不能存在相互矛盾)完整性(数据的值不能为空)同一性(数据的标识是唯一的)时效性(数据的值反映了实际的状态)真实性(数据不能是虚假的),预处理技术发展趋势,数据源的选择和高质量原始数据的采集方法(建立数据源质量评估模型)多源数据的实体识别和解析方法数据清洗和自动修复方法(清除错误,修复信息)高质量数据整合方法(智能模式抽取和匹配)数据演化的溯源管理(追踪数据演化过程),2.大数据存储与管理技术,主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。,大数据给存储系统的挑战,存储规模大(PB,EB)存储管理复杂(多结构)数据服务的种类和要求高(性能,可靠性),大数据主要存储技术,分布式文件系统分布式数据库访问接口和查询语言(MapReduce编程接口,Pig Latin 等),大数据下的存储概念,数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件,-21-,分布式MPP数据仓库代表产品特性比较,-22-,3.大数据计算模式与系统,大数据计算模式 根据大数据的各种不同数据特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。(MapReduce,RDD,GPA等),大数据处理的特征,数据结构(all,semi,non)数据获取处理方式(batch,stream)数据处理类型(analysis,mining)实时性或相应性能(real,non-real)迭代计算(iterative)数据关联性(simple,graph)并行计算体系结构(cluster,memory),MapReduce的步骤,数据分区计算分区决定主从服务器读取输入数据Map函数排序与分组(根据键值)Combiner函数(合并本地数据)Partitioning函数(相同键值划分到一个区)同步与通信(所有服务器同时完成)排序与分组Reduce函数,Logical Data Flow in 5 Processing Steps in MapReduce Process,(Key,Value)Pairs are generated by the Map function over multiple available Map Workers(VM instances).These pairs are then sorted and group based on key ordering.Different key-groups are then processed by multiple Reduce Workers in parallel.,A Word Counting Example on Distribution,Linking the Map Workers and Reduce Workers by Key Matching in Partitioning Functions,Fig.6.5 Dataflow Implementationof MapReduce,分布式文件系统,海量数据存储,大规模计算,智能分析算法,大数据技术架构-典型开源实现,计算模式发展趋势,Hadoop平台改进后将与其他计算模式和平台共存(Hadoop2.0)混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。(Spark:迭代、批处理、内存计算、流式计算、shark、图计算)内存计算将成为高实时性大数据处理的重要技术手段和发展方向。(Hana,Spark),4.大数据分析与挖掘技术,大数据挖掘面临的挑战数据量膨胀(TB)数据深度分析需求的增长(路径分析,时间序列分析,图分析,What-if分析等)自动化、可视化分析需求的出现(自动查询,自动分析等),数据挖掘技术,机器学习,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。,大数据分析与挖掘课题,改进已有数据挖掘和机器学习技术(并行,分布);开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。,大数据挖掘当前进展,R和Hadoop的深度集成Weka和MapReduce的集成基于Hadoop的数据挖掘开源程序库(Apache Mahout项目)大数据挖掘算法的提出(大数据关联、聚类、分类、神经网络算法)大规模图数据分析方法(基于内存算法,基于集群算法),大数据挖掘未来发展,更加复杂、更大规模的分析和挖掘(时间序列分析,大规模图分析,大规模社会计算等)大数据的实时分析和挖掘(几十TB的实时挖掘问题还没有解决)大数据分析和挖掘的基准测试(了解各种大数据分析和挖掘系统的优缺点),大数据挖掘需突破的技术,可视化分析数据挖掘算法预测性分析语义引擎数据质量和数据管理,可视化分析,数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。,数据挖掘算法,数据挖掘算法。统计、分类、聚类、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。改进算法使得这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。,预测性分析,预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。,语义引擎,语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。,数据质量和数据管理,数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。,5.大数据可视化分析,在大数据时代,除了直接的统计或者数据挖掘的方式,可视化通过交互式视觉表现的方式来帮助人们探索和解释复杂的数据。,可视化流程,数据 可视化 图像 感知和认识 知识,设置 探索,数据 可视化 用户,四种基本技术,数据流线化(大数据分为相互独立的子块依 次处理SPSD)任务并行化(一个算法分成多个独立的任务模块平行处理MPSD)管道并行化(同时处理面向不同数据的任务的多个独立任务模块MPMD)数据并行化(数据分块后进行平行处理 SPMD),可视化发展趋势,原位分析(内存进行分析,而不再硬盘)可视化中的人机交互(提供界面,专家参与)协同与众包可视分析(多用户协调工作)可扩展性与多级层次问题(在不同层面不同解析度下浏览分析)不确定分析和敏感性分析(了解数据不确定来源和风险)可视化与自动数据计算挖掘的结合(直观与计算结合)面向领域和大众的可视化工具库(领域需求不同),6.大数据隐私与安全,大数据时代的安全问题更加复杂(集中)使用过程中存在安全问题(黑客)对大数据需求高的团体面临更多安全挑战基于位置的隐私暴露严重缺乏相应的法律法规保证大数据的共享问题(有效性和加密性)真实数据的动态性变化多元数据的融合挑战(来自工作、生活),安全技术当前进展,文件访问控制技术基础设备加密匿名化保护技术加密保护技术基于数据失真的技术基于可逆的置换算法,安全技术发展趋势,NoSQL有待进一步完善开展对APT攻击的研究对多元数据融合提出新的安全隐私保护技术保护分布式系统所有站点的安全社教网络加强安全隐私保护数据采集、存储、分析安全三权分立,APT(Advanced Persistent Threat),高级持续性威胁。利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式。APT攻击的原理相对于其他攻击形式更为高级和先进,其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集。在此收集的过程中,此攻击会主动挖掘被攻击对象受信系统和应用程序的漏洞,利用这些漏洞组建攻击者所需的网络,并利用0day漏洞进行攻击。,7.大数据应用技术,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。,大数据与互联网,电子商务(消费、团购、支付)网络广告(效果、相应)网络新闻(搜索、爱好、习惯)旅行预订(游客、景点、饭店)及时通信(关注、热点、民意)网络视频(爱好、习性),大数据与网络通信,联通(Hadoop技术查询与分析支撑系统)移动(BC-Hadoop大数据平台,BC-PDM&ETL并行数据挖掘,BI-PAAS大数据应用平台)电信(智慧城市,物联网加大数据),大数据与网络安全,实体-行为模型(聚类分析)信息萃取技术(语音识别、视频分析、嗅探、VPN网络)人机结合分析组建国家网络安全力量研发防御网络武器制定数据采集政策,大数据与医疗医药,居民健康档案数据管理电子病历的发掘与利用基因组学数据应用健康应用医疗数据分析精神卫生应用,大数据与智慧城市,交通监控信息GPSGIS交通卡高速公路收费水电气社教网络,大数据的技术挑战,大数据的去冗降噪技术大数据的新型表示方法高效率低成本的大数据存储大数据的有效融合非结构化和半结构化数据的高效处理适合不同行业的大数据挖掘分析工具和开发环境大幅度降低数据处理、存储和通信能耗新技术,大数据技术发展趋势,数据资源化解决大数据隐私问题大数据与云计算深度融合产生基于海量数据的智能产生大数据分析的革命化方法大数据安全数据科学兴起形成数据共享联盟更大的数据大数据催生新职业,冷眼看大数据,大数据分析只能预测一个人或者事件未来很有可能进行的行为或发生的可能性大数据获取的是相关关系,而因果关系需要人类去分析和查证任何事情过犹不及,大数据不是万能的。也有人说大数据是新的泡沫。,84,关于大数据研究的几点体会,大数据应用前景广阔,课题繁多;宜先行展开数据挖掘的研究;数据预处理是一件值得推敲的难事;应及早展开对Hadoop+HDFS体系的研究;不同应用对软件环境和工具需求不同;大数据处理人才是关键。,除了上帝,谁都要用数据说话,谢谢大家!,

    注意事项

    本文(大数据关键技术ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开