欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据仓库与数据挖掘 课件.ppt

    • 资源ID:2137296       资源大小:2.57MB        全文页数:126页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘 课件.ppt

    第四章,数据仓库与数据挖掘,教学目的,教学目的,4.1数据仓库基本原理,1数据仓库的产生,1数据仓库的产生,2DW的应用现状,DW的应用行业,2DW的应用现状,DW在中国应用的特点,2DW的应用现状,DW在中国应用的特点,中国商业智能网站2007年第一次评选的中国十大数据仓库,3、数据仓库的概念,数据仓库定义,3、数据仓库的概念,数据仓库四个特点面向主题,操作型环境 数据仓库,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点面向主题,3、数据仓库的概念,数据仓库四个特点集成的,3、数据仓库的概念,数据仓库四个特点稳定的(非易失性),3、数据仓库的概念,数据仓库四个特点稳定的(非易失性),3、数据仓库的概念,数据仓库四个特点随时间变化,3、数据仓库的概念,数据仓库四个特点随时间变化,4、数据仓库结构,5、数据集市(Data Mart),5、数据集市(Data Mart),数据集市的两种结构,5、数据集市(Data Mart),数据集市的特点,5、数据集市(Data Mart),数据集市与数据仓库的区别,4.2 数据仓库系统,1数据仓库系统结构(P180),1数据仓库系统结构,数据仓库管理,1数据仓库系统结构,数据仓库管理,1数据仓库系统结构,数据仓库管理,2、元数据(P178),2、元数据(P178),2、元数据,关于数据源的元数据,关于数据模型的元数据,关于DW映射的元数据,当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、变换和加载过程。,关于DW映射的元数据,关于DW使用的元数据,3、数据仓库的存储(P182),3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,3、数据仓库的存储,4、数据仓库开发应用实例,基于ERP的数据仓库捷克爱格富集团(Agrofert)是捷克第一大化工公司,一直致力于化工、农业和食品领域产品的研发、生产和贸易。Agrofert 发现,随着企业的快速发展,旗下子公司已经有 160 多个不同的系统在运行。很难提供统一的报告,而且支持和许可成本也不断上升。如果每新购一个系统就扩大一次基础架构,显然不是一种可以扩展的战略。,Agrofert采用 SAP ERP 应用程序作为其部分子公司的共享服务,目的是将其逐渐推广到整个企业,这些应用程序在两个地点的 IBM Power Systems 服务器上集中管理。公司从混合数据库环境(包括 Oracle 和 Microsoft SQL Server)迁移到 IBM DB2,将 IBM DB2 作为其标准数据库,同时还为关键的业务数据部署集中的存储系统。迁移后,不再需要本地系统,能够极大地降低管理、支持和许可成本;借助IBM DB2 可降低许可费用,简化管理并减少员工教育及培训;整合的存储有助于降低成本,而 IBM DB2 深度压缩将会降低总体存储需求;总成本估计减少 20%。,4.3 联机分析处理(OLAP)(on line analytical processing),1数据分析技术,2OLAP的概念,2OLAP的概念,2OLAP的概念,OLTP vs OLAP,2、OLAP的基本概念,2、OLAP的基本概念,2、OLAP的基本概念,2、OLAP的基本概念,2、OLAP的基本概念,3、OLAP的决策支持 多维数据分析,3、OLAP的决策支持 多维数据分析,切片,3、OLAP的决策支持 多维数据分析,切片,3、OLAP的决策支持 多维数据分析,切片,3、OLAP的决策支持 多维数据分析,切块,3、OLAP的决策支持 多维数据分析,旋转,3、OLAP的决策支持 多维数据分析,旋转,3、OLAP的决策支持 多维数据分析,钻取,3、OLAP的决策支持 多维数据分析,钻取,3、OLAP的决策支持 多维数据分析,3、OLAP的决策支持 多维数据分析,OLAP应用实例,OLAP应用实例,三维表,商店ALL 方案现有,对于汽车部门出现的奇怪现象,即销售量下降了13.2%,而利润却增加了21.4%,此时进行向下钻取。,上表中,无括号数为增长率,有括号数表示下降率,下钻数据,2.向下钻取 对汽车部门向下钻取出具体项目(维修、附件、音乐)的销售情况和利润增长情况,切片表,3.切片 切片操作是除去一些列或行不显示,商店ALL 方案现有,旋转表,4.旋转 将方案维加入到销售维中。加入方案维的两种情况:现有和计划,这次旋转操作得到1995年的方案为:现有、计划、差量、差量%。,商店ALL 方案现有,4、OLAP的数据组织,4、OLAP的数据组织,5、OLAP与DW,4.4 数据挖掘(Data Mining),1数据挖掘的产生和概念,1数据挖掘的产生和概念,1数据挖掘的产生和概念,1数据挖掘的产生和概念,2DM的方法与基本流程,SEMMA方法论,2DM的方法论(基本流程),数据取样Sample,数据探索Explore,数据调整Modify,模式化Model,评价Assess,选数据样本,可视化数据探索,聚类、因子分析等,数据重组和细分,添加和拆分记录,人工神经网络,决策树模型,数理统计分析,时间序列分析,结论综合和评价,数据修改?,SPSS的CRISP-DM方法论,2DM的方法论(基本流程),2DM的方法论(基本流程),SPSS的CRISP-DM方法论,3数据仓库产品及解决方案举例,IBM公司的相关系列产品,3数据仓库产品及解决方案举例,IBM公司的相关系列产品,3数据仓库产品及解决方案举例,Oracle相关系列产品,3数据仓库产品及解决方案举例,SPSS产品,3数据仓库产品及解决方案举例,SPSS产品,3数据仓库产品及解决方案举例,关联分析,4DM的决策支持,关联分析,4DM的决策支持,关联分析,4DM的决策支持,关联分析,4DM的决策支持,关联分析,关联分析,4DM的决策支持,关联分析,4DM的决策支持,聚类,4DM的决策支持,分类,4DM的决策支持,预测,4DM的决策支持,决策树概念,5决策树及其应用,决策树概念,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,A1=天气的取值:v1=晴,v2=多云,v3=雨P(v1)=5/14 P(v2)=4/14 P(v3)=5/14P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0,P(u1/v3)=2/5,P(u2/v3)=3/5H(u/v)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4)+0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3)=0.694bit,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各属性求互信息。F1中的天气全取“晴”值,则I(天气)=0,在余下的3个属性中求出“湿度”互信息最大,以它为该分支的根结点。再向下分支,“湿度”取“高”的例子全为N类,该分支标记N;取值“正常”的例子全为P类,该分支标记P。在F3中,对4个属性求互信息,得到“风”属性互信息最大,则以它为该分支的根结点。再向下分支,“风”取“有风”时全为N类,该分支标记N;取“无风”时全为P类,该分支标记P。,ID3方法,5决策树及其应用,ID3方法,5决策树及其应用,C4.5算法用“信息增益率”来选择属性,它克服了用“信息增益”选择属性时偏向选择取值多的属性的不足。在树构造过程中或者构造完成后,进行剪枝。能够完成对连续属性的离散化处理。能够完成对不完整数据的处理,例如未知的属性值。采用的知识表示形式为决策树,并最终可以形成产生式规则。,C4.5方法,5决策树及其应用,配隐形眼镜问题实例(1)患者配隐形眼镜的类别:1:患者应配隐形眼镜;2:患者应配软隐形眼镜;3:患者不适合配隐形眼镜。,实例,5决策树及其应用,实例,5决策树及其应用,(2)患者眼镜诊断信息(属性)a:患者的年纪 年轻;前老花眼;老花眼 b:患者的眼睛诊断结果 近视;远视 c:是否散光 是;否 d:患者的泪腺 不发达;正常,(3)配隐形眼镜实例 现有24个患者实例分别属于3个类别,

    注意事项

    本文(数据仓库与数据挖掘 课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开