数据仓库与数据挖掘综述.ppt
《数据仓库与数据挖掘综述.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘综述.ppt(81页珍藏版)》请在三一办公上搜索。
1、数据仓库与数据挖掘综述,概念、体系结构、趋势、应用,报告人:朱建秋 2001年6月7日,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库概念,基本概念对数据仓库的一些误解,基本概念数据仓库,Data warehouse is a subject oriented,integrated,non-volatile and time variant collection of data in support of managements decision Inmo
2、n,1996.Data warehouse is a set of methods,techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform Ladley,1997.Data warehouse is a process of crating,maintaining,and using a decision-support infrastructure Appleton,1995Haley,1
3、997Gardner 1998.,基本概念数据仓库特征Inmon,1996,面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号Customer ID)每个键码都有时间元素(从日期到日期;每月累积;单独日期)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持,基本概念Data Mart,ODS,Data Mart数据集市
4、-小型的,面向部门或工作组级数据仓库。Operation Data Store操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。,基本概念ETL,元数据,粒度,分割,ETLETL(Extract/Transformation/Load)数据装载、转换、抽取工具。Microsoft DTS;IBM Visual Warehouse etc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据
5、仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。,对数据仓库的一些误解,数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库体系结构及组件,体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具,体系结构 Pieter,1998,SourceDatabases,A
6、rchitectedData Marts,Data Accessand Analysis,End-UserDW Tools,Central DataWarehouse,Central DataWarehouse,Mid-Tier,Mid-Tier,DataMart,DataMart,Local Metadata,MetadataExchange,MDB,DataCleansingTool,Relational,Appl.Package,Legacy,External,RDBMS,RDBMS,带ODS的体系结构,SourceDatabases,ArchitectedData Marts,Data
7、 Accessand Analysis,Central Data Ware-house and ODS,Central DataWarehouse,Mid-Tier,RDBMS,DataMart,Mid-Tier,RDBMS,DataMart,Local Metadata,MetadataExchange,ODS,OLTPTools,End-UserDW Tools,现实环境异质性Douglas Hackney,2001,CustomMarketingData Warehouse,PackagedOracle FinancialData Warehouse,PackagedI2 Supply
8、ChainNon-ArchitectedData Mart,SubsetData Marts,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,e-Commerce,联合型数据仓库/数据集市体系结构,Real TimeODS,FederatedFinancialData Warehouse,SubsetData Marts,CommonStagingArea,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,FederatedPackagedI2 SupplyChainDat
9、a Marts,AnalyticalApplications,e-Commerce,Real TimeData Miningand Analytics,Real TimeSegmentation,Classification,Qualification,Offerings,etc.,FederatedMarketingData Warehouse,Front-and back-office OLTP,e-Business systems,External information providers,CRM Analytics&Reporting,Supply Chain Analytics&R
10、eporting,EKP-Enterprise Knowledge Management Portal,EPM Analytics&Reporting,Business information&recommendations,Informed decisions&actions,Financial Analytics&Reporting,HR Analytics&Reporting,闭环的联合型BI体系结构,数据仓库的焦点问题-数据的获得、存储和使用,Relational,Package,Legacy,Externalsource,DataCleanTool,DataStaging,Enter
11、prise DataWarehouse,Datamart,Datamart,RDBMSROLAP,RDBMS,数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要,ETL工具,去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化,ETL工具体系结构,元数据库及元数据管理,元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-Alex Berson etc,1999技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:数据源信息转换描述(从操作数据库到数据仓库的映
12、射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等,元数据库及元数据管理,商业元数据给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音频、视频等Internet主页支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,元数据库及元数据管理,元数据库(metadata repository)和工具 Martin Stardt,
13、2000,数据访问和分析工具,报表OLAP数据挖掘,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库设计,自上而下(Top-Down)自底而上(Bottom Up)混合的方法数据仓库建模,Top-down Approach,Build Enterprise data warehouseCommon central data modelData re-engineering performed onceMinimize redundancy and incon
14、sistencyDetailed and history data;global data discoveryBuild datamarts from the Enterprise Data Warehouse(EDW)Subset of EDW relevant to departmentMostly summarized dataDirect dependency on EDW data availability,Local Data Mart,External Data,Local Data Mart,Operational Data,自底而上设计方法,创建部门的数据集市范围局限于一个主
15、题区域快速的 ROI-局部的商业需求得到满足本部门自治-设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门 需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标,局部数据集市,操作型数据(局部),局部数据集市,企业数据仓库EDB,数据仓库建模 星型模式,Example of Star Schema,数据仓库建模 雪片模式,DateMonth,Date,Sales Fact Table,Date,Product,Store,Customer,unit_sales,dollar_sales,Yen_sales,Measu
16、rements,MonthYear,Month,Year,Year,Example of Snowflake Schema,操作型(OLTP)数据源-销售库,星形模式,时间维,事实表,多维模型,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库技术 Inmon,1996,管理大量数据能够管理大量数据的能力能够管理好的能力管理多介质(层次)主存、扩展内存、高速缓存、DASD、光盘、缩微胶片监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决
17、定剩余的可用空间利用多种技术获得和传送数据批模式,联机模式并不非常有用程序员/设计者对数据存放位置的控制(块/页)数据的并行存储/管理元数据管理,数据仓库技术 Inmon,1996,数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口数据的高效装入高效索引的利用用位映像的方法、多级索引等数据压缩I/O资源比CPU资源少得多,因此数据解压缩不是主要问题复合键码(因为数据随时间变化)变长数据加锁管理(程序员能显式控制锁管理程序)单独索引处理(查看索引就能提供某些服务)快速恢复,数据仓库技术 Inmon,1996,其他技术特征,传统技术起很小作用事务集成性、高速缓存
18、、行/页级锁定、参照完整性、数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback.基本数据管理,如:块管理,传统DBMS需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析改变DBMS技术多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种
19、技术,数据仓库是一种体系结构的基础双重粒度级别(DASD/磁带),数据仓库技术 Inmon,1996,数据仓库环境中的元数据DSS分析人员和IT专业人员不同,需要元数据的帮助操作型环境和数据仓库环境之间的映射需要元数据数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义上下文和内容(上下文维)简单上下文信息(数据结构/编码/命名约定/度量)复杂上下文信息(产品定义/市场领域/定价/包装/组织结构)外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展)刷新数据仓库数据复制(触发器)变化数据捕获(CDC)(日志),提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数
20、据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库性能 Inmon,1999,使用数据平台服务管理,王天佑 等译,数据仓库管理,电子工业出版社,2000年5月,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库应用 DW用户数的调查,“DW系统的用户在100-500以内或以上是未来一段时期内的主要部分“,DW用户的调查最近一年Meta Group Survey调查对象:3000+
21、用户或意向用户,DW数据规模的调查,DW规模的调查最近一年Meta Group Survey调查对象:3000+用户或意向用户,How Much?,$3-6m for mid-size company,less if smaller,more if larger$10m+for large organizations,large data sets10-50+%annual maintenance costs33%Hardware/33%Software/33%Services,How Long?,2-4 years for 80/20 of full system for mid-size
22、company6-12 months for initial iteration3-6 months for subsequent iterations,How Risky?,For EDW Projects,20%(Meta)to 70%(OTR,DWN)failHigh failure rate for non-business driven initiativesVery few systems meet the expectations of the businessFailure not due to technology,due to“soft”issuesMassive upsi
23、de to successful projects(100%-2000+%ROI)99%politics-1%technology,参考文献,Inmon,W.H.,”Building the Data Warehouse”,Johm Wiley and Sons,1996.Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997.Gardmer
24、,Stephen R.,“Building the Data warehouse”,Communication of ACM,September 1998,Volume 41,Numver 9,52-60.Douglas Hackney,Http:/,DW101:A Practical Overview,2001 Pieter R.Mimno,“The Big Picture-How Brio Competes in the Data Warehousing Market”,Presentation to Brio Technology-August 4,1998.Alex Berson,St
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 综述
三一办公所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。




链接地址:https://www.31ppt.com/p-5270305.html