数据仓库与数据挖掘原理与应用8数据挖掘介绍.ppt
《数据仓库与数据挖掘原理与应用8数据挖掘介绍.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘原理与应用8数据挖掘介绍.ppt(97页珍藏版)》请在三一办公上搜索。
1、数据挖掘介绍,数据挖掘基本概念,近年来数据挖掘引起了人们的极大关注,其主要原因是:存在大量的数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。,数据挖掘基本概念(续),数据挖掘是信息技术自然演化的结果。数据收集和DB创建机制的早期开发已成为稍后数据管理有效机制开发的必备基础,随着提供查询和事务处理的大量DBS广泛付诸实践,数据分析和理解自然成为下一个目标。,数据挖掘基本概念(续),这必将带来对强有力的数据分析工具的需求。实际上,面对快速增长的海量数据,没有强有力的工具,理解它们已远远超
2、出了人们的能力。回顾数据管理技术:DB技术:能有效地存储数据和查询数据,但不能有效地分析数据。,数据挖掘基本概念(续),DW与OLAP技术:具有汇总、合并和聚集功能,以及从不同的角度观察数据的能力。但只是客观、忠实地表现出用户想查询的众多因素分析汇总得出的报表,而报表的翻译将由用户判断。即缺乏对数据的深层次分析。,数据挖掘基本概念(续),DM技术:特别强调挖掘隐藏在大型数据集中有趣的数据模式(知识、规律),用于决策过程控制、信息管理、查询处理等。不但分析数据,而且帮助用户得知原因,并预测未来。,模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模
3、式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,数据库应用的规模和深度点 线 面 互联网 在线分析处理(OLAP)在线事务处理 决策支持(DS)(OLTP)数据挖掘(Data Mining),数据挖掘基本概念(续),因此,数据挖掘被普遍认为是非常有效的数据分析工具,是信息产业最重要的前沿之一,是最有前途的交叉学科。,数据挖掘基本概念(续),数据挖掘涉及多学科技术的集成:DB技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析。,数据挖掘基本概念(续),广义观点:数据挖掘是从存放在DB,DW或其他信息库中的
4、大量数据中挖掘有趣知识的过程。,“从数据中发现有用模式”历来有很多称法,如:数据挖掘(data mining)知识提取(knowledge extraction)信息发现(information discovery)信息收获(information harvesting)数据考古(data archaeology)数据模式处理(data pattern processing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,数据挖掘的发展,7080年代:知识发现与数据挖掘结合1989年6月:在美国底特律举行了第一届“从数据库中知识发现”的国际
5、学术会议,在这次会议中第一次使用了KDD 这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。1995:加拿大召开第一届知识发现与数据挖掘国际学术会议,历届有关KDD的学术会议,数据挖掘的发展,数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix,Oracle,IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于1997年3月创刊。国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖
6、掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。,DM系统的体系结构(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW 系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,数据挖掘系统的结构,数据挖掘系统可以采用三层的C/S结构:第一层:为图形用户界面,位于系统的客户端;第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端;第三层:为数据库与数据仓库,位于数据服务器端。,数据挖掘
7、系统的结构图形用户界面,该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。,数据挖掘系统的结构 数据挖掘引擎,数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。,数据挖掘系统的结构数据库与数据仓库,该部分位于数据服务器端,包括数据库、知识库、文件系统
8、、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。,数据挖掘概述,KDD定义研究 选择目标 数据 数据 模式 应用问题域 数据集 预处理 挖掘 解释与评价KDD步骤,数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:数据的选择:选择相关的数据数据的净化:消除噪音、冗余数据数据的推测:推算缺失数据数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之
9、间的计算组合等数据的缩减:减少数据量,数据挖掘的过程,数据挖掘的过程,挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,数据挖掘的过程,评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。,数据挖掘的过程,巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形
10、成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,数据挖掘的数据源,1.关系数据库2.数据仓库3.事务数据库,数据挖掘的数据源(续),空间数据库 时间数据库和时间序列数据库 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW,数据挖掘的功能,数据挖掘任务分两类:描述式数据挖掘:刻划DB中数据的一般特性。预测式数据挖掘:在当前数据上进行推断,以进行预测。,数据挖掘的功能(
11、续),数据挖掘系统应具备:能够挖掘多种类型的模式能够发现各种粒度的模式允许用户给出指示,指导或聚焦有趣模式的搜索。,1.总结规则挖掘,它所要做的是从指定的大量数据中挖掘出(从不同的角度或在不同的层次上)平均值/极小值/极大值、总和、百分比等。挖掘结果运用交叉表、特征规则和统计的曲线图表等表示。,2.关联规则挖掘,通过关联分析发现关联规则。即给定一组项和一个记录集合,通过分析记录集合,推导出项之间的相关性。,2.关联规则挖掘(续),典型的例子:购物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯,通过了解哪些商品频繁地被顾客同时购买,用于制定营销政策。,3.分类规则
12、挖掘,在已知训练数据的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型,然后再用这些分类的描述或模型来对未知的新数据进行分类。,4.群集规则挖掘,又称为无监督式的分类,其目的在于实事求是地、即客观地按被处理对象的特征分类,有相同特征的对象被归为一类。它与分类规则挖掘的区别在于:分类面向训练数据,而群集则直接对数据进行处理。,4.群集规则挖掘(续),在群集化作业中,我们并不需要事先定义好该如何分类,同时也不需要训练组的数据,数据是依靠本身的相似性而群集在一起,而群集的意义也是要靠事后的解释才能得知。,5.预测分析,当分类工作偏向于插入漏掉的数据、预测数据分类或发展的趋势时,就是预测分
13、析。所有用来进行分类及估计的技术都可以经修正之后,通过已知变量数值的训练组数据来得到。,5.预测分析(续),其中历史数据就是很好的数据来源。历史数据可以用来建立模型,以检查近年来观察值的变化。若运用最新数据作为输入值,可以获得未来变化的预测值。,5.预测分析(续),像“购物篮”分析,就可以预测在超市中哪些商品总是会被同时购买。而经过修正后,也可以通过最新的更新数据来预测未来的购买行为。,6.趋势分析,又称时间序列分析。描述行为随时间变化的对象的规律或趋势,并对其建模。,7.偏差分析,又称比较分析,它找出一系列判别式的规则,以区别客户设置的两个不同类别。,8.孤立点分析,DB中有些数据,它们与大
14、多数数据的一般行为或模型不一致,称其为孤立点,大部分挖掘方法将孤立点视为噪声或异常而丢弃。而在一些应用中,罕见事件可能比正常出现的更有意义。,数据挖掘分类,数据挖掘有几种分类方法1、根据挖掘的数据源类型分类2、根据采用的挖掘技术分类3、根据发现的知识类型分类,描述性挖掘,1、特征与比较描述2、关联规则挖掘3、聚类分析,预测性挖掘,1、数据分类2、数值预测,数据挖掘方法,数据挖掘的主要方法及其重点如下:1.统计分析方法统计分析方法主要用于完成知识总结和关系型知识挖掘。对关系表中各属性进行统计分析,找到它们之间存在的关系。,1.统计分析方法(续),在关系表的属性间一般存在两种关系:函数关系 相关关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 原理 应用 介绍
三一办公所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。




链接地址:https://www.31ppt.com/p-2998470.html