欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    6数据挖掘技术专题.ppt

    • 资源ID:2310329       资源大小:983.50KB        全文页数:99页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    6数据挖掘技术专题.ppt

    数据挖掘技术专题,数据挖掘技术的由来 数据挖掘的定义 数据挖掘应用 数据挖掘的基本技术 数据挖掘的基本算法 基于Excel的数据挖掘软件工具,数据挖掘技术的由来,我们现在已经生活在一个网络化的时代,网络技术大大提高了人的生存质量和人的素质,使人成为社会人、全球人。网络之后的下一个技术热点是什么?,网络之后的下一个技术热点,数据挖掘技术的由来,纽约时报由60年代的1020版扩张至现在的100200版,最高曾达1572版;北京青年报也已是1640版;市场营销报已达100版。在现实社会中,人均日阅读时间通常为3045分钟,只能浏览一份24版的报纸。,网络之后的下一个技术热点,数据挖掘技术的由来,大量信息在给人们带来方便的同时也带来了一大堆问题:第一:是信息过量,难以消化;第二:是信息真假难以辨识;第三:是信息安全难以保证;第四:是信息形式不一致,难以统一处理。,网络之后的下一个技术热点,数据挖掘技术的由来,“要学会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”数据开采和知识发现(DMKD)技术应运而生,网络之后的下一个技术热点,数据挖掘技术的由来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,数据爆炸但知识贫乏,数据挖掘技术的由来,海量数据搜集强大的多处理器计算机数据挖掘算法,支持数据挖掘技术的基础,数据挖掘技术的由来,从商业数据到商业信息的进化,数据挖掘技术的由来,数据挖掘逐渐演变的过程,机器学习,专家系统,机器学习,数据挖掘的定义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,技术上的定义及含义,数据挖掘的定义,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题,技术上的定义及含义,数据挖掘的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,商业角度的定义,数据挖掘的定义,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.,数据挖掘与传统分析方法的区别,数据挖掘的定义,数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。,数据挖掘和数据仓库,数据挖掘的定义,数据挖掘和数据仓库,数据源,数据仓库,各分公司数据集市,分析数据集市,数据挖掘数据集市,数据挖掘的定义,数据挖掘和数据仓库,数据源,数据挖掘库,数据挖掘的定义,在线分析处理(OLAP,On-Line analytical processing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。,数据挖掘和在线分析处理,数据挖掘的定义,传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。,数据挖掘和在线分析处理,数据挖掘的定义,比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。,数据挖掘和在线分析处理,数据挖掘的定义,数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。,数据挖掘和在线分析处理,数据挖掘的定义,比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。,数据挖掘和在线分析处理,数据挖掘的定义,数据挖掘,机器学习和统计分析,数据挖掘,统计分析,预测,简单的方法,复杂的方法,数据挖掘的定义,数据挖掘,机器学习和统计分析,数据挖掘,统计方法,模式识别,人工智能,封装,预测,数据挖掘的定义,软硬件发展对数据挖掘的影响,存贮性能的提高,计算能力的提高,并行处理技术,数据挖掘应用,欺诈侦测,AT&T 使用根据数据挖掘开发的系统来侦测盗打国际电话的行为。由HNC 公司开发的队LCON 欺诈评估系统用于提示可能存在的盗用信用卡的交易。金融犯罪执法网络Al 系统(FAIS)使用包括数据挖掘在内的几种技术,识别大型现金交易中可能存在的洗钱行为。个人通讯高级安全(Advanced security for Personal communications)欧洲研究组织己经利用无指导聚类侦测移动电话网络中的欺诈。对每个用户,系统储存用户的历史和使用特征文件。在当前使用与用户的历史情况有明显区别时,怀疑为欺诈行为。,数据挖掘应用,卫生保健,Merck-Medco Managed care,Merck 的一个医药保险和处方电邮订购单位,使用数据挖掘来帮助找出对某种类型的病人减少费用但疗效相同的治疗方法。生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因,这都需要数据挖掘技术的支持。,数据挖掘应用,商业和金融,Farmers Group 有限公司如何使用数据挖掘方法得出拥有跑车的人不具有高事故风险的假设。美国银行(Bank of America)使用数据挖掘侦测哪个客户正在使用美国银行的哪种产品,以便他们能够提供正确的产品和服务组合,更好地满足客户的需求。美国西部通信(US West Communications)根据诸如家庭的大小、家庭成员的平均年龄和所在地这些特征,使用数据挖掘和数据仓库来确定客户的倾向和需要。20 世纪Fox公司分析票房收入来确定哪个演员、情节和电影在各市场环境中更容易为观众接受。,数据挖掘应用,科学应用,射线爆是短暂的伽玛射线反射,它来源于我们太阳系之外。有关事件的记录已经超过1000 次。科学界普遍认为存在两种了射线爆。Mukherjee 等人使用统计聚类分析法(一种数据挖掘方法)发现了第3 类了射线爆。,数据挖掘应用,运动和游戏,大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。游戏产业将客户赌博方式的历史模型结合起来,确定客户在光顾他们喜欢的赌场时,会花(输)多少钱。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,我们年轻时,用归纳形成基本概念定义。我们看到代表动物、植物、建筑物和诸如此类的概念实例后,我们听到为这些个别实例做的标记,并选择我们认定的定义概念的特性(属性)形成我们自己的分类模型。这以后,我们使用模型帮助我们进一步来区分结构相似的对象。这种类型的学习称为基于归纳的有指导的概念学习,或简称有指导的学习(supervised learning),数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,Yes,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,如果病人淋巴肿,诊断为链球菌感染性咽炎。如果病人没有淋巴肿的症状,但发烧,诊断为感冒。如果病人没有淋巴肿,也不发烧,诊断为敏感症。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,(1)IF 淋巴肿=Yes THEN 诊断=链球菌感染性咽炎(2)IF淋巴肿=No&发烧=Yes THEN 诊断=感冒(3)IF 淋巴肿=No&发烧=No THEN 诊断=敏感症,产生式规则,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,未知分类的数据实例,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,准确度在检验集中符合产生式规则条件的实例正确显示规则所指定结果的比率。覆盖率在检验集中显示规则所指定结果的实例符合产生式规则条件的比率。,产生式规则应用效果的评价指标,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,分类学习是有指导的。因变量是分类的。重点在于建立模型,将新的实例指派给一组定义明确的类中的一个。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,分类任务的例子确定用于区分患过心脏病的人和从未患过心脏病的人的特征。开发一个“成功”人士的特征文件。确定一次信用卡购物是否为盗用。将一次购车贷款申请归类为具备良好的或者不良的信用风险。开发一个特征文件来区别女性与男性中风患者。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,估计与分类模型相似,估计模型的目的在于确定一个未知输出属性的值。然而,不同于分类模型的是,对一个估计问题,其输出属性值(一个或多个)是数值的而不是分类的。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,估计任务的例子估计暴风雨到达某个给定地点所需要的分钟数。估计拥有一辆跑车的人的工资。估计信用卡已被盗的可能性。估计伽马射线爆的长度。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,预测与分类模型和估计模型不同,预测模型的目的在于确定未来的输出结果而不是当前的行为。预测模型的输出属性(一个或多个)可以是分类的或数值型的。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,预测任务的例子预测2002 年全美橄榄球联盟(NFL)赛季中跑卫的触地总得分。确定一个信用卡客户是否可使用其信用卡账单提供的优惠。预测下周道琼斯工业指数的收盘价格。预测在未来的3个月内,哪些电话用户最有可能改变他们的供应商。,有指导学习的类型,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,心脏病病人数据,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,心脏病病人数据,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,IF 169 Maximum Heart Rate 202THEN Concept Class=Healthy规则准确度:85.07%规则覆盖率:34.55%,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,警告1 正常状态下测量你的最大心率,若该值偏低,你可能有患心脏病的危险。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,警告2 如果你患有心脏病,可以预期你的最大心率会降低。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,警告3 最大心率偏低将导致患心脏病。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,数据挖掘,可以指出属性间的关系,但是不能弄清这些关系间是否隐含着因果关系。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,Acme信用卡公司信用卡促销数据库,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,假设Acme 信用卡公司己经批准了一个与上表所列的以前的促销相似的新的寿险促销活动。这个促销材料将作为信用卡账单的一部分发送给非零余额的所有信用卡持有者。我们将使用数据挖掘来帮助我们把账单发送到选定的一组客户手中,他们当前没有信用卡余额,但有可能利用促销机会。我们的问题要求有指导数据挖掘使用寿险促销作为输出属性。我们的目的是开发一个可能利用寿险促销的客户的特征文件,该寿险促销是通过该客户下一次信用卡结算表来宣传的。,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,IF 性别=Female&19=Age=43 THEN 寿险促销=Yes规则准确度:100.00%规则覆盖率:66.67%,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,IF Sex=Male&Income Range=40-50KTHEN寿险促销=No规则准确度:100.00%规则覆盖率:50.00%,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,IF 信用卡保险=YesTHEN寿险促销=Yes规则准确度:100.00%规则覆盖率:33.33%,数据挖掘的基本技术,有指导的数据挖掘技术有指导的学习,IF 收入=30-40K&手表促销=YesTHEN寿险促销=Yes规则准确度:100.00%规则覆盖率:33.33%,数据挖掘的基本技术,无指导数据挖掘技术无指导聚类,与有指导学习不同,无指导聚类(unsupervised clustering)为无预定义类数据建立模型。数据实例根据聚类系统定义的相似分类机制进行分组,在一种或多种评估技术的支持下,最终由我们确定所构造聚类的含义。,数据挖掘的基本技术,无指导数据挖掘技术无指导聚类,Acme 投资有限公司代理帐户数据,数据挖掘的基本技术,无指导数据挖掘技术无指导聚类,有指导学习的典型问题我可以开发一个在线投资人的一般特征文件吗?如果可以,区分在线投资者和使用经纪人的投资者的特征是什么?有一个新客户,他最初并没有开设交易保证金账户,我是否可以确定他在将来会开设这样的账户?我们能建立一个准确预测新投资人每月交易平均数的模型吗?女性和男性投资人有什么不同特征?,数据挖掘的基本技术,无指导数据挖掘技术无指导聚类,无指导聚类的典型问题哪些属性相似性决定Acme 投资公司的客户分组?属性值的哪些不同之处分割了客户数据库?,数据挖掘的基本技术,无指导数据挖掘技术无指导聚类,通过无指导聚类将客户划分为3类,IF 保证金帐户=Yes&年龄=2029&收入=40-59K THEN Cluster=1准确度0.80 覆盖率0.50 IF 帐户类型=Custodial&爱好=Skiing&收入=80-90KTHEN Cluster=2准确度=0.95覆盖率=0.35 IF 帐户类型=Joint&交易量/月5&交易方式=OnlineTHEN Cluster=3准确度0.82覆盖率0.65,数据挖掘的基本技术,关联规则挖掘技术,关联规则(association rule)挖掘技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出属性。同时,一个规则的输出属性可以是另一规则的输入属性。关联规则分析有时也叫购物篮分析,是因为它可以找寻出潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条关联规则。,数据挖掘的基本技术,关联规则挖掘技术,通过apriori关联规则挖掘算法,从Acme公司信用卡促销数据库可以得到以下关联规则:,IF 性别=Female&年龄=over40&信用卡保险=NoTHEN 寿险促销=YesIF 性别=Male&年龄=over40&信用卡保险=No THEN寿险促销=NoIF 性别=Female&Age=over40THEN 信用卡保险=No&寿险促销=Yes,数据挖掘的基本算法,C4.5 建立决策树的算法,算法步骤,A.假设T为训练实例集B.选择一个最能区别T中实例的属性(属性的优度值最大)C.创建一个树结点,它的值为所选择的属性。创建该结点的子链,每个子链代表所选属性的一个唯一值。D.对C所创建的每个子类:a.如果子类中的实例满足预定义的标准(如达到最小训练集分类准确度),或者,沿这条路径的剩余可选的属性集为空,为沿此决策路径的新实例指定类别。b.如果子类不满足预定义的标准并且至少有一个属性能进一步细分树的路径,设T为当前子类实例集合,返回步骤B,数据挖掘的基本算法,C4.5 建立决策树的算法,属性优度值,按某一属性对训练实例集进行分类,分类的准确度除以分支的个数,即为该属性的优度值。如:按属性A对训练实例集进行分类,可以得到n个子类,而分类的准确度(正确分类的实例数/实例总数)为p,则属性的优度值为 p/n,数据挖掘的基本算法,C4.5 建立决策树的算法,Acme信用卡公司信用卡促销数据库,数据挖掘的基本算法,C4.5 建立决策树的算法,以收入范围作为分类属性,分类准确度:11/15=0.73属性优度 0.73/4=0.183,数据挖掘的基本算法,C4.5 建立决策树的算法,以信用卡保险作为分类属性,分类准确度:9/15=0.6 属性优度 0.6/2=0.3,数据挖掘的基本算法,C4.5 建立决策树的算法,以性别作为分类属性,分类准确度:10/15=0.67 属性优度 0.67/2=0.33,数据挖掘的基本算法,C4.5 建立决策树的算法,以年龄作为分类属性,年龄是数值属性,须先对其进行排序,然后作二元划分,19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N N N 年龄19,19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N N N 年龄42,数据挖掘的基本算法,C4.5 建立决策树的算法,以年龄作为分类属性,分类准确度:12/15=0.8 属性优度 0.8/2=0.4,数据挖掘的基本算法,C4.5 建立决策树的算法,年龄属性的优度值最大,以此形成第1个结点,数据挖掘的基本算法,C4.5 建立决策树的算法,年龄=43的分支以性别属形成第2个结点,数据挖掘的基本算法,C4.5 建立决策树的算法,性别=male的分支以信用卡保险属形成第3个结点,数据挖掘的基本算法,apriori 关联规则挖掘算法,假设我们想确定顾客对下列4 种食品店食品的购买倾向,是否存在有趣的联系:牛奶奶酪面包鸡蛋可能包括下列的关联:如果顾客购买牛奶,那么他们也会购买面包。如果顾客购买面包,那么他们也会购买牛奶。如果顾客购买牛奶和鸡蛋,那么他们也会购买奶酪和面包。如果顾客购买牛奶、奶酪和鸡蛋,那么他们也会购买面包。,数据挖掘的基本算法,apriori 关联规则挖掘算法,关联规则的置信度:关联规则在在满足前提的情况下,其结论可能出现的概率。,数据挖掘的基本算法,apriori 关联规则挖掘算法,关联规则:如果顾客购买牛奶,那么他们也会购买面包。如果顾客购买面包,那么他们也会购买牛奶。是不是一样呢?,数据挖掘的基本算法,apriori 关联规则挖掘算法,如果有10000次顾客交易里购买了牛奶,而且其中的5000个也购买了面包,则购买牛奶的情况下,购买面包的置信度为5000/10000=50%假设有20000 次顾客交易里购买了面包,其中5000个也购买了牛奶。在购买面包的情况下,购买牛奶的置信度是25%。,数据挖掘的基本算法,apriori 关联规则挖掘算法,关联规则的支持度:包含关联规则中出现的属性值的交易占所有交易的百分比。,数据挖掘的基本算法,apriori 关联规则挖掘算法,对于关联规则:如果顾客购买牛奶,那么他们也会购买面包。如果在1000次交易中,如果有300次交易即购买了牛奶又购买了面包,则上述规则的支持度是30%,数据挖掘的基本算法,apriori 关联规则挖掘算法,算法步骤:按给定的最小支持度由数据库生成条目集。按给定的最小置信度由条目集创建一组关联规则。,数据挖掘的基本算法,apriori 关联规则挖掘算法,Acme信用卡公司信用卡促销数据库,数据挖掘的基本算法,apriori 关联规则挖掘算法,假设最小支持度为25%(即每一条规则至少要有15*0.254个实例出现规则中的属性)假设最小置信度为80%,数据挖掘的基本算法,apriori 关联规则挖掘算法,生成单项集合,杂志促销=Yes条目数:7(加入),数据挖掘的基本算法,apriori 关联规则挖掘算法,生成单项集合,杂志促销=No条目数:3(放弃),数据挖掘的基本算法,apriori 关联规则挖掘算法,单项集合,数据挖掘的基本算法,apriori 关联规则挖掘算法,生成双项集合,杂志促销=Yes&手表促销=Yes条目数:3(放弃),数据挖掘的基本算法,apriori 关联规则挖掘算法,生成双项集合,杂志促销=Yes&手表促销=No条目数:4(加入),数据挖掘的基本算法,apriori 关联规则挖掘算法,双项集合,数据挖掘的基本算法,apriori 关联规则挖掘算法,三项集合,数据挖掘的基本算法,apriori 关联规则挖掘算法,由双项与三项集合表生成关联规则,对所有不能满足最小置信度的规则予以丢弃。,数据挖掘的基本算法,apriori 关联规则挖掘算法,由双项集合 杂志促销=Yes&寿险促销=Yes 可生成关联规则:IF杂志促销=Yes THEN寿险促销=Yes(5/7)置信度=5/7=0.710.8(放弃规则),数据挖掘的基本算法,apriori 关联规则挖掘算法,由三项集合 手表促销=No&寿险促销=No&信用卡保险=No 可以生成关联规则可以包括:IF 手表促销=No&寿险促销=No THEN 信用卡保险=No(4/4 保留)IF手表促销=No THEN 寿险促销=No&信用卡保险=No(4/6 放弃)IF 信用卡保险=NoTHEN 手表促销=No&寿险促销=No(4/8 放弃),数据挖掘的基本算法,其它数据挖掘算法,K-平均值算法(一种无指导聚类算法)遗传算法(可用于有指导学习的算法)神经网络算法(可用于有指导学习的算法),iDA基于Excel的数据挖掘软件工具,iDA简介,iDA是上个基于Excel的数据挖掘工具,主要包括两个工具:,ESX:是一个基于样本的数据挖掘工具,即可用于的指导的学习,也可以用于无指导的聚类。Neural Network:基于神经网络算法的数据挖掘工具,用于有指导学习的反向传播神经网络和用于无指导聚类的自组织特征映射。,iDA基于Excel的数据挖掘软件工具,iDA安装,修改Excel宏安全级别到中或低安装Java运行库安装iDA,iDA基于Excel的数据挖掘软件工具,iDAV 格式的数据挖掘,第1行的各列是属性名第2 行的每一列为C或R。如果对应的属性数据类型为分类的(标称),则在第2 行的该列上放置一个C。如果输入的数据是实际的值(数值型的),则在第2 行的该列土放置一个R。第3 行说明了有关ESX 属性用途的信息。I:输入的属性;U:不使用的属性;D:不用于分类或聚类的属性,但属性值汇总信息显示在所有的输出报表里;O:输出的属性从第4行开始,输入实际值,每个新行包括一个数据实例。,iDA基于Excel的数据挖掘软件工具,用于无指导聚类的5 步法,将要挖掘的数据输入到个新的Excel 文件中。执行一个数据挖掘会话。读并解释汇总结果。读并解释各个聚类的结果。可视化并解释定义各个聚类的规则。,iDA基于Excel的数据挖掘软件工具,用于有指导学习的6 步法,将要挖掘的数据输入一个Excel 电子表格并选择一个输出属性执行个数据挖掘会话。阅读并解释汇总结果。阅读并解释检验集结果。阅读并解释各个类的结果。可视化并解释类规则。,谢谢!欢迎讨论,

    注意事项

    本文(6数据挖掘技术专题.ppt)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开