欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据挖掘导论课件PPT.ppt

    • 资源ID:1625493       资源大小:1.84MB        全文页数:101页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘导论课件PPT.ppt

    数据挖掘导论ppt课件,56、死去何所道,托体同山阿。57、春秋多佳日,登高赋新诗。58、种豆南山下,草盛豆苗稀。晨兴理荒秽,带月荷锄归。道狭草木长,夕露沾我衣。衣沾不足惜,但使愿无违。59、相见无杂言,但道桑麻长。60、迢迢新秋夕,亭亭月将圆。,数据挖掘导论ppt课件数据挖掘导论ppt课件56、死去何所道,托体同山阿。57、春秋多佳日,登高赋新诗。58、种豆南山下,草盛豆苗稀。晨兴理荒秽,带月荷锄归。道狭草木长,夕露沾我衣。衣沾不足惜,但使愿无违。59、相见无杂言,但道桑麻长。60、迢迢新秋夕,亭亭月将圆。第一章 数据挖掘导论给你如下的数据,你能从中得到哪些信息,你会如何利用它们呢?某电子商务网站的运营数据,包括用户资料、历史订单、价格信息和用户评论社交网络的数据,包括用户资料、发帖、回帖医保系统数据电信业务数据智能手机的位置信息,1.1 什么是数据挖掘,从信息技术的角度讲,数据挖掘属于商业智能(Business Intelligence,BI)的一个子集。数据挖掘的理论包括数据库、统计学、人工智能、优化等方面。数据挖掘的较为理论的定义可以使用名词“机器学习”来解释分析数据,使用自动化或半自动化的工具来挖掘隐含的模式(决策树、规则、聚类或数学公式)。数据挖掘过程有时也称为知识发现,或者数据库中的知识发现(knowledge discovery in databases,KDD),数据挖掘的产生,社会产生了海量的数据来源:商业,科学,医学,经济,地理,环境,体育数据是潜在的有价值的资源人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的技术方法,仅依靠人工的方式来理解这些数据是不可能的,需要技术来自动地从这些数据中提取信息,数据挖掘的产生,问题:数据丰富,但信息贫乏快速增长的海量数据收集存放在大型数据库中,没有强有力的工具,理解它们已经超出了人的能力。收集在数据库中的文件成了“数据坟墓”需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究,信息的重要性,例: 奶牛的筛选已知:描述奶牛的700多个特征,包括年龄、健康问题、生产记录、不良性情问题:选择被淘汰的奶牛,每年挤奶季节结束时只留下1/5的奶牛,其余卖到屠宰场数据:奶牛特征和奶农决策的历史记录,数据挖掘:从商业的角度,大量的数据被收集和存储Web数据,电子商务商场的销售数据银行卡交易计算机变得越来越价格便宜和功能强大竞争压力越来越大在领域中提供更好的个性化的服务(如客户关系管理),挖掘海量数据集动机,通常信息隐藏在数据之中,并不容易发现要人工分析数据得到有用信息可能要花费数周很多数据根本没有机会被分析,什么是数据挖掘,各种定义从数据中提取出隐含的、潜在的、未知的信息分析数据,使用自动化或半自动化的工具来挖掘隐含的模式数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,数据挖掘的定义商业定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,数据挖掘的定义商业定义,应用实例:某公司对多年来的客户资料进行挖掘后发现,大多数购买电脑的客户具有下面的特点:1、年轻(2045岁之间);2、收入高;3、居住地:城市;4、学历高;基于此,此经营公司可以根据这些客户的特点有目的的做一些广告或者促销。,数据挖掘和信息检索,信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘寻找现象之间事先未知的关系和关联,什么(不)是数据挖掘?,什么不是数据挖掘从电话号码簿中查找电话号码从一个Web搜索引擎中查询有关“BI”的信息,什么是数据挖掘确定名字是否在美国的某些州较为常见(如OBrien, ORurke, OReilly in Boston area)从搜索引擎中返回的文档中根据它们的内容将相似文档分组,11 2022 .,Data Mining: Concepts and Techniques,17,知识发现 (KDD) 过程,数据挖掘作为知识发现中的一个步骤,数据清理,数据集成,数据库,数据仓库,知识,任务相关数据,选择,数据挖掘,模式评估,11 2022 .,Data Mining: Concepts and Techniques,18,商业智能中的数据挖掘,对商业决策支持的潜能,最终用户,业务分析者,数据分析者,DBA,决策,数据表达,可视化技术,数据挖掘,知识发现,数据探查,统计摘要, 查询, 报表,数据处理/集成,数据仓库,数据源,纸件, 文件, Web 文档, 科学实验, 数据库系统,数据挖掘依赖的基础,机器学习、人工智能、模式识别、统计学、高效率的计算和数据库传统方法针对数据挖掘问题可能因为以下原因并不适合海量数据高维数据异构的、分布式的数据,数据挖掘与统计学,统计学和数据挖掘有着共同的目标:发现数据中的结构。由于它们的目标相似,一些人认为数据挖掘是统计学的分支。实际上数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。,数据挖掘与统计学,数据挖掘分析海量数据许多数据库都不适合统计学分析需要,数据挖掘: 发现驱动 (数据驱动) 数据研究统计学: 假设驱动 (人为驱动) 研究数据,区 别 四 个 概 念,数据: 原始的, 未解释的信号或者符号, 如: 1信息: 有一定解释或意义的数据, 如: S.O.S知识: 综合信息形成的观点和普适性的理论智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶,数据挖掘的数据来源,关系数据库数据仓库事务数据库 这些是常用的数据库。,高级数据库,面向对象数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库数据流WWW,空间数据库,存储与空间相关的信息,包括地图、VLSI芯片、药物、卫星图象等。用途森林和生态环境计划提供公共设施(电话、电缆、管道、污水排放)信息data mining作用回答某一区域的居民分布情况分析气候、交通等因素对城市居民迁移的作用,时间序列数据库,储随时间而变化的信息(例如:股票交易)data mining作用发现对象演化特征和变化趋势银行根据顾客流量调度银行操作股票投资决策,文本数据库,通常是长句和段落,如作者信息、错误报告等大部分高度非结构化(某些WWW网页)某些半结构化(email信息、html/xml网页)data mining作用对象和类的特征描述关键词和内容关联性分析文本对象的聚类,多媒体数据库,存储图象、声音、视频数据用于基于内容的图象检索、语音邮件系统、视频点播系统,WWW和语音识别系统等要解决实时播放问题,图象、声音的连续性问题。,数据挖掘功能,数据挖掘分为定向和非定向两类定向数据挖掘的目的是解释或者分类某个特殊的目标域,如收入或者反馈非定向数据挖掘的目的是在不预设目标域或者确定类的前提下,找出在批量数据间的模式或者相似性,数据挖掘功能,数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。,1.2 数据挖掘解决的商业问题,客户流失分析保持客户的忠诚度,分析哪些客户最可能流失,了解客户流失的原因,改善与客户的关系将客户按价值分类,预测客户的生存周期交叉销售客户在购买某些商品的时候向客户推荐与之相关的产品,增加潜在的销售欺诈检测保险欺诈:在国外有很多例子,市场分析和管理,用于分析的数据从何来?信用卡交易,会员卡,折扣券,用户投诉电话,公众生活方式调查。目标市场找出具有相同特征(兴趣,收入水平,消费习惯等等)的“模式”顾客群。,市场分析和管理,随着时间的推移决定顾客的购买方式从单独银行账户向联合银行账户的转变。例如:结婚交叉市场分析不同产品之间的销售关联关系在此关联信息上进行预测,欺骗检测和管理,应用广泛应用于医疗系统,零售系统,信用卡服务, 电信(电话卡欺骗行为),等等.实现途径利用历史性数据建立欺骗性行为模型并使用数据挖掘帮助识别同类例子,欺骗检测和管理,具体事例汽车保险:检测出那些故意制造车祸而索取保险金的人来路不明钱财的追踪: 发现可疑钱财交易(美国财政部的财政犯罪执行网) 医疗保险: 检测出潜在的病人,呼叫医生,1.2 数据挖掘解决的商业问题,风险管理贷款审核、信用卡发卡审核,项目评估客户细分基于客户细分采取适当的市场策略有的客户对价格很敏感;有的客户会为更好的服务付出更多的费用检测电信活动电话呼叫模式:呼叫目的地,持续时间,每天或每周的次数。分析与预期标准相背离的模式,客户定位和客户心理,周围的邻居不是开宝马就是开奔驰 你要是开一日本车呀 你都不好意思跟人家打招呼 你说这样的公寓,一平米你得卖多少钱 我觉得怎么着也得两千美金吧 两千美金 那是成本 四千美金起 你别嫌贵 还不打折 你得研究业主的购物心理 愿意掏两千美金买房的业主 根本不在乎再多掏两千,什么叫成功人士 你知道吗? 成功人士就是买什么东西 都买最贵的 不买最好的 所以,我们做房地产的口号是 不求最好 但求最贵,钱多到一定程度,就只是一堆数字了!,1.2 数据挖掘解决的商业问题,广告定位个性化广告,研究客户心理、兴趣、和消费习惯Google?销售预测,数据挖掘的应用,电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,1.3 数据挖掘的任务,1.3.1 分类分类包括考察一类新出现的对象的特征,并归类到一定义类中分类工作首先要有一个清晰定义的类,还要有一系列已分类实例分类过程实际上是先建立某种模型,再将其用于未分类数据进行分类表示形式:决策树,分类规则,神经网络。,1.3.1 分类,分类问题举例将信用卡申请者分为低、中、高风险确定哪些电话号码与传真机相连发现欺骗性理赔申请 临床诊断将网上的每一篇文章按关键词分在不同组与传真机相连的电话号码带有什么有价值信息?,1.3.2 聚类,聚类是把各不相同的个体分割为有更多相似性的子集合的工作。聚类生成的子集合称为簇(Cluster)。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。聚类与分类的区别在于聚类不依赖于预先定义的类,没有预定义的类和样本聚类是一种无监督的数据挖掘任务,1.3.2 聚类,聚类通常作为其他数据挖掘或建模的前奏。例如,聚类可以作为市场划分研究的第一步:不是对“客户对哪些促销反应最好”提出一个统一的适合所有人的标准而是首先将客户划分为有相似购物习惯的人群,然后研究对每个人群用哪种促销最好。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。,聚类分析,1.3.3 关联,关联规则分析也叫购物篮分析,任务是确定哪些事物会一起出现,即购物篮或购物车中都是哪些商品零售连锁店利用关联规则分析来安排货架上的商品或商品目录,这样将常常一起买的东西放在一起以方便顾客关联规则还可以被用来分析交叉购物的机会(cross-selling),以设计有吸引力的多种商品和服务的包装与组合。,卖东西,一位顾客到一家商店去买雨伞,店员说对不起,没有了。”顾客失望地离去后,老板对店员说不能对顾客说没有,你应该向顾客推荐其他同类商品。例如,你可以这样说:“对不起,没有雨伞,但我们这里有雨衣”又过了一会,来了一位顾客,问您这里有卫生纸吗?” 这个店员回答道:“对不起,卫生纸刚好卖完了,但我们这里有上等的砂纸!”,1.3.3 关联,关联规则是由数据产生规则的一个简单方法。如果猫粮和小猫窝两种物品经常放在一起,我们可以差生两条关联规则:买猫粮的人购买小猫窝的可能性为P1买小猫窝的人购买猫粮的可能性为P2,1.3.4 回归,回归实际上属于一种估计技术分类给出的结果是离散的:属于或不属于。估计处理连续值结果:输入一组数据,估计给出一个未知连续变量的值,如收入、高度或信用卡的余额估计也常用于分类任务如果一个信用卡公司希望向滑雪靴制造商出售帐单信封封面广告空间,他可能建立的分类模型是把持卡人分为滑雪者和或者非滑雪者两种。,现在超市会在付账的时候打出优惠券,其中的商品是你需要的吗?,1.3.4 回归,另一种方法是建立模型,对每个持卡人给以“滑雪倾向值分”,取值在0到1之间。这样分类任务变为建立阈值得分,任何一位得分超过阈值的人被划为滑雪者,而低于阈值的人被认为是非滑雪者。估计方法的优点是可以建立排序假如滑雪靴制造公司打算投递50万封信件,如果确定有150万滑雪者,使用分类方法,它可能会简单地将广告随机投递给其中的50万位。但是按照持卡人的滑雪倾向值分,公司可以把广告寄给最有可能的50万位候选人,回归是实现估计的一种技术,估计任务的例子估计一个家庭的孩子数目估计一个家庭的总收入估计客户的寿命值估计某人对余额转移诱惑的回应的可能性回归模型和神经网络都非常适合估计任务。,1.3.5 预测,预测与分类和估计的任务一样,但其中记录的分类依据是一些预测的未来行为或者估计的未来值(强调时间性)。在预测任务中,检验分类准确度的唯一方法是等待和观察。,1.3.5 预测,分类和估计技术可以稍加改变后用于预测利用训练样本中已知的历史数据验证样本中要预测的变量值,这些变量值在训练样本中是已知值历史数据用于构造模型,以解释当前观察到的行为。当这个模型应用于当前的输入,给出的结果就是对未来行为的预测,1.3.5 预测,例子预测当信用卡潜在用户收到转帐单后,可能转帐的额度预测哪些客户在6个月之内取消公司的业务预测哪些电话用户会预定增值服务,例如三方通话或者语音邮件王永庆卖大米,1.3.6 序列分析,序列分析用来发现离散序列中的模式客户购买商品的次序可以建模为序列数据系列地震数据股票客户首先购买了一台电脑,然后买了一个扬声器,最后买了一个Modem考虑一下,如果一个人购买不止一辆车,其中会有什么模式?上升型、平稳型、下降型,1.3.6 序列分析,序列和关联数据都包含一个项集或一组状态。序列模型和关联模型的区别在于:序列模型分析的是状态的转移(时间上的因果关系),而关联模型认为在客户购物篮中的每一个商品都是平等的和相互独立的在序列模式中,先买扬声器再买电脑和先买电脑再买扬声器是两个不同的序列对于关联分析,扬声器和电脑没有前后的分别,1.3.7 偏差分析(异常检测),异常检测(anomaly detection)的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)与统计中通常去除离群点不同,在数据挖掘中,离群点往往代表潜在的未知模式,可能具有较大价值异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式(非典)、生态系统扰动等。,所有的模式都是有趣的吗?,主要从三个问题来讨论1)什么模式是有趣的?2)数据挖掘系统能够产生所有有趣的模式吗?3)数据挖掘仅能产生有趣的模式吗?一个模式是有趣的,要满足下面四个条件:1)它易于被人理解 2)在某种程度上对于新的或测试数据是有效的3)它是潜在有用的 4)是新颖的,所有的模式都是有趣的吗?,有趣的模式客观度量支持度置信度主观度量意外(与用户的理念矛盾)提供用户可用的策略信息,所有的模式都是有趣的吗?,找出所有的有趣模式:涉及数据挖掘的完全性一个数据挖掘系统能找出所有的有趣模式吗?关联,分类,聚类期望数据挖掘系统产生所有有趣的模式是不现实的和低效的,这要根据用户感兴趣度量来对搜索聚焦,并确保算法的安全性。,所有的模式都是有趣的吗?,搜索只是有趣的模式:是数据挖掘的优化问题一个数据挖掘系统能够仅产生有趣的模式吗?方法首先概括所有的模式,接着过滤非有趣模式仅产生有趣的模式挖掘询问的最优化这个问题涉及了数据挖掘的优化问题,希望只产生有趣的模式,但这个目标具有一定的挑战性.,数据挖掘过程,数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。 从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。,数据挖掘项目的生命周期,1、定义商业问题 要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。2、数据收集根据问题的要求,收集来自不同系统、不同格式、不同定义的数据。有时需要外部数据源。出于效率的考虑,对较大的数据集进行采样以减小数据规模,数据挖掘项目的生命周期,3、数据清理和转换数据清理和转换直接影响到数据挖掘质量的环节,也是较为耗时的一个环节数据清理:除去数据集中的“噪声”和不相关信息数据转换:将源数据的数据类型与值转换为统一的格式。,数据挖掘项目的生命周期,3、数据清理和转换数据类型转换:数据挖掘算法对数据的类型有一定的要求,有时需要直接对数据类型作转换连续列转换:包括将连续列离散成若干个区间,以及数据的规范化(通常通过一个映射转换到0, 1区间)分组:对于有许多不同取值的离散列,为减少模型的复杂性将这些值分组,以增大数据的粒度。聚集:在某些问题中,过于详细的信息无助于分析,需要计算汇总值(派生值)。例如从详细通话记录中生成呼叫总数和平均通话时间。,数据挖掘项目的生命周期,3、数据清理和转换缺失值处理:缺失值是数据集中不可避免的问题。各种技术中都会涉及缺失值的处理方法。但是首先应该弄清楚缺失值产生的原因,有时候,缺失本身包含着有价值的信息删除孤立点:假定要基于客户电话的使用情况(平均通话时间、总呼叫次数、每月帐单、国际长途)来构建一个客户细分模型,有0.5%的客户的行为与其它客户的行为极为不同。如长期生活在海外,一直使用漫游功能的客户,数据挖掘项目的生命周期,4、模型构建构建模型的首要问题是理解实际的商业问题:数据挖掘项目的目标和数据挖掘任务的类型。实际上理解商业问题应该在数据收集前就开始,这涉及到选择收集数据的范围和对数据的处理方法构建模型是数据挖掘的核心,需要和了解领域背景的人一起合作。虽然数据挖掘尝试半自动或自动地解决问题,但是针对具体问题选择合适的模型是一个需要经验和技巧的工作。,数据挖掘项目的生命周期,4、模型构建对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。,数据挖掘项目的生命周期,5、模型评估在构建阶段往往会使用不同算法和不同参数(因为事先不知道用什么样的算法和参数学习到最精确的模型)得到一组模型,模型评估用来评价这些模型的质量在这个阶段,还要与业务领域的工作人员一同分析哪些模式是有意义的可以带来商业价值的例如关系=丈夫=性别=男这个过程需要反复多次,包括去除无关的属性(哪些属性与目标相关本身就是一个重要的问题),数据挖掘项目的生命周期,5、模型评估经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。,数据挖掘项目的生命周期,6、预测(模型应用)7、应用集成:将数据挖掘嵌入到商业应用中8、模型管理:数据挖掘模型本身存在一个生命周期。模型需要时常评估和更新有些模式相对稳定,而有的模式经常变化。例如,金融危机下,过去信誉良好的客户可能会有不同的表现,并且这种情况可能会变得典型和普遍,数据挖掘的良性循环,数据被看作是大多数公司核心业务处理的中心内容。无论哪个行业(零售、电信、制造、保险等)的业务系统中,任何交易都生成数据除了公司的内部数据,还有大量的外部数据来源包括零售客户的人口统计学数据、生活方式、信用信息等数据挖掘的目标是在这些海量数据中发现潜在有价值的模式,但是,仅仅发现模式是不够的商业企业必须:通过行动来响应这些模式一系列转化:从数据到信息从信息到行动从行动到价值这就是数据挖掘的良性循环,数据挖掘很容易吗?,市场营销文档使得数据挖掘看起来很容易!只要应用由专家创造的自动算法,如:神经网络决策树遗传算法就会有奇迹出现!数据挖掘的良性循环是一个反复学习的迭代过程,该过程以上次结果为依据,随着时间的推移而完善,数据挖掘的良性循环,数据挖掘的良性循环,识别商业机会应用数据挖掘将数据变成可操作的信息按照信息采取行动测试结果,1. 识别商业机会,很多普通的商业过程是数据挖掘很好的题材:新产品推广策划直接营销活动了解客户流失行为评估市场营销试验的结果,1. 识别商业机会,从过去DM的结果中进行测试,也能发现数据挖掘的机会:什么类型的客户对上次活动作出反应?最好的客户在哪里?在自动取款机前长时间等待是导致客户流失的原因吗?什么样的产品应该和XYZ产品一起捆绑销售?,应用DM将数据变成可操作的信息,成功的数据挖掘是让数据有商业价值数据往往包含大量的问题:不好的数据格式 (字符 vs 数值, 缺失, null,虚假的数据)混乱的数据字段 (同意字段或不一致定义:如一个系统中发送日期的本意是“计划发送日期”,另一个系统中却表示实际发送日期)缺乏功能,如呼叫中心的申请表不允许有个性化的注解 (“I wish I could”),按照信息采取行动,采取行动是数据挖掘良性循环的目的行动的类型与客户、潜在的客户或供应商沟通互动更改服务流程调整库存水平Etc,4. 测量结果,评估所采取行动造成的影响,通常被忽视和忽略在识别商问题的时候,首先必须考虑结果的测试例如,为激励产品销售,公司展开赠送优惠卷活动,则必须要测试优惠券返回率。然而,持优惠券的购买者可能本来无论如何都打算购买该产品。如果目标是增加销售量,就必须有直接的方法测试它。,案例:移动通信公司建立恰当的联系,无线通信行业竞争非常激烈,各公司一直尝试采用新办法,从竞争对手那里挖走客户,培养自己客户的忠诚度。案例背景:移动通信公司A采用数据挖掘,增强开发客户的能力,希望将客户吸引到公司的新服务,机会,A公司计划测试一个新产品的市场前景由于技术原因,他们测试产品的最初覆盖面时值选择了几百个用户,只占目标客户群的一小部分问题:谁有可能对这种新产品感兴趣?这是数据挖掘典型的应用:采用成本最小的方案波及到理想数量的响应者假定:定向市场营销的固定成本是不变的,每次联系的支出也差不多是固定值要减少活动的总成本,就必须降低联系的数量。盲目的联系活动实际上大多数都是无效的,为了确保实验的有效性,公司需要一定数量的客户签约。公司的历史数据表明,对于新产品的宣传活动,大约2%3%的现有客户可能做出满意的响应为了达到500名响应者,可能需要联络16 000到25 000名潜在客户数据挖掘采用给每位期望客户打分的方式优化上述过程。得分在1到100之间:1表示非常有可能购买产品,100表示没有可能购买产品,分级潜在客户,利用响应模型,通过确定少数客户目标并且得到同样数量的响应者而实现成本的节约,根据客户的得分情况将候选人进行排序,市场营销人员顺着这个名单往下数,直至达到想要的响应者数量按照好的响应分值排序,通过接触更少的潜在客户,可以降低定向市场营销活动的成本这就是数据挖掘所能起到的作用,如何应用数据挖掘,多数数据挖掘方法是通过样本获得的,神经网络、决策树生成或其他方法均来自大量的训练样本每一个训练样本标记为响应者和非响应者用数据挖掘算法得出模型,实际上就是客户信息和响应动作之间的因果关系本案例中,有待解决的问题是新产品介绍,所以没有已做出响应的训练样本集合,如何应用数据挖掘,可行的解决办法:基于对过去任何服务曾做出响应的客户来构建模型。该模型能区分拒绝所有电话推销和扔掉所有邮寄宣传品的人,以及那些偶尔对一些服务做出响应的人。该模型称为非响应模型,对那些想大范围发送宣传广告的公司会非常有用美国退休人士协会(AARP)应用非响应模型后,节约了数百万美元的邮寄费用:以前向至少有一位成员年龄超过50岁的所有家庭邮寄,现在放弃了最没有希望的10%,但仍然得到几乎所有的响应者,如何应用数据挖掘,与非响应者模型不同的是,无线通信公司只是想得到几百名响应者。他们借鉴另一个市场上的类似新产品推介,形成训练记录集合。,确定输入,在数据挖掘产品中,构建模型过程的核心大部分都自动进行,只要给定一系列输入数据字段和一个目标字段(本例中是购买新产品),就可以根据输入,找到接受目标的模式和规则在输入变量和目标变量之间建立因果联系实际上,识别、定位和准备输入数据比创建和运行模型经常要花费更多的时间和精力要做好选择输入变量的工作,没有处理商业问题的知识是不可能的,确定输入,本例中有三个数据来源可利用销售客户信息档案:客户数据,涉及用法、期限、产品历史、价格方案和付费历史记录详细的电话呼叫数据:所有客户打出和接听电话的每个记录人口统计数据库:客户的人口统计和生活方式数据库,美国人口普查数据,人口普查主要目的是统计美国的人口总数,还有其他重要用途决定着联邦和州政府如何分摊数以亿计美元的年度资金用于分配各州议会代表席位用于分配学校经费、就业服务、公路补助、住房建设、医疗服务、养老计划等方面的联邦资金银行、保险公司、卫生保健机构以及零售商业企业都需要普查数据几乎所有的商业机构都需要目标销售地区的消费者信息,美国人口普查数据内容,在 2010 年的普查问卷中 , 每户家庭只需填写7个问题的短表,包括姓名、年龄、性别、族裔、与户主的关系、住所是否租赁等。人口普查局对统计资料绝对保密,相关信息要保存 72 年才能解密。其他信息则通过美国社区调查收集。,美国人口普查数据内容,美国社区调查提供人口超过 65000 以上的州、城 市、郡、都市地区重要的经济、社会、人口以及家庭信息,包括:社会特征:婚姻状况、生育情况、照顾祖父母情况、出生地点、入学时间、家里所用语言、所受教育、1年前居住地、兵役情况; 经济特点:收入、食品福利、劳动状况、行业职业和工作分类、工作地点、1年前工作的公司、使用车辆情况、医疗保险;,美国人口普查数据内容,美国社区调查提供人口超过 65000 以上的州、城 市、郡、都市地区重要的经济、社会、人口以及家庭信息,包括: 房屋特点:建筑物楼龄、房屋内的单元、居住在该房屋的时间、客厅、卧室、卫浴、厨房设施、房屋取暖、所用电话服务、房屋价值、租住成本、按揭月供情况。,衍生输入字段,通过上述分析,在输入到预测模型的客户数据中,增加了几个总结性和描述性的字段:通话时间来电数量呼叫频率影响范围语音邮件用户标识,字段解释,通话时间(minutes of use,MOU)是衡量客户好坏程度的标准。通话时间越多,带来的价值越多公司通常把全部注意力集中在通话时间上通话时间掩盖了许多重要的差异:2个长呼好,还是100个短呼好?全部主叫好还是半数被叫好?所有呼叫都是同一个号码好还是呼叫很多号码好?,字段解释,影响范围(sphere of influence,SOI)是早期数据挖掘发展出的结果客户的影响范围是指在一定时期内,通过电话与该客户进行交流的人数。结果表明:作为群体,影响范围大的客户行为比影响范围小的客户行为在多方面存在较大差异,如呼叫客户服务中心的频率何种程度等,处理行动,把三个来源的数据汇集在一起,用于构建数据挖掘模型,用来识别可能购买新产品的候选人为了评价模型的效果,采用两种方案进行直接邮寄按照数据挖掘模型的结果产生名录进行投递按照普通商务方法选出的命令进行投递,完成循环,在数据挖掘的帮助下,公司联系到了新产品销售的合适候选人群。一旦新的结果出来,数据挖掘技术能帮助获得更好的实际反应前景依靠最初在测验市场上理解到的客户的特征,以及新服务项目开始几个月的使用情况,公司能够在产品推出后的销售产品市场上更好地寻找潜在客户。,谢谢,骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷箩侣郎虫林森-消化系统疾病的症状体征与检查林森-消化系统疾病的症状体征与检查,11、越是没有本领的就越加自命不凡。邓拓12、越是无能的人,越喜欢挑剔别人的错儿。爱尔兰13、知人者智,自知者明。胜人者有力,自胜者强。老子14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。歌德15、最具挑战性的挑战莫过于提升自我。迈克尔F斯特利,

    注意事项

    本文(数据挖掘导论课件PPT.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开