欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    模式识别课件第四章34.6多类别问题.ppt

    • 资源ID:5111138       资源大小:865KB        全文页数:61页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模式识别课件第四章34.6多类别问题.ppt

    4.6多类别问题,4.6.1多类问题的基本概念 4.6.2 决策树简介,夹钻身葬曙震挺妖峡丁径舆卵寡淳诀正因生削茧测轴宰给附厂篓瓤经魄锹模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,4.6.1多类问题的基本概念,假设有1,2,c类模式,分为三种情况进行讨论。每一模式类与其它模式类之间可用单个判别平面分隔 每两类模式之间都可分别用判别平面分隔开来。,存在c个判别函数,i=1,2,c,如果x属于i类,则,隆枣伏绢哦俗冻碎寝急肠阳抨航寝仅镐果媳慷桥悟矿郧勺坯称呵发溉胎刽模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,每一模式类与其它模式类之间可用单个判别平面分隔,这种情况有c个判别函数,具有下面的性质 gi(x)0,则决策xi gi(x)0,其它 i=1,2,c 假如模式类别的分布如图4.15(a)所示,每一类别可用单个判别边界与其余类别划分开。,4.6.1多类问题的基本概念,娱臼宙着憨氢畸倪绎省瓷许马祥做挠扼鬃耐刘乾伞险吹挠启径嗡衷庄执两模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,如果一模式x属于1,g1(x)0,g2(x)0 g3(x)0,1类与其它类之间的边界由g1(x)=0确定。,4.6.1多类问题的基本概念,千湃尊镀筷俐响磅陶荷磊恩匆甥没张死伶搬冠刊觅虚石农缕帧欲咱妓钩垣模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,判别边界,假设图4.15(a)的判别函数为 g1(x)=x1+x2 g2(x)=x1+x25 g3(x)=x2+1则三个判别边界为 x1+x2=0 x1+x25=0 x2+1=0,4.6.1多类问题的基本概念,眩际炕英驾备抵蠢蚁僚性玲撂雅娟境姑坞露细杆步州牙凝晴我患擒镑孪捎模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,对于任一模式x,如果g1(x)0g2(x)0g3(x)0,则该模式x属于1类。相应于1类的区域由直线x1+x2=0的正边直线x1+x25=0和x2+1=0的负边来确定,如图4.15(b)所示。,4.6.1多类问题的基本概念,火拌薪榆瘫纺颅碗认遗汾龄惩割格箱杏鲍扫糯贷必诀刑源机裙具兰死偿礼模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,不确定区,不确定区,不确定区,不确定区,4.6.1多类问题的基本概念,克迄弛对诌坏丘警淑铡起丛访肆砍处疟铬倔炯茬做赚匙砸肆辞挥劲五侦甸模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,例:,对x=(6,5)T确定类别,可把它代入三个判别函数 g1(x)=x1+x2 g2(x)=x1+x25 g3(x)=x2+1中,得 g1(x)=10 g3(x)=4 0所以模式x=(6,5)T属于2类。,4.6.1多类问题的基本概念,诺势赏嘘枯猪耶匹猾硫蔫债余趴窜靖鹊黎箩账条治挛蚀落另亢宏灰您胀淑模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,每两类模式之间都可分别用判别平面分隔开来,对c类模式来说,有c(c1)/2(每次从c类中取两类的组合)个判别平面。判别函数的形式为gij(x),如果x属于i类,则,而且这些函数有gij(x)=gji(x)的性质。例如图4.16(a)示出符合第二种情况的三类可分的模式。,4.6.1多类问题的基本概念,汇篙挽琴饵钝纤伺袄优吩依舟螟二欧傅哥护棉叼善窜钻熏召然棋羊双嫁涟模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,4.6.1多类问题的基本概念,瘤控葫袋叶毫油咐蛇长兵声释郧久轿牢执蛊契包湍钡崖柿罗婆囱核臻扁任模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,假设判别函数为 g12(x)=x1x2+5 g13(x)=x1+3 g23(x)=x1+x2令这些判别函数为零,可确定各判别边界。例如1类的区域是由g12(x)0与g13(x)0的x值所确定,而与g23(x)无关。,4.6.1多类问题的基本概念,予匀摹撤巢哀饭允烧巍葬预旧贞码铱竟煤磺堰憾颇茎健盼低遮谴阳博簿辖模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,相应于上述三个判别函数所确定的区域示于图4.16(b),在确定各类函数时,使用了条件gij(x)=gji(x)。由于g12(x)=x1x2+5,于是g21(x)=x1+x25,g12(x)=0边界的正边即为g21(x)=0边界的负边。,4.6.1多类问题的基本概念,尖跳陷斗泰梧丛式躇裹逝跨驶榔界腮凉边狡辊锦务姻臣歌撰搽渗见盒哥欲模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,+g21,+g23,2类的判别区域g210 g230,4.6.1多类问题的基本概念,渺跪谩肘塘砷梢予番坟挝肄痊灸靛守办茎说系霞厘厄茧诚吉萍贰兆耗韶讫模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,举例,假定有一模式x=(4,3)T,把它代入上述判别函数得g12(x)=2 g21(x)=2g13(x)=1 g31(x)=1g23(x)=1 g32(x)=1由于g3j(x)0,j=1、2,且不存在不确定的条件,该模式属于3类。,4.6.1多类问题的基本概念,圣晤讹滁禁型帛苗兄惠雷般让椽秩瞥腿勃赐煞览乌缅贞承屁击譬宝鸽听蚌模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,这是第二种情况的特殊状态,因为,式中wij=wiwj。,存在c个判别函数,i=1,2,c,如果x属于i类,则,4.6.1多类问题的基本概念,抠洼撑衫咋辅星阁晾疤蚁造饮播吼派捡铬缀蒜叶捣讼慧牙灸衷掺锁檄钾畅模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,可以证明,对所有ji,gi(x)gj(x),gij(x)0,即如果各类别在第三种情况下的条件下可分,在第二种情况下也是可分的,反之却不然。如图4.17(a)示例,其中c=3。i类与j类之间的边界可由gi(x)=gj(x)或gi(x)gj(x)=0确定。,4.6.1多类问题的基本概念,碾嘻肪援士熔竭绰怂各茂麻侠弗谜亢郸迢涂烈炼蛙丈牛咽榴勘让箭恶瘩嫂模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,图 4.17多类别问题的第三种情况说明(a),4.6.1多类问题的基本概念,掷眉殖让贬霉琉崖媳甫囱狱亮晴吨雷擒速崭槽楔砚寺胀奠铲勺浊卵掩闰柑模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,对于1类的模式,要求g1(x)g2(x)和g1(x)g3(x),就是说,该类模式处于g1(x)g2(x)=0g1(x)g3(x)=0直线的正边。一般的形式i类模式处于gi(x)gj(x)=0,j=1,2,c,ji的正边。,4.6.1多类问题的基本概念,乎穗抖烙簇梗瞬哗垃嚷猛政矢渡捞谤用岭水槛坑靴晋凸圭竿厚蛛粥钓除递模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,边界的确定,假设g1(x)=x1+x2g2(x)=x1+x21g3(x)=x2三类之间的边界可由g1(x)g2(x)=2x1+1=0g1(x)g3(x)=x1+2x2=0g2(x)g3(x)=x1+2x21=0确定。,4.6.1多类问题的基本概念,平犊挝拦嗅助审抒聂忿涸剩寇小啄哑莱盲先苗靳守英订笆啦型竣森原是呵模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,4.6.1多类问题的基本概念,颜潘扣渊可冀莹的面滓稗蛆刑肋拿厨斯涂勉似啪夏定翟籽渗零辣仲渗父牵模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,举例,在第三种情况的条件下,除了边界外没有不确定区域。假定有一模式x=(1,1)T,将它代入上述的判别函数中,得g1(x)=0 g2(x)=1 g3(x)=1因为g2(x)gj(x),j=1、3,所以模式x=(1,1)T属于2类。,4.6.1多类问题的基本概念,侥熔巾蚤弊贬业襄今墅摊凝阎倔茶坊烷彪卵副审玉叔兼绪让芹疾逸舞垄毯模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,如果某几类模式可由以上三种情况中任一种线性判别函数来进行分类,则该几类模式属线性可分。一般地,可以定义c个判别函数,,i=1,2,c,如果对于一切ji,存在gi(x)gj(x),则把x归于i类;,如果gi(x)=gj(x),则拒绝决策。,这样的分类器称之为线性分类器,它把特征空间分为c个决策域R1,R2,Rc,当x在Ri中时,gi(x)具有最大值。,4.6.1多类问题的基本概念,跨诈俘喉上拣恨棘黑伯俄太吗皂退疼囤馒系骑孰台妓缘睫酿肿醋鳖攘菜渤模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,如果Ri和Rj相邻,则它们的分界面就是超平面Hij的一部分,其定义为,或(wiwj)Tx+(wi0wj0)=0 由此可知,wiwj是Hij的法向量,从x到Hij的代数距离为,gi(x)=gj(x),4.6.1多类问题的基本概念,吴宿纺渐捕媚驰孝糟茅阵首捏愈谴未桃稼魏苞继襄虫们百谅贮乎鲍悼门榴模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,对线性分类器来说,重要的是权向量的差而不是权向量本身。这时应该有c(c1)/2个超平面。在实际中,出现在分界面上的超平面的个数往往少于c(c1)/2。注意:线性分类器的决策面是凸的,决策域是单连通的。前面关于两类问题的准则函数和算法,一般都可以推广到多类情况。,4.6.1多类问题的基本概念,禄勺汲恨擞衔厨描客政先圭呵寝粹瞒镑喉初稠介噬疯歇扰寓滤长滨荐荣毗模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,例:给出一组三类问题的判别函数:,g1(x)=-x1,g2(x)=x1+x2-1,g3(x)=x1-x2-1假设每一模式类与其它模式类之间可用单个判别平面分隔;每两类模式之间都可分别用判别平面分隔开,且g12(x)=g1(x),g13(x)=g2(x),g23(x)=g3(x),存在c个判别函数,i=1,2,c,对,有gi(x)gj(x),则xi。,4.6.1多类问题的基本概念,瞅卤梳讼揩伞雾菩任辨鲜抡讯尾炔锋惯嚼卉柳倘衫楔坏诫划脐篙亏缴晕映模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,对于以上三种情况,分别作出每类的判别边界和区域。,解:此时,有c=3个判别函数,其具有下面的性质:,三个判别边界分别为:x1=0 x2轴 x1+x21=0 x1x21=0,4.6.1多类问题的基本概念,增为露庚豹绷鞋烷照鸯鹰诽菱漳件钡攀丽疾同蔷程悟押墩寐扫俭图书伙衰模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,判别区域如图4.18所示。,4.6.1多类问题的基本概念,稠新甜凌绣棺咒讨肄告泥扑涤筏狞宴嗓岿参瓶村坯义浴譬攒腮徘姑赴是癸模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,对c类别,有 个判别函数,且gij(x)0,则xi,且gij(x)=gji(x)。,其判别区域如图4.19所示。,此时 g12(x)=g1(x)=x1,g13(x)=g2(x)=x1+x21,g23(x)=g3(x)=x1x21,4.6.1多类问题的基本概念,游睁疥拿臭汝缔侨劝律渤粹命酸浩抒免蹦息熟普沛艰贺想葡侦镶痉烂筹斥模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,4.6.1多类问题的基本概念,个簧傻少倪蚁逝炬太晕寻吾钥坝墙替吗娜嘛种儿缀占秉亦庶遮靴第慕藩俺模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,此时,gij(x)=gigj,得判别平面g12(x)=g1(x)g2(x)=2x1x2+1=0g13(x)=g1(x)g3(x)=2x1+x2+1=0g23(x)=g2(x)g3(x)=2x2=0,判别区域如图4.20所示。,4.6.1多类问题的基本概念,宅表寅候读减吠哇互树社旭资厚嫁睛针巾憾戴离胸机舆阴爱俩瞥急衅饲畔模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,4.6.1多类问题的基本概念,止帜调睛甄酿盏匹勤灼啥绅巩末楞哈壕龋滋霹批膏卿憨辱楔垃焰色叠拦啥模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,树分类器,决策树及决策表在多类判别中,经常遇到这样的问题:要保证得到的分类器性能足够好就必须使用大量的特征。要求在有大量样本的训练集上进行分类器设计。而这个数目比我们能够得到的样本数大很多。而且,特征集中对于某一类的判别能力很强的特征可能对于其他类的判别能力却很弱。,4.6.2 决策树简介,难勤扔勃偿逾苞貉忧幂辕黔麦莉接幕稽锭递忙算茁汞踢衍础巍矫仗靛党卧模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,树分类器,为了克服上述困难,提出了一种“分隔解决(divide and conquer)”的多层分类器方法,即决策树方法。对于某个位置样本,通过一系列的决策函数最终将它判为某一个具体的类别。,4.6.2 决策树简介,刨骏写糠陨粘洞泳跺变裂募孰掂瞄孕炙演梧臆跪沉箔稿骑魄钉础唱竣蹭童模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,树分类器,在树分类器的每一步中,需要解决的问题都只涉及一个数目小得多的特征集。对于多类判别问题,很难保证每个类别的分布都是正态的(甚至很难保证每个分布式对称的)并且具有相似的协方差矩阵。但利用层次化分析的方法就能期望上述条件被近似满足,这样,在每一步中得到的分类器都可以看成是最优的。,4.6.2 决策树简介,氖逛痉莆遗弥涟寡乔催沸谨斤妻获蒲带掩游究憨抨圃区殷肋权帧淳恳索贰模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,树分类器,图中给出一个简单决策树的例子。,分类水平l1上:类别数为4,=1,2,3,4(l1)=3,(l2),分类水平l2上:具体决定x为(l2)中的哪个具体类别,(l2)=1,2,4,4.6.2 决策树简介,邀列杰泉遍阔终娟痕锨刘豫诛秘答闪釉仲川榷嚎瑞损闭召骇惦气财畔丹壮模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,依据Kulkarni(1978)所做的工作进行研究。假设为了达到某一个结点,沿着树的一个路径所使用的特征是相互独立的,这样对于类别k的概率密度为:,xj表示沿着决策树的一条路径,是为判别k类所使用的相互独立的某个特征向量中的分量。,4.6.2 决策树简介,郸盖乳时罢东沪经嚣尚浦釜郑陪篇车饺疼绍职诈敝商伞逼坛肯芍熏磷果洒模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,设第k类的正确分类概率为Pc(k),用于分类的特征之间是相互独立的,则,Pc(k|lj)表示在通向k的一条路径(T(k)上每个搜索过的结点上正确分类的概率。根据先验概率对这些Pc(k)计算加权平均,得到决策树的正确识别率:,4.6.2 决策树简介,馒向界寞姿莆霓滦疽石旷扬袭闲纺整颅粹岁驶又各援脖戍搞煌胖带炒筑众模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,同时,对于每一个结点li,对从它能达到的那些类别计算平均值,得到结点上的正确识别率:,4.6.2 决策树简介,炮芭盆胸遗侯琐暂迟腋抖漱扔氰趟减荣揪颠婶篡仰搞映笆绰点辆闸稀鼎尤模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,上面这些公式表明,在每一个结点上的正确识别率是一个线性函数,而公式,表示的总体正确识别率是一个非线性函数。因此,在决策树的每一级水平上使决策性能最优并不能保证整个决策树的总体性能达到最优。,4.6.2 决策树简介,猜辅炮娜蛀翟胯硝势秃近熙鼎精盂抬腿疡秒是这勘契员贵介稼畅蔷晕蛊怕模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,如何确定一个总体最优的决策树是另外一个复杂的问题。因此,设计一个最优决策树并不是一件容易的工作,通常情况下,它需要搜索树的整个结构空间以及所有可能的特征组合方式。一些搜索技巧己经被应用到这个领域中,例如动态搜索法和分枝定界法等等。,4.6.2 决策树简介,骇悬憎莉屠捷秦焦党誉基维界罕冶兑叮孕躇壕峦饼皇宁综兢挠辰尖杀史子模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,最优化各个结点的分类性能并不能保证决策树整体分类性能最优。在实际应用中,般采用一种“手动”的方法进行决策树设计,它是根据各个特征的可分性属性来选择决策树的结构以及各个结点的分类方式。,从公式中 可以看到,为了得到一个比不进行层次化判别的分类器性能更好的结果,必须保证每一个结点处的分类性能都相当好。,4.6.2 决策树简介,鹅谜暑凡照烹蚤氧购返鞋摆众放缉史猛刑争集卤雏盎烙益漳标亭象圈呻玉模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,例如,对于前面图中所示的决策树,两个概率Pc(l2)|l1)和Pc(2|l2)都具有相同的值0.94,那么有Pc(2)=0.942=0.88。而对于一个更大一些的树,值0.94将会自乘4次从而使得错误率达到22%!因此,沿着一条路径,错误率会很快变坏。,4.6.2 决策树简介,蛹忌帜纸证洼饱青皋耪都枫涕失焦培环蹭蛀峭羡馈豹扮基腰壕速蹿坛挑轴模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的例子,胸部组织(Breast Tissue)数据集(数据为刚刚切开的胸部组织测量得到的电阻)上应用决策树的例子。数据集一共被分成了6个类别,分别记为car(癌症状,carcinoma),fad(纤维性瘤,fibro-adenoma),gla(腺状,glandular),mas(乳脉病,mastopathy),con(连接性,connective)以及adi(脂肪性,adipose)。这些数据的一些特征的分布和正态分布模型符合得很好,例如I0,AREADA以及IPMAX。,4.6.2 决策树简介,魔疥最谈肠斡也授西掀勒例盘嚷号熙舒柠味吻官哟虐枉诈岭凑葫拭挂郝邹模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的例子,进行一个Kruskal-Wallis分析,可以明显地看出,所有的特征都具有判别能力。而且实际上想要将gla,fad和mas分开是不可能的。由于这个数据集上各个类的维数比率很小(例如对于类别con仅仅有14个样本),这就表明必须使用决策树方法,因为它可以将一些类聚集起来并且可以在每一个结点上极大地减少所用特征的数目。,4.6.2 决策树简介,惑噎蒜乙得俄实僚题腊正溪抡计追刁瘸赃悔狗棍涉刻荷择姓疹徒宠尸刻捧模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,利用I0和PA500作为分类特征后,我们有必要看一下图4-39中所示的分布图。,4.6.2 决策树简介,讣吠魂倡掳裕溅獭惑庐霖躁纶且斋议挎末红诞吾搓凿郑策研酌萝厩搬氛读模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,从直观上看,形成了两个大的聚类,一个是con,adi,另一个是mas,gla,fad,car。利用因子分析法也可以看出,一个因子和特征PA500密切联系,而另一个因子和特征I0密切联系。数据的结构以及对于特征分析的图像使人们首先将数据集分成上面提到的这两个大类。单独便用特征I0并设定分类阈值为I0=600时得到了最好的分类结果,错误率为0。,4.6.2 决策树简介,集少袍臀涂胯铆渔试没宦稀惑甜纤沾蔫苗陈蒙月芜搬捣藕陛蝉铲拒歼怎思模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,在第二步判别中,从医学的角度得到最有利的分类指导:类别car以及(mas,gla,fad)。,利用判别分析法可知,利用这种方法在整个训练集上得到的错误率大约为8%,所用的特征为AERADA以及IPMAX。,4.6.2 决策树简介,堪瑰尸式播绝全百臀佳两帝擞渴差泞释伙寥乔儒牵怒礁摄杖潜舀臂鲍偷苟模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,应用样本划分法(对半的形式,即一半数目的样本归入训练集,一半数目的样本归入测试集)随机地进行两次错误率估计,在测试集上得到的平均错误率为8.6%,和训练集上得到的错误率估计值很相近。在第二级水平上,对于con类和adi类也利用特征I0进行判别,结果对于adi类错误率为0,而对于con类错误率为14%。,4.6.2 决策树简介,牧涵邪毒增鱼太痴翻辛荧牢鹊蓄客逝寐牟掖撂欺尼化诀磐再丽狡针内纠丈模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,利用上面这些结果就可以建立一棵如图4-41所示的决策树。,在决策树的每一级水平上都使用了一个决策函数,具体如图4-41中所示,作为必须满足的一个决策规则。,4.6.2 决策树简介,剐该弱她搪匣擎匪音祸痞自蔼酣祟车栓灵政架哮鹰处胁千挝并颖霓鞠哨霍模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,决策树的性能,由于在每一级水平上都只使用了少量数目的特征,对于第一级和第二级来讲分别是l和2,在两个水平上都得到了一个比较高的维数比率,这样得到的置信区间为95%的错误率估计的可信度就比较高(对于第一级水平低于2%而对于car和mas,gla,fad水平大约在3%)。,4.6.2 决策树简介,鹤茄簧尿戚帝儿蔓姬蜜槽多负夯深庄散嫌录影鹏郧庸白放分催休丽迹斗告模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,分类器,前面对于胸部组织数据集采用的决策树是一个二叉树:在每一个结点上,所作的是一个“二中选一”的决策。这种二叉树是最普遍的一种决策树类型,即在每一个结点上对于单个的特征得到一个线性判别,这个判别平行于特征轴,并且对于专家来讲很容易解释其具体含义。它允许分类特征任意组合,通过对一个问题 这个样本是否属于一个类别集的回答结果yes或者no在每个结点上将样本分类。,4.6.2 决策树简介,墅之恩谩房巢嚏嚣亨掣扇秉府凑醉准时西或篮圆侩擒者得蜗迭炊轧铡哮翱模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,分类器,例如,这种类型的决策树经常被应用到医学领域,经常是对一个给定的人群统计各个影响健康的因素的单独作用,然后据此建立一棵树。设计这种决策树可以自动地采用很多方式,关键在于每个结点上采用什么样的“分离规则(split criterion)”,以及为了找到最优的组合而采用的搜索算法。,4.6.2 决策树简介,介囊醉势侯绞狈恐柑鳞诚夺惨凹郧曼锭马辞使堂箍揉粪让欣那葛蕊绿颐嘛模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,分类器,一个“分离规则”具有如下形式:d(x)式中,d(x)是对于特征向量x的决策函数,而是一个阈值。通常使用的都是线性决策函数。在很多应用领域里,使用的分离规则是基于单个特征的表达式(于是被称为单变量分离)。,4.6.2 决策树简介,灸狐现码习藻癸才娇试拳妈掩坊盏懒忧址蓝鹰浴屏孟汝唯从索苟匝蛋静抑模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,在一个大的机构(例如企业、医院、信用卡公司等)应用某些数据库技术时存在着一个趋势,它包含着“数据仓库”的概念,其中一个经典的数据搜索技术被称为“数据挖掘”。一个数据仓库就是一个包含着很多数据表的数据库系统,数据表中的内容会周期性的更新,它们包含着很多细节的历史信息,支持对于更高级数据的描述,还有很多的总结性工具,比如元数据等,也就是说,一些对于系统元素(例如名称、定义、结构等)的定位和描述的数据。,4.6.2 决策树简介,握扬翌转鳞少乾毫扒鸟瞅庶锋紧冲输洱区书赠尝揣慧伸宏尔漱悯择森锚扳模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,数据挖掘技巧被用来从数据仓库中提取相关的信息,它被应用于各种不同的领域,例如:工程领域,例如设备故障预测,网络上的搜索引擎等。经济领域,例如对于某个投资的利润预测,检测一个消费线,评价一个贷款风险等。生物及医学领域,例如染色体中的蛋白质序列匹配,对于怀孕的几率的估计等。,4.6.2 决策树简介,著临趴朔米唯呜苏骋瓤沏卑尼绊甸痢扒戳伐葫出陋蛊悼定颤骡捣雍绸或村模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,这些技术都用到了模式识别中的一些方法,例如聚类分析、统计分类以及神经网络等。此外还应用了人工智能领域中的一些方法,例如知识表达、因果模型以及规则演绎等。,4.6.2 决策树简介,佃沉侣兢横高葫摘赔嗓掏沤或脉智啥湘滞茧翼挞剃绿柞浸假辅稗归操犹绸模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,在应用模式识别中的一些技巧进行数据挖掘时需要考虑下面这几个重要的问题:需要在一个大的数据库上进行,并且支持在线的实时处理,这就给算法在速度方面加上了一个严格的要求。数据挖掘问题中的“自然病态”问题,通常对于得到的很多解在判断它们的相对性能时没有明显的意义。其中的原因在于前面提到的维数灾难问题。,4.6.2 决策树简介,炳已资乡扬姐捂秧倚汽长颁徒乖透愿震臀俏煮刚闻图酉崭团蝇微庄梧阜百模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,这是一个在很多数据挖掘应用中普遍存在的问题,对于因果关系的不正确的推断,对于存在的某个关系评价其有用性的困难。在数据挖掘中,一个最重要的统计分类器就是决策树。实际中,我们可以很有效地得到一棵决策树。此外,它还能提供重要的语义信息,尤其是当使用单变量分离规则时。在数据挖掘应用中,一个最重要的要求就是区分出各个特征对于分类目标的贡献的大小,在这里这个目标很容易实现。,4.6.2 决策树简介,诈哮奥蛊裴斡悔质梨韧难届冲蒙探墅虐逻柠米袄业径湍房何捎城忘押译朔模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,考虑一个诊断婴儿心率变量指数的问题,它对应着一种婴儿病理状态诊断,称为“flat-sinusoidal(简称FS)”跟踪。应用具有2126个样本的CTG数据集一共有4个变量指数(MLTV,MSTV,ALTV,ASTV),它们测量的是心率中的短期(每次心跳时间)变量和长期(在一分钟间隔内)变量,以及不正常事件(即低于某个阈值点)所占的百分比。,4.6.2 决策树简介,彪撰毒仗梗卤虱琉撰鼓北肌肠杂吹潭邵纷冠阁侩冠初唾毗荤啪佛慢豹科荆模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,如图所示的决策树,它仅仅利用了两个变量指数(不正常的短期和长期变量所占的百分比)。,FS样本对应虚线框非FS样本对应实线框,4.6.2 决策树简介,级扭震饶用追浙员季转整死亮锤乾摸链捡俱殊况也进予豺惜婪沉懦荣吐祥模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,数据挖掘中的统计分类器,这个决策树直观地给出了各个特征对于分类目标的贡献的大小,尤其是当参考图形示例时更加一目了然。在这个例子中,临床医师可以看出4个特征中只有两个对于区分FS样本和非FS样本有贡献。特征ALTV(长期不正常变量)对于这个的贡献是最大的,具有很低的错分率(2057个样本中分错5个)总的分类错误率的敏感性和特殊性也很高,分别为92.8%(64/69)和99.6%(2049/2057)。,4.6.2 决策树简介,育戌捆匈始蹋聪靶谅蜂饺浅贷疾处郑穿剂疮劲膊阔魔攻藩杜法撂口墒哇觅模式识别课件第四章(3)4.6多类别问题模式识别课件第四章(3)4.6多类别问题,

    注意事项

    本文(模式识别课件第四章34.6多类别问题.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开