欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大学计算机第11讲 怎样管理和利用数据II课件.ppt

    • 资源ID:1934172       资源大小:4.19MB        全文页数:103页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大学计算机第11讲 怎样管理和利用数据II课件.ppt

    由关系模型到结构化数据库语言SQL,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,由关系模型到结构化数据库语言SQL(1)回顾:数据库系统的概念,数据格式,数据,981102 数据库 李四 99秋 02 王四 90,谁能访问数据更新数据有什么要求 ,用户定义的数据安全性约束条件,阶段1:User/DBAP通过数据定义语言(DDL)定义数据表的格式,阶段2:User/DBAP通过数据操纵语言(DML)操纵数据进出数据库,User/DBA通过数据控制语言(DCL)定义数据安全性,数据库语言SQL Select 列名 , 列名 From 表名1 , 表名2, Where 检索条件 ;语义:将From后面的所有表串接起来,检索出满足“检索条件”的元组,并按给定的列名及顺序进行投影显示。, 列名, , 列名( 检索条件 (表名1 表名2 ),关系运算式,由关系模型到结构化数据库语言SQL(2)由关系模型到结构化数据库语言SQL,SQL: Structural Query Language,SQL语言是数据库系统的标准语言,它可以定义数据库、操纵数据库和进行数据库控制。SQL语言主要由以下9个单词引导的操作语句来构成,但每一种语句都能表达复杂的操作请求。 DDL语句引导词:Create(建立), Alter(修改), Drop(撤消)定义Database, Table, View, Index DML语句引导词:Insert(插入), Update(更新), Delete(删除), Select(查询)各种方式的更新与检索操作各种条件的查询操作,如连接查找,模糊查找,分组查找,嵌套查找等各种聚集操作,求平均、求和、等,分组聚集,分组过滤等 DCL语句引导词:Grant, Revoke安全性控制-授权和撤消授权,由关系模型到结构化数据库语言SQL(3)什么是结构化数据库语言SQL,由关系模型到结构化数据库语言SQL(4)用SQL语言创建数据库并定义表-简介,创建课程学习数据库:SCT Create Database SCT;,定义学生表:StudentCreate Table Student ( S# char(8) not null , Sname char(10), Ssex char(2), Sage integer, D# char(2), Sclass char(6) );定义课程表:Course Create Table Course ( C# char(3) , Cname char(12), Chours integer, Credit float(1), T# char(3) );同学可自己定义其他的表: Dept, Teacher, SC,StudentCourse,create table 表名( 列名 数据类型 not null , 列名 数据类型 , ) ;,由关系模型到结构化数据库语言SQL(5)用SQL语言在所定义表中增加记录-简介,insert into 表名 (列名 , 列名 values (值 , 值 , );,追加学生表中的元组Insert Into Student Values ( 98030101 , 张三, 男, 20, 03, 980301);Insert Into Student ( S#, Sname, Ssex, Sage, D# , Sclass)Values ( 98030102 , 张四, 女, 20, 03, 980301);追加课程表中的元组Insert Into Course /*所有列名省略,须与定义或存储的列名顺序一致Values ( 001 , 数据库, 40, 6, 001); /*如列名未省略,须与语句中列名的顺序一致Insert Into Course(Cname, C#, Credit, Chours, T#);Values (数据库, 001, 6, 20, 001);,已经建立好的数据库-供后面学习和训练使用,由关系模型到结构化数据库语言SQL(6)已经建立起的数据库,SQL-SELECT之简单使用,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,Select 的简单语法形式为: Select 列名 , 列名 From 表名 Where 检索条件 ;语义:从所给出的表中,查询出满足的元组,并按给定的及顺序进行投影显示 列名, , 列名( 检索条件 (表名),SQL-SELECT之简单使用(1)基本检索操作的表达方法,例如:检索学生表中所有学生的信息Select S#, Sname, Ssex, Sage, Sclass, D# From Student ; Select * From Student ; /如投影所有列,则可以用*来简写 再如:检索学生表中所有学生的姓名及年龄Select Sname, Sage /投影出某些列 From Student ; 再如:检索学生表中所有年龄小于19岁的学生的年龄及姓名Select Sage, Sname /投影的列可以重新排定顺序 From StudentWhere Sage = 19;,SQL-SELECT之简单使用(2)基本检索条件书写,SELECT FROM WHERE ,例如:求或者学过001号课程, 或者学过002号课程的学生的学号Select S# From SCWhere C# = 001 OR C#=002; 再例如:求既学过001号课程, 又学过002号课程的学生的学号? 如下书写SQL语句会得到正确结果吗?它能得到什么结果?怎样正确书写?Select S# From SCWhere C# = 001 AND C#=002;/正确的SQL语句在讲义后面的示例中讲解,SQL-SELECT之简单使用(2)基本检索条件书写,对于每一行应用Where子句的条件,SELECT FROM WHERE ,例如:在选课表中,检索成绩大于80分的所有学号Select S# From SCWhere Score 80 ; /有重复元组出现,比如一个同学两门以上课程大于80Select DISTINCT S# From SCWhere Score 80; /重复元组被DISTINCT过滤掉,只保留一份,检索结果去重复:DISTINCT,表(Table)和关系(Relation)在大部分情况下概念通用,但有细微差别: 前者可允许有重复元组, 而后者不允许,SQL-SELECT之简单使用(3)如何去掉检索结果的重复元组或记录呢?,Select语句中结果排序是通过增加order by子句实现的order by 列名 asc | desc意义为结果按指定列名进行排序,若后跟asc或省略,则为升序;若后跟desc, 则为降序。例如:按学号由小到大的顺序显示出所有学生的学号及姓名Select S#, Sname From StudentOrder By S# ASC ; 再如:检索002号课大于80分的所有同学学号并按成绩由高到低顺序显示Select S# From SC Where C# = 002 and Score 80Order By Score DESC ;,检索结果的排序,SQL-SELECT之简单使用(4)如何对检索结果进行排序呢?,SELECT FROM WHERE ORDER BY ,比如检索“姓张的学生”,检索“张某某”,这类查询问题,Select语句是通过在检索条件中引入运算符like来表示的 含有like运算符的表达式 列名 not like “字符串” 找出匹配给定字符串的字符串。其中给定字符串中可以出现%, _等匹配符. 匹配规则: “%” 匹配零个或多个字符 “_” 匹配任意单个字符 “ ” 转义字符,用于去掉一些特殊字符的特定含义,使其被作为普通字符看待, 如用 “%”去匹配字符%,用_ 去匹配字符_,SQL-SELECT之简单使用(5)如何表达模糊性的查询内容呢?,模糊查询,例如:检索所有姓张的学生学号及姓名Select S#, Sname From StudentWhere Sname Like 张% ; 再如:检索名字为张某某的所有同学姓名Select Sname From Student Where Sname Like 张_ _; 再如:检索名字不姓张的所有同学姓名Select Sname From Student Where Sname Not Like 张%;,SQL-SELECT之简单使用(5)如何表达模糊性的查询内容呢?,SQL-SELECT之简单使用(6)小结?,SQL-SELECT之多表联合操作,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,Select 的多表联合检索语句如下: Select 列名 , 列名 From 表名1, 表名2, Where 检索条件 ;相当于 列名, , 列名( 检索条件 (表名1 表名2 )检索条件中要包含连接条件,通过不同的连接条件可以实现各种连接操作。,SQL-SELECT之多表联合操作(1)多表联合检索的表达方法,例如:按“001”号课成绩由高到低的顺序显示出所有学生的姓名(二表连接)Select Sname From Student, SCWhere Student.S# = SC.S# and SC.C# = 001 Order By Score DESC; 当多表连接时,如果两个表的属性名相同,则需采用表名. 属性名方式来限定该属性是属于哪一个表 再如:按数据库课程成绩由高到低顺序显示所有同学姓名(三表连接)Select Sname From Student, SC, CourseWhere Student.S# = SC.S# and SC.C# = Course.C# and Cname = 数据库 Order By Score DESC;,SQL-SELECT之多表联合操作(2)多表联合检索之连接条件书写,Student(S#,Sname,Ssex,Sage,D#,Sclass)Course(C#,Cname,Chours,Credit,T#)SC(S#,C#,Score)Dept(D#,Dname,Dean)Teacher(T#,Tname,D#,Salary),连接运算涉及到重名的问题,如两个表中的属性重名,连接的两个表重名(同一表的连接)等,因此需要使用别名以便区分 select中采用别名的方式: Select 列名 as 列别名 , 列名 as 列别名 From 表名1 as 表别名1, 表名2 as 表别名2, Where 检索条件 ; 上述定义中的as 可以省略 当定义了别名后,在检索条件中可以使用别名来限定属性,SQL-SELECT之多表联合操作(3)多表联合检索之表与列的别名,例如:求有薪水差额的任意两位教师Select T1.Tname as Teacher1, T2.Tname as Teacher2From Teacher T1, Teacher T2Where T1.Salary T2.Salary ;求年龄有差异的任意两位同学的姓名Select S1.Sname as Stud1, S2.Sname as Stud2 From Student S1, Student S2Where S1.Sage S2.Sage ;请同学书写一下:求001号课程有成绩差的任意两位同学有时表名很长时,为书写条件简便,也定义表别名,以简化书写。,Student(S#,Sname,Ssex,Sage,D#,Sclass)Course(C#,Cname,Chours,Credit,T#)SC(S#,C#,Score)Dept(D#,Dname,Dean)Teacher(T#,Tname,D#,Salary),SQL-SELECT之多表联合操作(3)多表联合检索之表与列的别名,再如:求既学过“001”号课又学过 “002”号课的所有学生的学号(二表连接)Select SC1.S# From SC SC1, SC SC2Where SC1.S# = SC2.S# and SC1.C#=C01 and SC2.C#=C02 ; 再如:求“C01”号课成绩比“C02”号课成绩高的所有学生的学号(二表连接)Select SC1.S# From SC SC1, SC SC2Where SC1.S# = SC2.S# and SC1.C#=C01 and SC2.C#=C02 and SC1.Score SC2.Score;,SQL-SELECT之多表联合操作(4)多表联合检索之表与自身的连接,正确理解汉语表达的查询语义,正确表达为SQL语句 例如:列出没学过李明老师讲授课程的所有同学的姓名? 如下书写SQL语句会得到正确结果吗?它能得到什么结果?怎样正确书写?Select Sname From Student S, SC, Course C, Teacher TWhere T.Tname 李明 and C.C# = SC.C# and SC.S# = S.S# and T.T# = C.T#;/正确的SQL语句在讲义后面的示例中讲解,SQL-SELECT之多表联合操作(5)多表联合检索之语义之理解,IN子查询。其基本语法为:表达式 not in (子查询) 语义:判断某一表达式的值是否在子查询的结果中。,再例如:列出选修了001号课程的学生的学号和姓名Select S#, Sname From StudentWhere S# in ( Select S# From SC Where C# = 001 ) ;再例如:求既学过001号课程, 又学过002号课程的学生的学号Select S# From SCWhere C# = 001 and S# in ( Select S# From SC Where C# = 002 ) ;,SQL-SELECT之多表联合操作(6)多表联合检索之嵌套子查询,再例如:列出没学过李明老师讲授课程的所有同学的姓名?Select Sname From StudentWhere S# not in ( Select S# From SC, Course C, Teacher T Where T.Tname = 李明 and SC.C# = C.C# and T.T# = C.T# );,SQL-SELECT之多表联合操作(6)多表联合检索之嵌套子查询,非相关子查询,SQL-SELECT之多表联合操作(7)非相关子查询 vs. 相关子查询,有时,内层查询需要依靠外层查询的某些参量作为限定条件才能进行,这样的子查询称为相关子查询。 外层向内层传递的参量需要使用外层的表名或表别名来限定 例如:求学过001号课程的同学的姓名 Select Sname From Student StudWhere S# in ( Select S# From SC Where S# = Stud.S# and C# = 001 ) ; 注意:相关子查询只能由外层向内层传递参数,而不能反之;这也称为变量的作用域原则。,相关子查询,SQL-SELECT之多表联合操作(8)非相关子查询 vs. 相关子查询,再如:求既学过“001”号课又学过 “002”号课的所有学生的学号(二表连接)Select SC1.S# From SC SC1, SC SC2Where SC1.S# = SC2.S# and SC1.C#=C01 and SC2.C#=C02 ; 再如:求“C01”号课成绩比“C02”号课成绩高的所有学生的学号(二表连接)Select SC1.S# From SC SC1, SC SC2Where SC1.S# = SC2.S# and SC1.C#=C01 and SC2.C#=C02 and SC1.Score SC2.Score;,SQL-SELECT之多表联合操作(6)小结?,SQL-SELECT之分组聚集操作,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,结果计算与聚集函数,select子句可以是一些计算表达式或聚集函数,表明在选择和投影的同时直接进行一些运算,如下所示: Select 列名 | expr | agfunc(列名) , 列名 | expr | agfunc(列名) From 表名1 , 表名2 Where 检索条件 ; 计算表达式可以是常量、列名或由常量、列名、特殊函数及算术运算符构成的算术运算式。,SQL-SELECT之分组聚集操作(1)SELECT之结果计算与聚集函数?,求有差额(差额0)的任意两位教师的薪水差额Select T1.Tname as TR1, T2.Tname as TR2, T1.Salary T2.Salary From Teacher T1, Teacher T2Where T1.Salary T2.Salary;,结果计算与聚集函数,SQL提供了五个作用在简单列值集合上的内置聚集函数agfunc, 分别是:COUNT、SUM、AVG、MAX、MIN SQL聚集函数的参数类型、结果类型与作用如下:,SQL-SELECT之分组聚集操作(1)SELECT之结果计算与聚集函数?,求教师的工资总额Select Sum(Salary) From Teacher; 求计算机系教师的工资总额 Select Sum(Salary) From Teacher T, DeptWhere Dept.Dname = 计算机 and Dept.D# = T.D#; 求数据库课程的平均成绩Select AVG(Score) From Course C, SCWhere C.Cname = 数据库 and C.C# = SC.C#;,结果计算与聚集函数,SQL-SELECT之分组聚集操作(1)SELECT之结果计算与聚集函数?,分组计算与聚集,为解决同时求解若干个集合的聚集运算问题,引出了分组的概念。 SQL可以将检索到的元组按照某一条件进行分类,具有相同条件值的元组划到一个组或一个集合中,这一过程就是分组过程。 分组可以在基本Select语句基础上引入分组子句来完成: Select 列名 | expr | agfunc(列名) , 列名 | expr | agfunc(列名) From 表名1 , 表名2 Where 检索条件 Group by 分组条件 ; 分组条件可以是 列名1, 列名2, ,SELECT FROM WHERE GROUP BY HAVING ORDER BY ,SQL-SELECT之分组聚集操作(2)SELECT之分组计算与聚集?,例如: 求每一个学生的平均成绩Select S#, AVG(Score) From SCGroup by S#; 再如:求每一门课程的平均成绩Select C#, AVG(Score) From SCGroup by C#;,SQL-SELECT之分组聚集操作(2)SELECT之分组计算与聚集?,分组计算与聚集,求不及格课程超过两门的同学的学号,下述写法正确吗?Select S# From SCWhere Score 2Group by S#;,SQL-SELECT之分组聚集操作(3)SELECT之分组过滤,若要对分组(集合)进行条件过滤,可使用Having子句 Select 列名 | expr | agfunc(列名) , 列名 | expr | agfunc(列名) From 表名1 , 表名2 Where 检索条件 Group by 分组条件 Having 分组过滤条件 ;,分组过滤-过滤掉分组,而不是元组,每一行都要检查满足与否的条件要用WHERE子句表达,每一分组检查满足与否的条件要用Having子句表达。注意:不是每一行都检查,所以使用Having子句一定要有Group by子句,HAVING子句与WHERE子句表达条件的区别,SQL-SELECT之分组聚集操作(3)SELECT之分组过滤,分组过滤-过滤掉分组,而不是元组,例如 求不及格课程超过两门的同学的学号Select S# From SCWhere Score 2; 再如 求有10人以上不及格的课程号Select C# From SCWhere Score 10;,分组过滤-过滤掉分组,而不是元组,SQL-SELECT之分组聚集操作(3)SELECT之分组过滤,例如:求有两门以上不及格课程的同学的学号及其平均成绩Select S#, Avg(Score) From SCWhere Score 2; 上述写法正确吗? 正确的如下书写,为什么呢?Select S#, AVG(Score) From SCWhere S# in ( Select S# From SC Where Score 2 )Group by S# ;,SQL-SELECT之分组聚集操作(3)SELECT之分组过滤,分组过滤-过滤掉分组,而不是元组,SQL-SELECT的完整语法,Subquery := SELECT ALL | DISTINCT * | expr AS c_alias , FROM tableref , WHERE search_condition GROUP BY column , HAVING search_condition | subquery UNION ALL | INTERSECT ALL | EXCEPT ALL CORRESPONDING BY (colname , ) subquery;Tableref := tablename corr_name Select statement := Subquery ORDER BY result_column ASC | DESC , ,SQL-SELECT之分组聚集操作(4)SQL-SELECT之总结,由数据库到数据挖掘I-数据挖掘示例之背景与概念,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,数据对超市经营有无帮助呢?,客户购买习惯商品组合方式及策略 ,营销策略价格策略货源组织,由数据库到数据挖掘I-数据挖掘示例之背景与概念(1)数据也是生产力?,由数据库到数据挖掘I-数据挖掘示例之背景与概念(2)数据运用的前提数据的聚集与管理?,超市数据库,由数据库到数据挖掘I-数据挖掘示例之背景与概念(3)什么是数据挖掘?,数据挖掘,又称为数据库中知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。简单地讲就是从大量数据中挖掘或抽取出知识。,概要归纳关联分析 分类与预测聚类分析异类分析演化分析,由数据库到数据挖掘I-数据挖掘示例之背景与概念(4)怎样挖掘数据-一个例子?,数据挖掘之关联规则挖掘,商品的关联规则,“尿布” “啤酒” 支持度=2%,置信度=60%,“由尿布的购买,能够推断出啤酒的购买”,支持度2%意味着所分析事务的2%同时购买尿布和啤酒,置信度60%意味着购买尿布的顾客60%也购买啤酒。,是否相信这条规则呢?让数据说话,由数据库到数据挖掘I-数据挖掘示例之背景与概念(5)概念准备?,1. 项、项集与事务设 P = p1 , p2 ,., pm 是所有项(Item)的集合。D是数据库中所有事务的集合,其中每个事务T(Transaction)是项的集合,是P的子集,即T P;每一个事务有一个关键字属性,称作交易号或事务号以区分数据库中的每一个事务。设A 是一个项集(ItemSet),事务T 包含A 当且仅当A T。2. 关联规则关联规则是形如A B 的蕴涵式,即命题A(如“项集A的购买”)蕴涵着命题B(“如项集B的购买”),或者说由命题A能够推出命题B,其中A P,B P,并且A B = 。,关联规则挖掘相关的基本概念,3. 支持度与置信度 Support (A B) = P(AB) = 包含A和B的事务数 D中事务总数。confidence (A B) = P(B|A) = 包含A和B的事务数 包含A的事务数。 支持度反映一条规则的实用性,置信度反映规则的“值得信赖性”的程度4. 强规则同时满足最小支持度阈值(min_s)和最小置信度阈值(min_c)的规则称作强规则。 5. k-项集与k-频繁项集项的集合称为项集,包含k 个项的项集称为k-项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。如果项集的出现频率大于或等于min_s与D 中事务总数的乘积, 则项集满足最小支持度min_s。如果项集满足最小支持度,则称它为频繁项集。频繁k -项集的集合通常记作Lk。,关联规则挖掘相关的基本概念,面包,果酱 - 2-项集面包,果酱,奶油 -3-项集,由数据库到数据挖掘I-数据挖掘示例之背景与概念(5)概念准备?,由数据库到数据挖掘I-数据挖掘示例之背景与概念(6)关联规则挖掘的基本思想 ?,关联规则挖掘的基本思想,由频繁项集产生强关联规则。依定义,这些规则必须满足最小支持度和最小置信度。,找出所有频繁项集。依定义,这些项集出现的频率至少和预定义的最小出现频率一样。,如何挖掘频繁项集?,Apriori 算法,面包,果酱 - 2-项集面包,果酱,奶油 -3-项集,由数据库到数据挖掘I-数据挖掘示例之背景与概念(7)小结,由数据库到数据挖掘II-数据挖掘示例之计算过程-1,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,关联规则挖掘的基本思想,由频繁项集产生强关联规则。依定义,这些规则必须满足最小支持度和最小置信度。,找出所有频繁项集。依定义,这些项集出现的频率至少和预定义的最小出现频率一样。,如何挖掘频繁项集?,Apriori 算法,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(0)回顾:频繁项集的挖掘算法-Apriori算法的相关概念,面包,果酱 - 2-项集面包,果酱,奶油 -3-项集,商品购买明细数据库,频繁项集挖掘算法计算示例,1.对问题域数据进行抽象,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(1)频繁项集发现的计算过程 ?,候选1项集,频繁1项集支持度计数最小支持度计数5(min_sup=5/20=25%),频繁项集挖掘算法计算示例,2.形成候选1-项集,并求出频繁1-项集,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(1)频繁项集发现的计算过程 ?,候选2项集C2=L1 Join L1,频繁项集挖掘算法计算示例,3.形成候选2-项集,并求出频繁2-项集,频繁1项集,频繁2项集支持度计数最小支持度计数5,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(1)频繁项集发现的计算过程 ?,候选3项集C3=L2 Join L2,频繁项集挖掘算法计算示例,4.形成候选3-项集,并剪枝,进一步求出频繁3-项集,频繁2项集,候选3项集的支持度计数,频繁3项集,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(1)频繁项集发现的计算过程 ?,候选项集-频繁项集支持度计数=5,频繁3项集,频繁项集全集频繁1项集频繁项集频繁3项集 频繁4项集,频繁项集挖掘算法计算示例,5.迭代地求出最终结果-频繁项集,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(1)频繁项集发现的计算过程 ?,由数据库到数据挖掘II-数据挖掘示例之计算过程-1(2)频繁项集的发现算法,由数据库到数据挖掘II-数据挖掘示例之计算过程-2,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,关联规则挖掘的基本思想,由频繁项集产生强关联规则。依定义,这些规则必须满足最小支持度和最小置信度。,找出所有频繁项集。依定义,这些项集出现的频率至少和预定义的最小出现频率一样。,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(0)回顾:频繁项集的挖掘,面包,果酱 - 2-项集面包,果酱,奶油 -3-项集,商品的关联规则,“尿布” “啤酒” 支持度=2%,置信度=60%,“由尿布的购买,能够推断出啤酒的购买”,支持度2%意味着所分析事务的2%同时购买尿布和啤酒,置信度60%意味着购买尿布的顾客60%也购买啤酒。,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(1)什么是关联规则,关联规则的生成计算示例,P1,P2,P5,P6可以产生的潜在规则AB, 其中AB=P1,P2,P5,P6, AB=.,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(2)关联规则的产生,输出的规则表,A B = ,“购买A能够推出购买B”置信度70%的规则,关联规则的生成计算示例,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(2)关联规则的产生,组合形成规则表,频繁3项集能推出哪些频繁项集?置信度标记红色为置信度70%的规则支持度标记蓝色的为满足置信度前提下的支持度=50%的规则,关联规则的生成计算示例,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(2)关联规则的产生,最终输出的规则表,关联规则的生成计算示例,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(2)关联规则的产生,age(X ,30.39) income(X ,42K.48K)buys(X ,high _ resolution _ TV),关联规则挖掘,X代表顾客,buys(X,面包)buys(X, 果酱),单维度单层次规则,多维度多层次规则,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(3)还能挖掘什么 ?,Web数据挖掘,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(3)还能挖掘什么 ?,只求关系,不求因果,不要相信经验,一切以数据说话,bit & Byte1KB(Kilobyte) = 210字节1MB(Megabyte) = 210KB1GB(Gigabyte) = 210MB1TB(Trillionbyte) = 210GB = 220MB1PB(Petabyte) = 210TB = 230MB1EB(Exabyte) = 210PB = 240MB1ZB(Zettabyte) = 210EB = 250MB1YB(Yottabyte) = 210ZB = 260MB1BB(Brontobyte) = 210YB = 270MB,大数据,大数据环境下什么不能发生呢?,由数据库到数据挖掘II-数据挖掘示例之计算过程-2(5)小结,数据抽象与设计I-抽象之理解-区分-命名-表达,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,抽象、理论和设计是计算学科的三种形态或三种过程设计-是指构造计算系统来改造世界的手段,是工程的主要内容,只有设计才能造福于人类(设计的价值)理论-是发现世界规律的手段,理论,如果不能指导设计,则是反映不出其价值的;设计,如果没有理论指导,则设计的严密性、可靠性、正确性是没有保证的(理论的价值)抽象-是感性认识世界的手段。理论和设计的前提都需要抽象,没有抽象二者都是没有办法达成目标的(抽象的价值),抽象-理论-设计概述,数据抽象与设计I-抽象之理解-区分-命名-表达(0)抽象-理论-设计概述,抽象:指在思维中对同类事物去除其现象的次要方面,抽取其共同的主要方面,从而做到从个别中把握一般,从现象中把握本质的认知过程和思维方法。抽象:一方面是建立对客观事物进行抽象描述的方法(方法论),另一方面是要采用现有的抽象方法建立具体问题的概念模型,从而实现对客观世界的感性认识(方法论的应用) 。抽象:是现实事物的概念化。,数据抽象与设计I-抽象之理解-区分-命名-表达(1)科学方法论中关于“抽象”的描述,怎样进行抽象? 有没有抽象的技巧?,抽象:是指由具体事物中发现其本质性特征和方法的过程。,Quelle: Piccasso,具体化,抽象化,抽象就是“逐渐剥离语义、逐渐去掉细节”,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,抽象:就是寻找相同的形式,处理可变的内容,抽象:区分并命名表的每一个形式要素,若干具有相似性的具体的表,用抽象出的概念表示的表的形式,“理解 区分 命名 表达”,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,V1 V2 V3 V4 V5,属性名,属性值,属性,元组,内容,模式,抽象:就是共性中寻找差异,差异中寻找共性,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,与前一个示例一样吗? 怎样进行抽象呢?,“理解 区分 命名 表达”,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,二维交叉表,维度-1,层次/粒度-1,层次/粒度-2,维度-2,多维度多粒度交叉表,交叉格,抽象:就是共性中寻找差异,差异中寻找共性,“理解 区分 命名 表达”,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,数据的抽象维度粒度/概念层次度量-交叉格“事实”操作的抽象下钻, 上卷切片/切块转轴,抽象:就是共性中寻找差异,差异中寻找共性,“理解 区分 命名 表达”,抽象结果的表达-用设计手段表达? 用数学手段表达?,数据抽象与设计I-抽象之理解-区分-命名-表达(2)怎样进行“抽象”?,“理解 区分 命名 表达”,数据抽象与设计I-抽象之理解-区分-命名-表达(3)小结?,抽象的基本特征:本质性、区分与概念记住:共性中寻找差异,差异中寻找共性-思维方法寻找相同的形式,处理可变的内容-计算学科“抽象”过程的本质理解区分命名表达-计算学科“抽象”的过程,最关键的,数据抽象与设计I-抽象之不同层次,Research Center on Intelligent Computing for Enterprises & Services,Harbin Institute of Technology,战德臣哈尔滨工业大学 教授.博士生导师教育部大学计算机课程教学指导委员会委员,概念的抽象,关系数据表的抽象,待表达的问题:产品构成关系,概念级抽象,实现级抽象,不同层面的抽象:现实世界概念/信息世界计算机世界逻辑世界(语义结构)物理世界(存储结构),数

    注意事项

    本文(大学计算机第11讲 怎样管理和利用数据II课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开