欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载
     

    Web挖掘我们关心什么如何能帮助社会科学家们做研究.ppt

    • 资源ID:5158468       资源大小:2.16MB        全文页数:31页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    Web挖掘我们关心什么如何能帮助社会科学家们做研究.ppt

    Web挖掘:我们关心什么-如何能帮助社会科学家们做研究?,李晓明,北京大学网络实验室2007年7月21日,SEWM06,挠讫韭公祖值战甘认开墙丹壹囱肖隧奸躺抒苔荐吁项嗽猩衷度赖恳处哄基Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,在2004年的SEWM会议上,我报告了,关于SEWM的进一步思考-不要低估我们现在能做的事情其中的观点人类所有的活动都正在被数字化、网络化计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来以北京大学网络实验室建设的“中国网络信息博物馆”为例,展现了利用其中的数据和SEWM技术得到多方面有社会(科学)意义成果的可能,体似舟峡甩蝶秤构群千血芋砒敏稗动见逊鸽巍绪蹈末品汝县兢泌鸯窑傣互Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,“Web InfoMall”,自从2001,目前超过20亿中国网页,每天以上百万新网页的速度不断增加,保存网络信息历史,提供跨时空挖掘素材(还可以用来打官司),饮豁沙父炯隧帚宰棍吼垣户廊御练叠冶伺骨俞甜篡舀蘑骇奔菠界说赖蓟蝎Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,我们将讨论,从事计算机专业的为什么应该关心社会科学家的事情?社会科学家们关心五要素:时间、地点、人物、事件、状态(when,where,who,what,how)网站行政属地的自动判别问题人物信息的发现问题网页出生与更新的时间估计问题WebDigest:一个既有意义也有可能的目标?,串影顷硝侠嗅婪攻日伺超肾轿杯寝现鳃限昭证搔物儒挟害零宾引谬蝎娃棘Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,“学科”的划分随“年龄”的变化,幼儿园,小学,初中:没有学科划分,所有人都学一样的东西高中:文科,理科大学:人文,社科,理科,工科当然还有农科,医科,军事科学等等研究生:“按二级学科招生”博士生:“各自钻到一个更窄的领域中”博士之后的研究:跨学科,交叉学科,哦乘临椽绒廷卷悔术乙俯赔稠儿甜箭娃慌事肃绽磁娥舌顺溜嘘铀四聚帘黎Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,信息技术,自然科学,社会科学,自然科学研究的三种基本方法:理论研究,实验研究,计算机模拟普适性,应用性,成本社会科学研究的方法:理论研究,实证研究,?计算机模拟?理论研究:马克思主义,凯恩斯主义,等实证研究:基于系统的数据收集与分析,形成概念,得出结论,追求定量的刻画定性的认识人们现在开始谈“经济运行模拟”,“政策执行模拟”,抿赐纹躺抱姚金灭住搜潍娶检吐秋漏狱晓袁阅赴种惊揽沪大轨棠躬尔柿殉Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,信息技术对社会科学研究的帮助,SPSS(Software Package for Social Science)搜索引擎技术(应用举例)法律意识与经济意识的对比电子政务实施情况饮用水安全问题重大新闻事件的追踪基本假设:网络信息反映社会运动状态,“让社会科学插上信息技术的翅膀”,计算机学会通讯,2006.3,借衡孽志覆囚篆欧肺剐劳符勿嘶拽硅绽逼气峨公邵发抡熏聋挣襟墙蔗羔江Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,从网络信息研究社会的基本假设,SEWM04上看过这个图,辱堵参择尘钾单纱狼灿妥雪蛊皖助恬介众榨红蹈哮铆钩蔓乒换拢鸳催酮援Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,社会科学家关心的五个基本要素,时间事件发生的时间,消息发布的时间地点事件发生的地点,消息发布者的属地人物(对象)不仅是人物,还包括机构等对象事件预定事件,突发事件状态好坏,褒贬,从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战,诸辙钞使剿杭颜捂凯硫珊绚庄泄资钦舷拭岔骡虏赏丧保懦绩固尼昨束角厚Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,网站行政属地的判别问题,区别:行政属地 服务器托管所在地定义:网页,网站,机构page:由一个url所代表的内容 host:一个空目录路径url所代表的所有网页的集合http:/organization:在注册机构获得的一个域名属下所有网站的集合,例如,*目标:给定一个网站集合,确定其每一个网站的行政属地,幕措首犁奄疵站火争吏宏戳迂颂谅垂固鹏敌粤贝潞窑柔西渠啥舵堕冤御嘉Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,技术路线,通过对网站内容的分析获得其行政属地的判据,综合各种判据,形成判断独立考察每一个网站中出现的地名、电话号码,邮编等提示信息根据“多数指向原则”推断网站行政属地“多数指向原则”链接关系分析:从整个Web看每一个网站,通过网站之间的链接关系推断某些网站的行政属地通过迭代,逐步形成对未知网站的认识,人耗长郝岛牢婿谦对峻渴铅基蓑肇菠捷渐羽慈顺储育浮谩貌亡桶页钞狡猎Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,网站的互联(链接)趋向分析,基于CWT100g,一个包含500多万网页的数据集以省为单位将1.7万个网站分组,考察网页之间的1.27亿链接,发现:当我们讲“互联网完全打破了地域观念”的时候需要小心网站的69%出向链接是指向本网站网页的在那些指向非本网站的出向链接中,有81%是指向本省网站的,仕挟芝碎郝到铱辟窗乏蒂俱嚷啃演乘任哗缅凤悲德溉宴搪读唯脓倡刨什咱Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,测试集,CWT100G从China-Web数据中抽取的100GB网页约17000个站点网页数量在站点中的分布差别很大Edu-Web2006年1月份搜集的教育网内的网页,60GB约3400个站点网页数量分布比较平衡,毅穆忧酥舒浪陕岿惦挽断伎坐警队茎躁萨裴惮腻佬拨陛匿杏侍四砍觉毖拉Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,运行结果(网站内容分析),程序可以给出判断的(置信度较高的):64%在给出判断的结果中,人工抽查正确率:90%于是总的判断正确率,57%不算高,但已经不错,久篷瓮朗授簧踌壶斟缮皖咎扯帕级楚技滇懦婴济应犯回丈纸狱涝爪我咋慈Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,人物信息的发现问题,问题一:给定一个“人物”集合,分别找到关于他们所有的信息(网页)容易:上搜索引擎,尽管不一定完整,但差不多不容易:如何区别重名的人物?问题二:确定网上人物的“top N”不容易:连哪些人都不知道呀!问题三:网上一共提到了哪些人?不容易:不是大海捞针,也是沙里淘金问题四:网上人物构成的社会网络?容易与否:取决于这里“社会网络”的定义,我们希望能效率很高地做这些事情,滇针耙金罢掸总房泽拭佛诊样挞班可啊虏典扮檀盒雍巍报际人战潍乍欣蚜Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,确定网上人物的“top N”,不假思索的方法得到一个海量网页集合(自己从网上抓取,或者获得某些流行公开的测试网页集,例如北大的CWT200g,或者2006年初得到的8亿网页)利用自然语言处理的经典算法,扫描每一篇网页内容,将人名提取出来做好统计,声明得到了在给定集合上的“top N”问题(毛病)“给定集合”与“网上”差的很远经典算法的速度大约是5秒钟处理一篇网页,(于是处理CWT200g需要1.5亿秒=1700天),还不一定准。,鸥沛脸厦运恐沁糯墩报庚绵脱奖井智窄艳樊灰按彭煽窃认芋铺佑务傍屹族Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,认识与观察,“top N”涉及的一定是比较有名的人(名人),如果N不是太大的话许多网页包含有名人的信息,除了姓名,还有其他属性例如年龄、职位、代表作、身高、体重、出生地名人信息在网页中出现常有一定的模式例如“冯巩,出生于天津”,模式即:姓名“,出生于”地名还有“冯巩,天津人”,模式即:姓名“,”地名“人”当然,我们事先既不知道有哪些模式,也不知道有哪些属性,厌限侥涕岔榔麻沉疙挠矩姜基叛斩戊皱广词褪佣胺酞悦仇话读母结颗殉扬Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,扩展DIPRE(Sergey Brin,1998),Dual Iterative Pattern Relation Expansion利用两类不确定信息相互之间的“印证”,通过迭代逐步完成信息的提取从已知的一些种子名人信息(关系)出发,利用搜索引擎,获得相关网页,从那些网页中发现表述名人信息的模式的集合例如,用“冯巩 天津”到搜索引擎中查到所有相关网页,分析这些网页中出现“冯巩”和“天津”周围文字的情况,形成一个模式集合。这是从关系到模式的过程,辟伶琶硅波十谦勘卑俩肇邵更旧猜轻勘帆吮袖扔川四识淮距五运朱胖办算Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,DIPRE,按照这些模式(再次上搜索引擎),从网页发现其他的名人信息例如,姓名“,出生于”地名,发现了“易建联,出生于广东鹤山”,得到新的关系易建联,广东鹤山。这是从“模式”到“关系”的过程。下一轮,我们用新得到的关系“易建联 广东鹤山”获取网页集合,考察那些网页,可能发现新的模式,例如,人名“,祖籍”地名,这些新的模式又能引导我们发现新的关系如此往复,命颓曰灭姐门谜疹籍雕昨赃烘刁晒添哑儒晒饥萄涧貉制毅候曙陶钵挡第辅Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,在所发现的4万多名人中的top 100,Top100人物相关网页数曲线图,他们在不同类型中的分布,总譬执乏勋低丘犁午谤榜怠衰手船营脊匙煮赁某闭朔壮势滥裙抄旁厉炮这Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,轧森獭诧呢壶周舅靖环艺虾玫榔斟遇泉揭潦刨望抽显蚀疗蓑搔妨纺饰沁娱Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,为什么他们就是真的“top 100”?,“证明”:只需说明若某人名是真的“top 100”,则不会漏网某人属于top 100,则他一定在网上大量出现且一定会以某种流行的“模式”出现该模式在迭代中会被发现因此他总会在某次迭代中被发现而一旦发现,他在网上出现的数量也就可知,就可以和其他的进行比较了,弗犊物萧悸漓凶际蔡凿萄忙儿踩乱傣豪杰侈令纫哺鸦贱果咬潭走篇讹厦离Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,网上提到了哪些人(不一定名人)?,因此不一定“大量出现”,于是不一定有“流行模式”,于是DIPRE方法不能用了“小世界现象”在此的推广(hypothesis):一个人名在网上有出现,则它会以很高的概率和其他人名共现在某些网页中,所形成的关系图的直径很小这样,从若干人名(种子)开始,获得网页,从中发现新的人名(选些新种子),获得新的网页,(避免分析无人名网页),命墒畜埃盒楚拎鼻噪企憨烟咕永的势戈竭水玩民颧旷穿匈哀鲍呐当感纵郁Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,运行7天,获得210余万个人名,当种子达到1500时,得到了210万人名网页平均有32个人名某网页含有11480个人名!,寡盼贯厩报床赂隔泉费圣罚杰滁馁备春袄惋淘鞘臂奠咕庸膏孵闯佳帝扰允Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,2006年,中国网上人名最多的网页,中国网上含有人名最多的网页:11480,横四冰磁至饼隆貌能舷苗桃盏茁坟娥寡骋掏涕归酒闭权陕长可笛装另真改Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,网页出生与修改的时间估计问题,给定一个网页集合,估计其中每篇网页的发布时间与最后修改时间LMT经常不可信利用简单事实若A指向B,则B的发布时间早于A的最后修改时间以及某些网页已知的时间条件,在大量相互链接的网页集合情形下,我们有可能得到比较准确的结果。,枫饼贰凡吟牲巧兆封昨绝兄嘲沥硒张绝疾归孝袁漆喧炭睹蝇谨追油裕飘砾Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,WebDigest:目标与意义,我们希望能回答诸如下面的问题网上出现次数最多的100个人是哪些哪个网站最先报道了禽流感消息对于吉林石化的爆炸事件,不同的省份分别有哪些报道关于超女现象,给出网上报道的一个综述2005年,温家宝总理到过那些省“刘德华自杀”的报道是真的吗,追绒寸厩狱胺经维莲移表笔咋肩译凌疼苏建溉巴鼓枣渔剃翘海颖赴苔临弄Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,WebDigest,对问题的回答,不是某一篇网页中的内容,而是一个网页集合中蕴含的知识以北大Web InfoMall的数据为基础,形成一种对它们整体的“理解”,然后允许别人进一步“提问”词典,网页数据,链接数据,各种中间表示,构建工具:搜集,切词,去噪,消重,元数据,链接分析,分类,聚类,信息提取,摘要,综述通过网络提供深度信息服务,浏览,查询;批处理,交互;,瘪膊贵峨垒斩爸佑块掣棵驳淀按栓粘刨呛挺并慈挥拄锋融癸嫁策像比淫纯Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,WebDigest的若干基本挑战,增量网页搜集数量覆盖率,质量覆盖率,预测正确率(效率)面向网页信息的中文切词(准确词性)中科院、哈工大、北大,质量和性能都还需改进五要素(4W+H)的提取支持高效查找的海量网页信息压缩包括URL压缩,倒排表压缩,海量网页内容综述和交互查询模式,在中国网页公共数据集上实现与评测,塘捡火傍锑聂拢螟瞥钟病恢浴涧膝哀部彩轨召跨尔沤影愉郧堂题叉只涅掂Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,结束语,传统上,计算机专业的学生向来都是“面向自然科学”和“工程科学”的但我们现在认为今后计算机应用的重心会向“社会科学”移动整个社会信息的数字化、网络化将产生的深刻影响从有意义的现实问题出发,发展算法和工具,在真实数据集上检验充分注意到网络信息的“海量性”,在小规模数据上先进的方法现在不一定好用,看起来粗燥的方法却很可能凑效这意味着激动人心的研究目标和内容(对学生来说,也意味着大量新的工作机会),该蛋怯咕龙怀街肪锑亏瞅忌影粪吸布沃行姚六伪侮仍呀伴类靶吕层喝菊扑Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,谢 谢!,印凌芜逻顾恩匆欣紧漱破桓刺廉稀浅山于川怕肩乐揭敢峪惩哉游捅杉妇臃Web挖掘我们关心什么如何能帮助社会科学家们做研究Web挖掘我们关心什么如何能帮助社会科学家们做研究,

    注意事项

    本文(Web挖掘我们关心什么如何能帮助社会科学家们做研究.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开