欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    中文微博情感分析汇总ppt课件.ppt

    • 资源ID:1662170       资源大小:539.50KB        全文页数:38页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文微博情感分析汇总ppt课件.ppt

    基于情感词典的中文微博情感倾向分析研究,导师:何婷婷华中师范大学 NLP实验室,内容提要,情感分析的研究背景情感分析的研究现状微博情感分析的相关概述和理论微博情感分析的研究内容和方法微博情感倾向分析具体实践,1.情感分析的研究背景,在Web2.0 时代,最具有影响力的产品无疑是微博,它实现了把信息发布与社会网络紧密结合在一起。自2006 年问世至今,微博作为一个新兴的科技信息产物,目前在全球已成为一个能高度互动的信息转播平台。 在国内,短短几年时间里,微博从互联网的新秀跃升为互联网的基础应用之一,以微变革的力量,打开了一个大时代之门。 庞大的微博信息流揽括了众多话题,也许这些信息看似琐碎,而且非常不规则,可事实上蕴藏着巨大的潜在价值。微博平台上的各种互动,往往与用户的心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分析。,2.情感分析的研究现状,通过目前收集到的国内外刊物及会议论文来看,关于文本情感分析方法的文献大致分为两类:(1)使用情感词典及与其关联信息分析文本情感(2)使用机器学习方法分析文本情感,2.1使用情感词典及与其关联信息分析文本情感,使用情感词典及与其关联信息来分析文本情感,其优点是应用在词语特征级,句子级,粒度细,分析精准。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据集中隐藏着的重要模式,使得未来研究工作中还有很大的提高空间。徐琳宏、林鸿飞等从句子的词汇和结构作考虑,提取影响语句情感的9个语义特征,采用手工与自动获取相结合的方法,构建情感词汇本体库,对情感分析研究做了初步的尝试。李钝、曹付元等从语言学的角度出发,采纳“情感倾向定义”权重优先的计算方式得到短语中词语语义倾向度,并分析词语的组合方式特点,提出中心词概念对词语的倾向性做计算,从而识别出短语的倾向性及其强度。闻彬,何婷婷等提出一种基于语义理解的文本情感分类方法,通过在情感词识别中引入情感义原,赋予概念情感语义,对概念的情感相似度重新定义,得到词语情感语义值。,2.2使用机器学习方法分析文本情感,这类方法常用的机器学习模型有:中心向量分类法,朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy),K最近邻分类和支持向量机(SVM)。 国外有用机器学习的方法对电影评论进行情感极性分类的实验,分为正向情感和负向情感,分别采用了朴素贝叶斯、最大熵、支持向量机三种分类方法做实验,并将之与手工分类结果做比较,发现支持向量机方法在这种机器学习方法中效果最好,分类精确度达到80%。由此,可见机器学习方法在情感分析中展示出了一定的优势。,3.微博情感分析的相关概述和理论,微博的相关概述文本预处理技术特征选择算法,3.1 微博的相关概述,3.1.1 微博的定义和发展 微博是微型博客的简称,英文名称为MicroBlog。它是一个基于用户关系的信息传播、分享以及获取的平台,用户可以通过多种渠道(如WEB,WAP 以及各种客户端组件,即时通讯等)即时更新信息,每次更新内容将限制在一定数目内(中文微博通常为140 字左右),它具有便捷性、原创性、互动性、传播速度快及内容碎片化等特点。 2009 年8 月,新浪率先推出了“新浪微博”内测版,随后国内几大综合门户网站网易、搜狐、腾讯等相继推出。一时间微博呈现出井喷式发展,中国也真正进入了微博时代。,3.1.2 微博文本中的符号1网页链接:通常在用户分享后的文本末尾会跟随出现一个以“http”开头的地址,提供了分享视频、网页、图片等功能,这类文本符号在本文的情感倾向分析中是没有用处的,应该在文本预处理阶段过滤掉。2标签符号:通常微博应用最广泛的标签符号有四类。下面将作分别介绍: :代表at,意思是“对某人说”或者“需要引起某人的注意”。 #:两个#框起来的文字,可以理解为“话题”。 /:一般是由微博系统自动添加的,出现在再一次转发已转发并带有评论的微 博时,主要起分隔针对同一微博的多人多次评论的作用。 V:代表该用户是通过微博官方认证的,是特殊身份的象征。,3表情符号。很多微博用户喜欢使用表情符号来表达自己当时的心情。例如:表情符号 经抓取后转变为了哈哈,表情符号在本文情感倾向分析中起着重要作用。,3.1.3 微博情感分析研究的困难,1.微博文本的特点 中文微博的文本内容都限制为140个字,用户可以发布更有深度的内容(评论、新闻、分析等),微博用语多为非书面语言,口语化严重,大多不规范、语句结构杂乱,这在自然语言理解上给情感分析带来难度。2.情感词典的构建 汉语表达比较灵活,同样的词语,短语存在多义性,甚至同一个词语既有褒义又有贬义,根据所处的语境不同所表达的感情倾向往往不相同,给感情色彩的判别带来了偏差。微博中大量网络用语的出现表现尤为明显,这对判断情感倾向同样造成了困难,构建一个适用于微博的情感词典是一个难点。3中文微博的数据获取 目前,还没有一个公共地、统一地、可供用作测试的微博语料集。研究人员还得依赖于微博平台官方提供的API接口获取数据,而当前大多数微博都只开放部分API接口,并对用户的访问权限进行了一定的限制。,3.2 文本预处理技术,3.2.1 中文分词 中文微博的情感倾向分析首要解决的就是对文本内容进行分词。中文是以字为基本书写单位,单个字往往不足以表达一个意思,通常认为词是表达语义的最小元素。在汉语中,一句话的意思通过一段连续的字符串来表达,字符串之间并没有明显的标志将其分开,计算机如何正确识别词语是非常重要的步骤。一个例子:输入例句:S =“高等人工智能课程非常有意思”词表: dict = 高等,人工智能,课程,非常,意思最后分词结果应该为:高等/人工智能/课程/非常/有/意思,3.2.2 去除停用词 停用词也被称为功能词,与其它词相比通常是没有实际含义的。微博文本中不仅包含针对传统文本信息的停用词处理,还包含其它一些对情感无关符号处理。例如微博消息中常见的“、V、#、http:/”等。这些字符在微博文本中起辅助作用,但在情感分析研究中没有实际意义。 若计算机对其处理不但是没有价值的工作,还会增加运算复杂度,通常文本的停用词处理中可采用基于词频的方法将其除去。,3.3 特征选择算法,词频法文档频次法信息增益互信息法,3.3.1 词频法词频法(Word Frequency, WF):词频是指一个词语在文本中出现的次数,一般由统计获得,通常特征选择的时候可将词频低于某个阀值的词语删除,从而减小特征空间的维数。3.3.2 文档频次法文档频次法(Document Frequency, DF)是指整个数据集中,有多少个文档包含了某个特征项,占数据集中总文档数目的比值,其计算公式如下所示:公式中,Nti为出现特征项ti的文档数,Nall为整个数据集中的总文档数。该方法通过对每个特征项在数据集出现的频率进行统计,然后根据预先给定的特征向量维数或者设定的阀值,去除掉那些DF 值小于某个阀值或大于某个阀值的特征项。其思想在于这两种状态代表两种极端情况,若DF值过小,表明包含某特征的文档数目过少,该特征项没有代表性。反过来,若DF值过大,这表明包含某特征项的文档数目过多,该特征项没有区分度。,3.3.3 信息增益 信息增益(Information Gain, IG)是指某个特征在文档中出现或不出现对判断文本隶属类别所能提供的信息量大小。信息增益借助了信息论中熵的概念,定义为信息熵的有效减少量,即不考虑任何特征时与考虑该特征时两文档的熵值之差。其计算公式如下所示:公式中,P(cj)表示cj类文档在训练文档集中出现的概率,P(ti)表示训练文档集中包含特征项ti的文档频率,P(cj|ti)表示文档包特征项ti时属于cj类的条件概率, 表示训练文档集中不包含特征项ti的文档频率, 表示文档不包含特征项ti时属于cj条件概率。信息增益是一个统计量,用于度量特征对分类贡献的大小,其值越大,该特征就越重要,越有助于分类,故应选择信息增益值较大的候选特征。,3.3.4 互信息法 互信息(Mutual Information, MI)在统计语言模型中被广泛运用。它是用来度量两个随机变量之间的关联性。在分类系统中体现的是特征项与类别之间的依赖程度。若相互之间依赖程度越大,其特征项就越重要。 特征ti与类别cj之间的互信息公式如下所示:公式中, P(ti|cj)为特征ti在类别cj中出现的概率,P(ti)为特征ti出现的概率。当MI(ti|cj)=0时,表明特征ti与类别cj不相关,两者之间是相互独立的。如果词频法(WF)的特征值越高,其两者时间的关联性越大。,3.3.5 微博的特征选择方法 传统的文本分类大多是把测试数据集中的文档归入预先设定好的文档类别中去,比如:“体育、艺术、军事、经济、政治、文学等”,这可通过文本的主题、属性及内容来划分。文本的情感分类则是特殊的文本分类,需要从语义级别上做考虑,根据文本内容所能体现出的观点、态度、立场等相关情感信息做倾向性分类。微博消息的文本内容虽然限制为140 个字符,但是包含的信息却是丰富多彩的,有文字、链接、表情、标签符号等,如何从短文本信息中获取情感信息是非常关键的。比如:从文本内容获取具有情感倾向的词语与短语、或从自然语言处理领域做基于语义的文本理解、抑或通过微博文本中的表情符号获取情感倾向性等。,4.微博情感分析的研究内容和方法,微博情感分析关键是如何判别微博消息的情感倾向性,首要条件是构建一个合适的情感词典,依靠情感词语、微博表情符号及语气句子等作为特征提取方法,对不同情况下微博消息做相应处理,最后进行加权计算,由最终的权重结果判别出微博消息的情感极性。主要研究内容有以下几点:1. 微博情感词典的构建 研究情感词获取方法,尽可能构建一个足够大、覆盖面广的情感词典应用于微博消息文本的特征提取中。一方面对当前已有情感词汇资源进行总结和整理,另一方面采用扩展的情感倾向点互信息算法(Semantic Orientation Pointwise MutualInformation, SO-PMI),从微博语料集中自动获取领域情感词,构建了微博情感词典。2. 微博情感倾向的判别 基于中文微博表达多元化的特点,先对微博消息文本进行了相应的预处理,并采用微博消息文本中的情感词作为特征选择方法,分别从微博消息文本中包含情感词和不包含情感词两个方面展开分析,实现了一个面向中文微博的情感倾向分类系统。,4.1 微博情感词典的构建,4.1.1 微博情感词典的组成 目前,文本情感分析研究领域还没有一部完整且通用的情感词典。若构建一个面向中文微博的情感词典,一方面须对当前的已有相关资源进行总结与整理,另一方面需要构建一个基于微博的领域情感词典。 情感词的收集是一个不断积累的过程,采用手工标注需要阅读大量的文本,非常费时费力。目前,通用方法都是对大规模语料集进行统计分析,预先对有代表性的词语采用人工标注方法选为基准词,然后对候选词作语义相似度计算来获取新情感词,从而扩展情感词典的覆盖面。,微博情感词典组成图,4.2 微博领域情感词典,4.2.1 领域情感词典构建重要性 由于基础情感词典囊括的情感词是有限的,而中文的表达是变化万千的。特别是在微博中,口语化的表达常常带来很多新的情感词汇,通过已有的情感词典是无法辨别的,但是这些词汇在分析情感倾向时非常重要。比如:微博中经常出现一个名词“临时工”,这个词本身是不具有感情色彩的,可是发现用户在微博中所用到这个词时,往往是表达负面情感。这种例子还有很多,为了能识别这些新情感词,提高情感分类的准确性,可以构建一个面向微博的领域情感词典。,4.2.2 SO-PMI 算法,互信息是非常重要的信息度量,其相关理论已在前面作了介绍。在实际情况中,应用最为广泛的通常是点间互信息(PMI),主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。 基于点间互信息SO-PMI算法的基本思想是:首先分别选用一组褒义词跟一组贬义词作为基准词,假设分别用Pwords 与Nwords 来表示这两组词语。这些情感词必须是倾向性非常明显,而且极具领域代表性的词语。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向。其计算公式如下所示:,通常情况下,将0 作为SO-PMI 算法的阀值,由此,可以将得到三种状态: 通过SO-PMI 算法,可以获得候选词的情感倾向,进而得到具有感情色彩的词语,根据其点互信息值分别归入情感词典中的褒义词词典或贬义词典。,4.2.3 领域情感词典的生成,1基准词语生成过程 当前研究中,有很多学者将词语放在搜索引擎中去检索(如Google),通过返回相关页面的hits 数进行排序,选取hits 数最高的词语作为SO-PMI 算法中的基词。由于微博文本跟传统文本存在一定差异,故本文直接选用微博语料数据,采用人方法挑选基准词。,2情感词的自动识别与领域情感词典的生成在微博领域情感词典构建中,SO-PMI 算法对微博语料中的领域情感词识别步骤如下:-输入:微博语料输出:情感词- 第一步:运用中文分词工具对微博语料进行预处理。 第二步:提取微博语料中的候选词,将得到的候选词与基础情感词典逐个扫描,判断是否为已有情感词,如果属于已有情感词则结束,否则进步下一步。 第三步:候选词分别与预先选定的基准词中的褒义词组和贬义词组做SO-PMI计算,获取情感倾向点互信息值,根据4.2.2节的给出的公式判断其情感极性。 第四步:根据第三步所判断的情感极性把候选词归入相应的领域情感词典。否则,视为中性词,应舍弃。 第五步:结束。-,5.微博情感倾向分析,情感倾向的含义有情感词的微博情感分析无情感词的微博情感分析情感倾向加权计算,4.1 情感倾向的含义,情感倾向方向也称为情感极性。在微博中,可以理解为用户对某客体表达自身观点所持的态度是支持、反对、中立,即通常所指的正面情感、负面情感、中性情感。例如“赞美”与“表扬”同为褒义词,表达正面情感,而“龌龊”与“丑陋”就是贬义词,表达负面情感。微博消息的情感极性示例如下表所示:,4.2 有情感词的微博情感分析,1 情感词的获取 情感词的获取方法有很多种,本文选用基于情感词典的方法。通常的处理方法是先把情感词典中所有的情感词构建为一张情感词表,然后对微博消息进行中文分词处理,将处理后得到的候选特征词依次与预先构建好的情感词表逐个查找,若能找到,则是情感词,并读取情感极性及相应权值,否则,不是情感词,则进入下一个候选特征词,直至整条微博判断结束。2 否定词的分析 否定词是副词的一种,它是表示否定意义的词语,在文本中具有独特的语法意义和影响。分析表明,被否定词修饰的情感词往往会改变情感极性。当一个否定词修饰一个正面情感词,则原本表达的正面情感就会转变为负面情感,反之则反。例如:“我今天是怎么了,感觉有点不开心!”,“开心”原本是正面情感词,否定词“不”的修饰使该微博消息转变成了负面倾向的情感,针对这种情况应作相应处理。例如: “我今天是怎么了,感觉有点不开心!”,“开心”原本是正面情感词,否定词“不”的修饰使该微博消息转变成了负面倾向的情感,针对这种情况应作相应处理。,3 程度副词的分析 程度副词也是副词的一种,副词一般用于修饰或限制动词与形容词,表示范围、程度等。“程度”是指某个量处于相应层次序列中的某个层级上,是量的层级表现。由于微博消息多为即时性发布,具有文本内容少,信息含量广的特点。非书面化形式的写作,带来了大量的程度副词去限制或者修饰用户在观点、立场、态度等方面的表达。例如: “九寨天堂酒店,果然比简朴寨好很多。酒店里有小森林,环境超级好。号称“森林里的酒店,酒店里有森林”。睡了,晚安,明天一早去九寨沟。明天回来上图”。该条微博消息中使用两个程度副词“很”与“超级”来修饰褒义词“好”,表达用户对“九寨天堂酒店”的强烈好感,相比运用陈述语句来表达用户好感有着很大区别。,4 感叹句的分析 感叹句是以抒发感情为主的句子,它所抒发的感情有赞美、愉悦、愤慨、叹息、惊讶、哀伤等,句末通常都用感叹号来标识。微博消息中的感叹句多为用户所表达情感的增强,其情感倾向程度发生了变化。通常感叹句是依附于它所在情感句的情感极性,可以是对正面情感或者负面情感的程度加深。本文将包含有情感词的感叹句权重设置为增强2 倍关系。感叹号“!”又叫感情号,主要用在感叹句的句末,表示强烈的感情。某种程度上说,它是感叹句存在的标志。可以做简单处理,将“!”的权值设为2,在对感叹句具体处理时,首先读入文本预处理后字符串1S中的特征词w ,判断w 是否为“!”,若不为“!”,则读取特征词w的下一个特征词1w ;若为“!”,则向前查找最近的情感词,若情感词存在,将其权值乘以“!”权值。若没有情感词,则舍弃,继续后续处理。,5.3 无情感词的微博情感分析,由于中文微博表达的多元化,有的文本内容中不包含情感词,同样可能存在着情感倾向。大量微博语料显示,大部分用户都非常喜欢使用微博官方提供的表情符号来直观的表达情绪。例如:“这是一个小孩的画画 ”。该微博消息中,没有一个情感词,用户通过一个表情符号“ ”来表达自己持赞美的态度,该条微博实际存在着情感倾向。 由于表情符号暗含了感情色彩,一些用户常常使用合适的表情符号来直接表达心情。在微博消息中,表情符号的加入不但使文本信息充满了个性化色彩,而且还为分析用户情感倾向带来了帮助。基于此,可以构建一个基于微博表情符号的情感倾向判别表,同时标注情感极性与权值大小,以此为依据判别微博消息的情感倾向。,5.4 情感倾向加权计算,在实际情况中,有的微博消息既有情感词也有表情符号,也可能包含各种修饰词,甚至语气句子等多种情况出现。因此,为了简化运算,缩短时间开销,可把表情符号按其情感极性并入微博情感词典。经过文本预处理后的微博文本,首先识别不同极性类别的特征项,通过构建好的微博情感词表、否定词词表、程度副词词表以及反问句标记词表做相应处理,获取该条微博中每个特征项的权值,最后作求和运算,获得整条微博消息的情感倾向值,进而判别出情感倾向性。,由于每条微博消息都是不超过140 字的短文本信息,所以以句子为单位,以标点符号为分割标志,将每条微博消息文本分割为n 个句子S1 、S2 、S3 Sn ,提取每个句子中的情感词wi。 (1)如果出现程度副词wa修饰情感词wi或者该句子是包含情感词的感叹句时,该情感词的情感倾向权重计算公式如式(5-1)所示: Owi = MwaSwi (5-1) Mwa表示程度副词,或者感叹号“!”的权值,Swi是句子中情感词wi的权值。 (2)当出现否定词wb修饰情感词wi时,为了实现其情感极性取反,则情感词的情感倾向权值公式如式(5-2)所示: Owi = MwbSwi (5-2)Mwb表示否定词的权值,Swi是句子中情感词wi的权值。 (3)句子Si中可能包含k个情感词,即为w1、w2、wk,故该条句子的情感倾向度计算公式如式(5-3)所示: (5-3) (4)故含有n 条句子的微博消息i d 最终情感倾向计算公式如(5-4)所示: (5-4),根据公式(5-4)得到的最终情感倾向值Odi ,将会出现下列三种情况: 故根据最终的情感倾向值Odi所处的不同情况,可以识别出该条微博消息中的文本内容所体现出的情感倾向是属于正面、负面、或者中性的。,6.总结,情感分析是微博研究中的一个重要课题,本节课对研究对象中文微博做了简要介绍,对微博研究的难点进行了分析说明,并对情感研究领域的基本理论及相关技术情况进行了阐述,并从微博文本内容自身特点出发,借鉴已有成果,结合多个方面的技术进行扩展,力求找到一个好方法对微博消息作情感倾向判别分析。主要研究工作可概括如下:(1)构建了微博情感词典。(2)从多个方面针对微博消息展开情感分析。(3)引入微博中的多种特征,人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。,

    注意事项

    本文(中文微博情感分析汇总ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开