中文文本自动分词与标注汉语词义自动标注技术课件.ppt
《中文文本自动分词与标注汉语词义自动标注技术课件.ppt》由会员分享,可在线阅读,更多相关《中文文本自动分词与标注汉语词义自动标注技术课件.ppt(16页珍藏版)》请在三一办公上搜索。
1、中文文本自動分詞與標注 第8章漢語詞義自動標註技術,報告人:劉謦儀(J94922018),2023/3/17,2,綱要,詞義標注詞義排歧詞義自動標注 與 詞義自動排歧 語言的編碼漢字字義組合結構基於字義排歧的模型自組織的漢語詞義排歧方法結語,2023/3/17,3,詞義標注,對文本中的每個詞根據其所屬之上下文給出它的語義編碼指用非文字的東西來表示文字消息的內容,用圖畫、樂譜等都可以進行語義編碼。詞典釋義文本中的某個義項號義類詞典中相映的義類編碼,2023/3/17,4,詞義排歧,處理一詞多義現象例:大學是教育機構是一本古書,博士既是官名,又是博學多才的人,又是師傅,還是一種學位的名稱。使用詞義
2、標注文本可提高檢索時的查全率和查準率。有利於選擇可以恰當表達語句中詞的目標詞,以提高翻譯的準確性。建立基於語義類的語言模型,為語音識別、手寫體識別和音字轉換提供幫助。,2023/3/17,5,詞義自動標注(Word Sense Tagging),也稱為詞義自動排歧(Word Sense Disambiguation)計算機運用邏輯運算與推理機制,對出現在一定上下文中詞語的語義進行正確的判斷,自動確定其正確的義項並加以標注的過程。多義詞排歧主要依據該多義詞出現的上下文,排歧的過程就是建立他們之間的聯繫過程,這種聯繫則是詞語間的語義聯繫。常見方法人工智能法、基於詞典的方法、基於語料庫的方法,202
3、3/3/17,6,語言的編碼,分為語音編碼和語義編碼兩大類語音編碼:用符號代表語音,一種語言區別於其他語言的根本區別就是其不同的語音音素編碼。就英語而言有英音,美音,澳音,新西蘭音等。語義編碼:是用符號代表語義,關注的是語言所能表達的意義,每種語言都有自己的語義系統。漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。,2023/3/17,7,語言的編碼,漢語語義編碼的基本符號是“字”漢語的語義主要附著在“字”上。字義排歧是詞義標注之突破點。濃縮形音義,多為形聲字,表音亦表意,望文生義,如:吠。大量同音字、同音詞語,化成書面多可消除歧義。單字多義項者占53.6%(如打字之義項數為26
4、);詞組/合成詞多義項者僅占0.46%。,2023/3/17,8,漢字字義組合結構,向心性字組 Vs.離心性字組冰山,青山,火山,高山(核心字在後)Vs.山峰,山城,山溝,山村(核心字在前)並列字組 Vs.主從字組關閉,左右,上下,陰陽(二字相同相近相反)Vs.火車,汽車,黑板,白版(前字從,後字主)合義(國+務國務)33%、加義(景+物可供觀賞的景緻和事務)56.7%、同義(聲+音聲;音)、偏義(厚+度厚度;容+易易容)、轉義(目+光=眼睛+光線 見識)少量字義推大量詞義成為可能!,2023/3/17,9,基於字義排歧的模型,資源:三台機器+兩部詞典MRD-1讀入現代漢語通用字典MRD-2讀
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 文本 自动 分词 标注 汉语 词义 技术 课件
三一办公所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。




链接地址:https://www.31ppt.com/p-3723422.html