20200705_讲聊斋_第12节:细侯.txt
《20200705_讲聊斋_第12节:细侯.txt》由会员分享,可在线阅读,更多相关《20200705_讲聊斋_第12节:细侯.txt(1页珍藏版)》请在文库网上搜索。
1、以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究 Visualizing the Terms of Computational Linguistics with Self-Organizing Maps 林頌堅 Sung-Chien Lin 世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University sclcc.shu.edu.tw 摘要摘要摘要摘要 本論文
2、的研究利用自組織映射圖(SOM)技術將計算語言學相關術語對應到二維圖形, 使得術語之間的關係可以在映射圖中加以呈現,提供使用者做為資訊檢索以及了解重要研 究主題的輔助工具。在本論文中,我們所探討的問題有(1)發展SOM技術應用到術語資訊視 覺化的方法,(2)評估SOM技術應用到術語資訊視覺化的成效,(3)利用研究結果分析計算語 言學中重要的研究主題與主題之間的關係。在SOM技術的應用中,首先從論文資料中抽取 重要的術語,接著以術語之間的共現關係做為基礎,建立每一個術語的特徵向量。再以術 語特徵向量做為輸入資料,進行SOM訓練以及將術語映射到圖形上。對於這項技術在應用 上的成效評估,由於映射節點
3、的距離關係在視覺上要需要符合術語間的相關性。因此,我 們建議以特徵向量的距離與節點位置的距離之間的相關係數做為成效評估的標準。最後, 對於計算語言學領域的術語所進行的實驗中可以發現大多數相關的術語都可以映射到相鄰 近的節點上,而術語所映射節點的位置也可以大致表現主題之間的關係。 這個結果表示SOM 技術適合應用於術語資訊視覺化。 1 緒論緒論緒論緒論 本論文是一個將計算語言學相關術語(terms)對應到二維圖形的研究,其目的是希望能夠蘊含在術語 之間的資訊加以視覺化(visualization)。從論文所抽取出來的術語可以表示研究問題、方法、理論與技術 等論文相關的主題,若是針對某一研究領域所
4、發表的論文進行術語抽取並加以統計,所得到的高頻術語 便是這個領域的重要主題1。因此,這些從論文抽取出來的術語將有助於了解這個領域所發展的研究課 題或是進行資訊的檢索。為了進一步幫助使用者從大量的文件資料庫中搜尋相關的資訊來解決所面對的 研究問題以及提供他們對於這個領域研究所產生的知識結構(knowledge structure)有完整的認識,可以將 這些術語整理成階層式(hierarchical)組織或網路式(network)組織,來闡明術語之間的關係。在資訊檢索的 技術與應用上,索引典(thesaurus)便是將某一特定領域的相關術語與它們之間的關係整理成一個階層式與 網路形式的組織2。在索
5、引典的結構裡,將每一個術語作為網路中的節點,而以相關術語之間的關係作 為相應節點之間的連結。近來,許多研究提出各種術語組織的自動化方法,這些方法多以統計的叢集 (clustering)技術為組織術語的方法,將關聯性較強的術語放到相同的集合中,並且利用術語在文句中的共 現(co-occurrence)關係作為術語之間的關聯3, 4。利用叢集所形成集合便可以了解術語之間的關聯性,並 且在同一集合中的術語往往經常共同出現在主題相關的論文中,因此這些術語集合可以呈現這個研究領 域的研究主題。然而,除了利用叢集技術所形成的集合來對於術語之間的關聯進行分析之外,若能夠將 術語以及它們之間的關聯呈現在圖形中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 20200705 聊斋 12 细侯