20200705_古典名著_ga12j.pdf
《20200705_古典名著_ga12j.pdf》由会员分享,可在线阅读,更多相关《20200705_古典名著_ga12j.pdf(333页珍藏版)》请在文库网上搜索。
1、小,而保證SOM的訓練結果可以收斂。 舉例而言,在第+1次的訓練中,對某一節點nc調整的方式如式(2)所示。 )(),(,()() 1( cicwc def c ffnndhff+=+ (2) 式子中,fc()是表示第次的訓練後,節點nc的特徵向量,fi是輸入資料的特徵向量,h(.)是一個訓練 次數與節點和獲勝者之間的距離d(nw, nc)有關的調適函數,為節點nc的特徵向量此次訓練的調適幅度,如 上所述,當訓練次數愈多,或者距離d(nw, nc)愈大,h(.)所得到的值愈小。 SOM的訓練過程如下。首先,根據輸入資料的數量與特徵向量的維度設定節點的個數與特徵向量的 維度,並對每一個節點隨機產
2、生一個特徵向量。在輸入資料後,開始進行多次的訓練。在SOM的每一次 訓練中,首先從輸入的資料中隨機選取一個資料,再從節點中選出與訓練資料的特徵向量最相似者,也 就是獲勝者。接著如式(2)所示,根據調適函數h(.)計算出的調適幅度,調整獲勝者與其鄰近節點的特徵向 量,使其愈加相似於訓練的特徵向量。當SOM訓練完成後,便依據術語特徵向量與節點特徵向量的接近 程度,將術語映射到圖形上。 在利用SOM技術對文字資料進行叢集或視覺化的研究中,可以依據處理的對象分為文件與術語兩 類。在以文件為處理對象的SOM研究,大多將輸入的每一筆文件表示成一個以索引詞(index terms)的出現 次數為基礎的特徵向
3、量11, 12,因此,索引詞的出現情形較為接近的文件可以映射到同一節點或鄰近的 節點上。為了使文件的特徵向量可以表示語意訊息,Wermter與Hung利用WordNet的語意階層關係,計數 具有相近概念術語的出現次數作為向量的特徵值,以SOM技術對Reuters新聞語料進行文件分類(text classification)的研究13。Kohonen等人則先對術語進行SOM的叢集,使得具有相關語意的術語,映射到 同一節點上。再以叢集後的節點作為基礎,計數節點對應的所有術語出現在文件資料中的次數總和作為 向量的特徵值,作為資料縮減的技巧來處理極大量的新聞群組(newsgroups)線上文字資料14
4、。此外,在 文件叢集的應用中,由於以索引詞為基礎的特徵向量維度非常高,一般的二維映射圖較難表示文件資料 間所具有複雜的主題關係,因此,Merkl認為需要表現出主題間的階層關係,可以利用階層式自組織映射 圖(hierarchical self-organizing feature maps),訓練一組多層的映射圖,使得位置在上層的映射圖之節點表 示文件資料中較廣泛的主題,而以下層的映射圖之節點表示較特定概念的主題12。 在利用SOM處理術語的研究上,則有Ritter與Kohonen對於英語術語15和Ma等人對漢語及日語術語 16叢集的研究。在術語特徵向量的設定上,Ritter與Kohonen以術
5、語的出現(occurrences)及前後各一個術 語的上下文關係(contexts)作為特徵15;Ma等人則利用術語的共現次數為基礎作為向量的特徵16。 在目前利用SOM技術所進行文字資料叢集或資訊視覺化的研究,其實驗結果可以看出主題相近的文 件或術語可以被映射到相同或鄰近的節點,在視覺呈現上,符合人們的認知,這些研究可以證明SOM技 術應用於文字資訊視覺化的可行性。然而,從這些研究中卻也可以發現大多數研究在說明實驗結果時, 多半以叢集的結果與主題的相關程度進行討論,在客觀的評估方法上也都以傳統資料分類的檢全/檢準 (recall/precision)為標準16,甚少討論所得到的實驗結果在不同
6、主題間的關係。但在資訊視覺化的研究 中,藉由圖形表示文件或術語之間的分布,是相當重要的目標。在進行這方面的研究時,也應該根據這 方面的要求,設計一套合適的評估方法。 3 研究設計研究設計研究設計研究設計 本研究是應用SOM技術的初步研究,因此除了提出術語進行資訊視覺化處理的方法之外,如何評估 其結果也是重要的研究問題。此外,在現階段的研究中,本論文採用一般的SOM技術作為探討的對象, 先以一般常用的型態與訓練模式做為SOM的應用,來了解這項應用的可行性。更為先進與複雜的技術如 階層式自組織映射圖12,可在後續的研究中進行。以下首先說明以SOM進行術語資訊視覺化的方法, 接著提出評估資訊視覺化成
7、效的方法。 3.1 以以以以SOM進行術語資訊視覺化的方法進行術語資訊視覺化的方法進行術語資訊視覺化的方法進行術語資訊視覺化的方法 在利用SOM進行術語資訊視覺化的方法中,首先進行術語抽取(term extraction),從輸入的論文題 名、摘要與參考文獻的題名等文字資料,抽取出計算語言學領域中重要的中英文術語1。判斷一個出現 在文字資料中的字串是否是與這文字資料主題相關的術語可以從字串的單元完整性(unithood)與主 題代表性(termhood)的兩方面著手17,單元完整性是指做為術語的字串是否為語言結構(linguistic structure)上的完整單位,如詞(words)或詞組
8、(phrases),而主題代表性則是指此一術語能否代表文字資料的 主題並與其他主題區別。在本研究中將以統計訊息為主,配合若干經驗法則(heuristic rules)來達到這兩項 要求。首先將論文資料輸入,建立一個PAT-tree資料結構18,接著從PAT-tree檢取所有出現在論文資料 中的字串,並計算字串在所有論文的出現總次數、字串在論文資料中的平均出現頻次和標準差(standard deviation)以及字串前後接字的複雜度等統計資訊。其中,字串前後接字的複雜度(如式(3a, b),加上停用 詞(stop words)不能出現在字串首尾的經驗法則,用來檢測字串的單元完整性。 )log(
9、 1 S aS a S aS def S F F F F C = (3a) )log( 2 S Sb b S Sb def S F F F F C = (3b) 式(3a)和(3b)中,字串S的前後接字複雜度分別以C1S和C2S表示,a和b則代表字串S在論文資料中任一個 可能的前接字和後接字,FS、FaS和FSb分別是字串S、aS和Sb的出現總次數。當字串的前後接字複雜度較 小時,表示此一字串需與其前面或後面的某一字串共同構成新的字串,才能表示語法和語意上的一個單 元。因此,當前後接字複雜度愈大,愈有可能表示一個完整的術語。而所檢出的高頻字串中,字串首尾 經常是介詞、連詞或定詞等停用詞,因此我
10、們過濾掉首尾為停用詞的字串,使得過濾後的術語句有單元 完整性的要求。但停用詞出現在中間的字串,如 “part of speech”,只要出現次數夠多、頻率夠高仍為重 要的術語。在另一方面,字串在所有論文的出現總次數、平均出現頻次和標準差則用來表示術語的主題 代表性,出現總次數愈大的術語表示這個術語在領域中常被使用而具有重要意義,術語的平均出現頻次 和標準差則可表示這個術語在論文中的使用情形,平均出現頻次愈大的術語,即有可能在許多論文中出 現多次,是這些論文的重要術語;而術語的出現頻次標準差較大則表示此術語在某些特定論文出現較多 次,對這些論文相當重要。所以這三項統計訊息可以作為檢驗術語是否符合
11、主題代表性的依據。因此, 本研究即整合上述的訊息做為判斷字串是否為計算語言學領域中重要術語。 接著,對上述步驟所抽取出來的每一個術語設定一個特徵向量來訓練SOM。為了產生合適的SOM, 相關術語所設定的特徵向量必須相接近。如此一來,當把術語映射到SOM時,相關術語將映射到同一節 點上或鄰近的節點中,所形成圖形便具有相關術語的距離將較非相關術語的距離小的特性。本研究以術 語對每一個術語的共現關係的估算值做為這個術語的特徵向量,如式(4)表示術語ti的特徵向量fi。 T Nikiii ooof, ,1 , KK= (4) 在式(4)中,假定術語抽取步驟中共得到N個術語,因此每一個術語的特徵向量都是
12、一個N維的向量。 在術語ti的特徵向量fi中,第k個元素oik是術語ti與另一術語tk共現關係的估算值。當比較術語ti與tj的相關程 度時,可以比較這兩個術語與其他術語tk之間的共現情形。一旦當ti與tk共同出現在某一些論文資料時,同 時tj也經常出現在這些論文資料時,術語ti與tj可能相關於同一個特定的主題,這兩個術語便可能相關。如 果ti與tj有許多共同的共現術語時,ti與tj的特徵向量便很接近而表示兩個術語間具有較大的相關程度。以 數學的方式來表示上述的說明,當我們以歐幾里德距離作為兩個術語特徵向量之間距離的估算方式時, 當兩個特徵向量具有愈多相近的元素,在特徵向量所在的N維空間的距離愈
13、小,表示兩個術語的相關程 度愈大;反之特徵向量之間相異的元素愈多,距離愈大,兩個術語的相關程度便愈小。 在兩個術語ti與tk的共現關係上,也就是上述特徵向量fi中的元素oik之值,可以利用近來資訊檢索常 使用的隱含語義分析(latent semantic analysis, LSA)技術19來進行估算,使得某些相關術語卻較少共 同出現的問題可以減輕。其估算方法如下,我們首先建立術語-文件矩陣(term-document matrix),以 每一個抽取出來的術語對應到矩陣中的一行(row),矩陣中的每一列(column)則對應到一筆論文資料,在 矩陣中第i行第p列的元素,其值為第i個術語在第p筆
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 20200705 古典名著 _ga12j