前言:本站為你精心整理了古代農(nóng)業(yè)編纂設(shè)計(jì)探究范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

1古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的意義
古代農(nóng)業(yè)專(zhuān)題資料俗稱(chēng)古農(nóng)書(shū),是指古代論述農(nóng)業(yè)生產(chǎn)及與農(nóng)業(yè)生產(chǎn)有直接關(guān)系的知識(shí)著作[1],范圍相當(dāng)廣泛,包括農(nóng)、林、牧、副、魚(yú)以及農(nóng)產(chǎn)品加工等。簡(jiǎn)單地說(shuō),古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂是利用計(jì)算機(jī)自動(dòng)從古代農(nóng)業(yè)專(zhuān)題資料中發(fā)現(xiàn)并摘錄某一主題的農(nóng)業(yè)資料,并編纂成冊(cè)。南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院是國(guó)家級(jí)農(nóng)史文獻(xiàn)信息中心,收藏了大量的古代農(nóng)業(yè)專(zhuān)題資料。以前本院手工編輯了很多農(nóng)業(yè)遺產(chǎn)選集資料,手工編輯這些資料不僅投入了大量的人力、物力,而且編纂周期很長(zhǎng),所以研究古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂技術(shù)非常重要,主要表現(xiàn)在以下兩個(gè)方面:首先可以提高本院農(nóng)業(yè)遺產(chǎn)選集編纂的效率,其次由于到目前為止還未有人進(jìn)行過(guò)這項(xiàng)研究,所以該研究填補(bǔ)了古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂方面的空白。本院的中國(guó)農(nóng)業(yè)遺產(chǎn)研究室正承擔(dān)著“中國(guó)農(nóng)業(yè)科技遺產(chǎn)信息數(shù)據(jù)庫(kù)”建設(shè)項(xiàng)目,不僅在中華農(nóng)業(yè)文明網(wǎng)上成功地搭建了“中國(guó)農(nóng)業(yè)遺產(chǎn)信息平臺(tái)”,而且該數(shù)據(jù)庫(kù)的建設(shè)工作已經(jīng)取得階段性的成績(jī),主要建成了以下幾個(gè)數(shù)據(jù)庫(kù):農(nóng)史論文題錄庫(kù)、古代農(nóng)業(yè)專(zhuān)題資料目錄庫(kù)、農(nóng)史論文全文庫(kù)、專(zhuān)題文庫(kù)、古代農(nóng)業(yè)專(zhuān)題資料全文庫(kù)、農(nóng)業(yè)遺產(chǎn)選集圖文庫(kù)、農(nóng)業(yè)典籍善本圖文庫(kù)和方志資料圖文庫(kù),其中古代農(nóng)業(yè)專(zhuān)題資料全文庫(kù)收集了214種古代農(nóng)業(yè)專(zhuān)題資料全文資料。作為本院的研究生,不僅要參加古代農(nóng)業(yè)專(zhuān)題資料數(shù)據(jù)庫(kù)的建設(shè)工作,而且要開(kāi)展古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)化、智能化處理的研究工作,古農(nóng)書(shū)選集自動(dòng)編纂就是研究任務(wù)之一。
2古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂與自動(dòng)文摘的關(guān)系
在研究古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂技術(shù)前,我們首先要弄清古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂與自動(dòng)文摘的關(guān)系,否則這兩個(gè)概念很容易混淆。文摘是指準(zhǔn)確全面地反映某一文獻(xiàn)中心內(nèi)容的簡(jiǎn)潔連貫的短文,所謂自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘[2]。古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂和自動(dòng)文摘不是同一種技術(shù),二者之間有區(qū)別也有聯(lián)系。首先,處理的對(duì)象不同。前者是針對(duì)古漢語(yǔ)語(yǔ)料展開(kāi)的研究,后者主要是面向現(xiàn)代文本的技術(shù)。古漢語(yǔ)與現(xiàn)代漢語(yǔ)在詞匯和語(yǔ)法上的區(qū)別如下:古漢語(yǔ)中,單音詞占多數(shù),現(xiàn)代漢語(yǔ)則以雙音詞為主;古漢語(yǔ)使用了豐富的文言虛詞[3],如“之、乎、者、也”等,現(xiàn)代漢語(yǔ)放棄了所有的文言虛詞,轉(zhuǎn)而使用結(jié)構(gòu)助詞,如“的,啊,嗎,呢”等;古漢語(yǔ)存在大量的詞類(lèi)活用、賓語(yǔ)前置、省略句等形式,這和現(xiàn)在漢語(yǔ)的語(yǔ)法有很大的區(qū)別,所以古漢語(yǔ)比現(xiàn)代漢語(yǔ)難理解。在這一點(diǎn)上,古農(nóng)書(shū)選集自動(dòng)編纂比自動(dòng)文摘更具挑戰(zhàn)性。其次,處理的過(guò)程不同。前者主要是一種摘錄的過(guò)程,而后者不僅是摘錄,更重要的還是一種理解的過(guò)程。古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂是根據(jù)事先確定好的編纂主題,一般是先給出編纂關(guān)鍵詞,然后自動(dòng)到古代農(nóng)業(yè)專(zhuān)題資料數(shù)據(jù)庫(kù)中查找并摘錄相應(yīng)的內(nèi)容,而自動(dòng)文摘的中心內(nèi)容是根據(jù)原文歸納提取出來(lái)的,所以就這個(gè)方面來(lái)看,自動(dòng)文摘比古農(nóng)書(shū)選集自動(dòng)編纂的要求更高。再次,處理的技術(shù)不同。古漢語(yǔ)與現(xiàn)代漢語(yǔ)存在很大的差別,目前已有的很多中文信息處理技術(shù),由于是面向現(xiàn)代漢語(yǔ)的,所以不能直接應(yīng)用到對(duì)古漢語(yǔ)的處理中。比如,就自動(dòng)分詞技術(shù)而言,已有的分詞詞典對(duì)于古漢語(yǔ)并不適用。最后,二者的聯(lián)系。無(wú)論是古農(nóng)書(shū)選集自動(dòng)編纂還是自動(dòng)文摘,漢語(yǔ)詞間沒(méi)有空格,因而都存在著自動(dòng)分詞問(wèn)題。由于二者都有自動(dòng)摘錄的過(guò)程,所以它們都需要通過(guò)識(shí)別句意的轉(zhuǎn)換,來(lái)確定摘錄的范圍。雖然現(xiàn)有的中文信息處理技術(shù)不能直接應(yīng)用到對(duì)古漢語(yǔ)的處理中,但是很多經(jīng)驗(yàn)和算法是可以借鑒。自動(dòng)文摘已走過(guò)了40年歷史,積累了豐富的經(jīng)驗(yàn),為本研究奠定了一定的基礎(chǔ)。
3古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的流程設(shè)計(jì)
古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的首要條件是將古農(nóng)書(shū)資料電子化,我院通過(guò)購(gòu)買(mǎi)《中國(guó)基本古籍》光盤(pán)數(shù)據(jù)庫(kù)和掃描識(shí)別本院保存的農(nóng)業(yè)典籍,目前已經(jīng)積累了214種古代農(nóng)業(yè)專(zhuān)題資料的數(shù)字化資料,為本研究的展開(kāi)提供了基礎(chǔ)。古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的過(guò)程主要包含以下幾個(gè)步驟:首先,確定編纂的主題,即給出編纂關(guān)鍵詞;其次,在數(shù)據(jù)庫(kù)中查找古代農(nóng)業(yè)專(zhuān)題資料;再次,摘錄與該主題有關(guān)的古農(nóng)書(shū)信息;最后,整理排版,編纂成冊(cè)。(1)給出用于描述編纂主題的關(guān)鍵詞。如“麥”。(2)根據(jù)關(guān)鍵詞查找并記錄編纂主題所在文檔的名稱(chēng)。如,檢索出“麥”在《齊民要術(shù)》、《王禎農(nóng)書(shū)》等古代農(nóng)業(yè)專(zhuān)題資料的文檔中有描述。(3)提取關(guān)鍵詞所在文檔的章節(jié)或者段落。如果關(guān)鍵詞出現(xiàn)在某個(gè)章節(jié)中,首先需要分割這個(gè)章節(jié),然后再提取與本主題有關(guān)的內(nèi)容,提取的可能是整個(gè)章節(jié),也可能是其中的某些段落。如《齊民要術(shù)》第二卷的“大小麥第十”,這一章內(nèi)容都是有關(guān)“麥”的,應(yīng)該全部提取出來(lái),又如《齊民要術(shù)》第二卷的“小豆第七”中提到“小豆大率用麥底然恐小晚……”,這只有一段相關(guān),應(yīng)該就提取這一段類(lèi)容。(4)將提取的內(nèi)容按照“編號(hào),書(shū)名,作者,朝代,注釋,篇名,篇內(nèi)正文”的格式整理排版。
4古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的算法設(shè)計(jì)
由上文可知,古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂分為四個(gè)步驟,其中涉及了信息檢索、自動(dòng)分詞、篇章分割和句意主題轉(zhuǎn)換識(shí)別等技術(shù)。本研究的核心步驟是第三步,即提取編纂主題所在古農(nóng)書(shū)文檔的章節(jié)或者段落。在中文信息處理技術(shù)中,篇章分割的主要任務(wù)在于通過(guò)對(duì)文檔結(jié)構(gòu)進(jìn)行分析,尋找和查詢(xún)有關(guān)的段落,并把找到的段落而不是整篇文檔返回給用戶(hù)[4],因此篇章分割技術(shù)可用于確定摘錄的范圍,是本研究的關(guān)鍵技術(shù)。通常,文章并非僅僅是一系列句子的并排,而是組織完善、有中心思想的文字鋪陳,提供讀者閱覽、欣賞、獲得信息,或者與作者溝通等的功能[5]。在正常情況下,由一組句子構(gòu)成一個(gè)主題單位,稱(chēng)為主題段落,一篇文檔又由幾個(gè)主題段落構(gòu)成。但是,很多文檔并沒(méi)有明顯的段落標(biāo)記,所以必須找到一種方法將文章分段,每一段都涉及相同的主題內(nèi)容。許多學(xué)者專(zhuān)家提出各種不同的看法,嘗試建構(gòu)主題段落里句子的關(guān)系以及主題段落彼此間的關(guān)系來(lái)進(jìn)行文檔分割。
例如,Youmans提出了新詞引入法[6],即記錄文章某跨度內(nèi)作者引入新詞匯的數(shù)目,然后根據(jù)這樣的統(tǒng)計(jì)數(shù)據(jù),決定主題段落的邊界。Morris與Hirst提出詞匯鏈的方法[7],企圖找出詞匯上的關(guān)連,然后使用這些關(guān)連性找出文章的結(jié)構(gòu)。Hearst則提出了TextTiling算法[8],這是一種比較新穎的算法。TextTiling使用詞頻與逆向文件頻率,先將文章切成一片片馬賽克(Tile),然后通過(guò)計(jì)算文本塊(block)之間的分界值,確定句意主題轉(zhuǎn)換的邊界。這三種算法都存在著一定的局限:新詞引入法僅僅考慮詞匯重復(fù)出現(xiàn)的因素;詞匯鏈的方法僅僅找出詞匯間有沒(méi)有相近關(guān)系,然而卻不規(guī)范關(guān)系的強(qiáng)弱;TextTiling算法只考慮名詞,忽略其余類(lèi)型的詞匯,同時(shí)也忽略詞匯共現(xiàn)的關(guān)系。本院的電子化古代農(nóng)業(yè)專(zhuān)題資料都是文言文,筆者擬將一本古農(nóng)書(shū)當(dāng)作一篇文檔來(lái)處理,這樣一篇文檔往往涉及了很多主題,所以古農(nóng)書(shū)選集自動(dòng)編纂就需要清理這些文檔的結(jié)構(gòu),按照編纂的主題分割文檔,定位摘錄與編纂主題有關(guān)的內(nèi)容。針對(duì)這一要求,本研究借鑒TextTiling算法設(shè)計(jì)出古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的算法,其中TextTiling算法主要是用來(lái)確定摘錄的范圍,其基本思想是在一篇文檔中尋找從一個(gè)主題轉(zhuǎn)到另一個(gè)主題的“過(guò)渡”部分。下文將對(duì)其主要步驟:分割章節(jié)、提取子句關(guān)鍵詞、計(jì)算緊湊度、計(jì)算深度值和確定分割點(diǎn),分別進(jìn)行說(shuō)明。
(1)分割章節(jié)。剔除標(biāo)點(diǎn)符號(hào),將章節(jié)劃分成固定長(zhǎng)度的子句,子句之間的點(diǎn)稱(chēng)為間隔點(diǎn)。假設(shè)子句的長(zhǎng)度為w,如何適當(dāng)選定w是本算法重要的考量因素。w不能太小,因?yàn)檫@樣包含的主題信息太少;也不能太大,這樣對(duì)于主題邊界的判定會(huì)比較不準(zhǔn)確。
(2)提取子句關(guān)鍵詞。首先用停用詞典過(guò)濾子句,然后采用最大匹配算法進(jìn)行自動(dòng)分詞,處理所得的詞語(yǔ)即視為子句的關(guān)鍵詞。停用詞典主要由文言虛詞構(gòu)成,分詞詞典主要由古代人名、地名、官名、書(shū)名、作物名、節(jié)氣等專(zhuān)有名詞構(gòu)成。
(3)計(jì)算緊湊度。緊湊度是指編纂主題在各個(gè)子句間隔點(diǎn)上的連續(xù)性。緊湊度低意味著前后的連續(xù)性差,可以作為分割的候選點(diǎn)。計(jì)算緊湊度的方法有新詞引入法、詞匯鏈法、文本塊比較法、向量空間計(jì)分法等。本研究采用文本塊比較法,即使用包含m個(gè)子句的移動(dòng)窗,由第一個(gè)子句逐步往后移動(dòng),一次一個(gè)句子,計(jì)算移動(dòng)窗內(nèi)由子句構(gòu)成的文本塊的相關(guān)系數(shù)。文本塊用向量表示,通常將每個(gè)單詞在該文本塊中出現(xiàn)的頻次作為該向量的值。兩個(gè)向量的規(guī)一化內(nèi)積就是文本塊的相關(guān)系數(shù),即子句間隔點(diǎn)的得分。如果兩個(gè)文本塊中包含相同的單詞越多,子句間隔點(diǎn)的得分越高。假設(shè)存在文本塊b1和b2,每個(gè)文本塊都包含k個(gè)關(guān)鍵詞,b1={keywordi-k,…,keywordi},b2={keywordi+1,…,keywor-di+k+1},那么子句間隔點(diǎn)的緊湊度為:score(i)=∑twt,b1wt,b2∑twt,b12∑twt,b22其中,t表示兩個(gè)文本塊中所包含關(guān)鍵詞的總個(gè)數(shù),w,tb表示該詞的權(quán)值,通常用該詞在文本塊中的出現(xiàn)的頻次表示。由于得分值已經(jīng)進(jìn)行了規(guī)一化處理,所以score(i)介于0和1之間。有8個(gè)子句,每?jī)蓚€(gè)子句組成一個(gè)文本塊。即子句1和2是第1個(gè)文本塊(b1),子句3和4是第2個(gè)文本塊(b2),依此類(lèi)推。計(jì)算b1和b2的相關(guān)系數(shù),就得到子句2和3的間隔點(diǎn)的緊湊度,同樣可以得到子句4和5、子句6和7的間隔點(diǎn)的緊湊度。首先,計(jì)算每?jī)蓚€(gè)文本塊向量的內(nèi)積。b1和b2內(nèi)積:2*1(forA)+2*2(forB)+1*1(forC)+2*1(forD)+1*1(forE)=10b2和b3內(nèi)積:1*0(forA)+2*0(forB)+1*1(forC)+1*0(forD)+1*1(forE)+0*2(forF)+0*2(forG)+0*1(forH)=2b3和b4內(nèi)積:0*1(forB)+1*0(forC)+1*0(forE)+2*2(forF)+2*2(forG)+1*1(forH)=9其次,進(jìn)行規(guī)一化處理,得到子句間隔點(diǎn)的緊湊度。子句2和3:score(1)=10/10.58=0.945子句4和5:score(2)=2/8.77=0.228子句6和7:score(3)=9/10.49=0.858按照同樣的方法,進(jìn)行第二輪處理,即將子句2和3、子句4和5、子句6和7,分別作為一個(gè)文本塊,計(jì)算得到子句3和4、子句5和6的間隔點(diǎn)的得分。子句3和4:score(4)=6/8.77=0.684子句5和6:score(5)=4/7.94=0.504
(4)計(jì)算深度值。將某個(gè)間隔點(diǎn)的緊湊度和周?chē)g隔點(diǎn)的緊湊度進(jìn)行比較,相對(duì)值越低,那么該點(diǎn)的深度值就越大。具體計(jì)算方法是,將當(dāng)前間隔點(diǎn)和左右相鄰的間隔點(diǎn)緊湊度的高度差相加,作為深度值。例如,已知間隔點(diǎn)g1,g2,g3的緊湊度分別為s1,s2,s3,那么g2點(diǎn)的深度值為:(s1-s2)+(s3-s2)。并不是每個(gè)間隔點(diǎn)都有深度值,只有當(dāng)某點(diǎn)的緊湊度低于左右相鄰點(diǎn)的緊湊度時(shí),才計(jì)算該點(diǎn)的深度值。所謂的緊湊度概念是相對(duì)的,在某些文本中,其內(nèi)容的主題可能變化很大,例如文檔的引言部分,覆蓋了文檔的全部?jī)?nèi)容。而與此相對(duì)應(yīng)的是,一篇文章可能一連幾頁(yè)的主題變化都很細(xì)微,這時(shí)就需要選擇那些雖然緊湊度值比較高,但是和周?chē)c(diǎn)相比值又偏低的點(diǎn),即采用深度計(jì)算。
(5)確定分割點(diǎn)。計(jì)算深度值的均值μ和標(biāo)準(zhǔn)方差σ,選擇所有深度值高于μ-c*σ(c為常數(shù),通常取0.5或1.0)的間隔點(diǎn)作為邊界。μ=0.315,σ=0.183,取c=0.5,閾值μ-c*σ=0.22,由于0.60>0.22,0.24>0.22,0.27>0.22,所以緊湊度為0.07、0.13和0.12的子句間隔點(diǎn)可以選作分割邊界。在實(shí)際處理文本的過(guò)程中,本算法需要進(jìn)一步調(diào)整和細(xì)化,以取得最佳編纂效果。例如,計(jì)算緊湊度和深度值的參數(shù)(子句詞次序列的大小、文本塊的大小等)得根據(jù)正在處理的文檔進(jìn)行調(diào)整。
5結(jié)語(yǔ)
我國(guó)對(duì)于古籍?dāng)?shù)字化的研究才剛剛起步,很多工作都沒(méi)來(lái)得及開(kāi)展。有的學(xué)者指出數(shù)字化的古籍資源除了實(shí)現(xiàn)文本字符的數(shù)字化,具有基于超鏈接的瀏覽閱讀環(huán)境和強(qiáng)大的檢索功能外,還需具有研究支持功能[9]。也有學(xué)者提出希望建立古籍整理的專(zhuān)家系統(tǒng),以實(shí)現(xiàn)古籍版本的自動(dòng)???、自動(dòng)編纂、自動(dòng)斷句標(biāo)點(diǎn)、自動(dòng)注釋、自動(dòng)翻譯為白話等等[10]。到目前為止還未有人進(jìn)行過(guò)古農(nóng)書(shū)自動(dòng)編纂的研究,加上古漢語(yǔ)自身的特點(diǎn),所以這項(xiàng)工作存在一定的難度。筆者在這方面做了初步的嘗試,目前古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的實(shí)驗(yàn)系統(tǒng)已基本完成,并整理了《齊民要術(shù)》標(biāo)點(diǎn)版全文資料作為該系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù),經(jīng)過(guò)初步測(cè)試發(fā)現(xiàn):當(dāng)子句和文本的大小分別取15和2時(shí),提取主題的符合程度較高。下一步的工作包括:在已有的古代農(nóng)業(yè)專(zhuān)題資料數(shù)據(jù)庫(kù)中進(jìn)行大規(guī)模的測(cè)試,檢驗(yàn)本算法的調(diào)適性;改進(jìn)和完善古代農(nóng)業(yè)專(zhuān)題資料自動(dòng)編纂的實(shí)驗(yàn)系統(tǒng)。希望這項(xiàng)工作對(duì)他人的研究有些微的貢獻(xiàn),同時(shí)也起到拋磚引玉的作用。
古代文學(xué) 古代漢語(yǔ)論文 古代詩(shī)詞鑒賞 古代法律文化 古代詩(shī)歌理論 古代敘事文學(xué) 古代禮儀文化 古代藝術(shù)史 古代文論論文 古代文學(xué)史 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀
省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)
芝加哥大學(xué)東亞藝術(shù)研究中心;中央美術(shù)學(xué)院人文學(xué)院;北京大學(xué)視覺(jué)與圖像研究中心