淺談高校數(shù)字圖書館信息數(shù)字化建設(shè)中的問題及對策
時間:
盧險峰1由 分享
論文關(guān)鍵詞:數(shù)字圖書館 信息數(shù)字化 存儲技術(shù) 發(fā)展對策
論文摘要:數(shù)字圖書館是一個將信息資源以數(shù)字化方式存貯并通過網(wǎng)絡(luò)提供即時服務(wù)的信息系統(tǒng),因而信息資源數(shù)字化是實現(xiàn)數(shù)字圖書館的根本條件。從數(shù)字圖書館中信息資源數(shù)字化的涵義出發(fā),探討了信息數(shù)字化的關(guān)鍵技術(shù),并從內(nèi)容建設(shè)、知識產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范4個方面分析了我國數(shù)字圖書館信息數(shù)字化中存在的主要問題,同時提出了相應(yīng)的對策和建議。
信息數(shù)字化作為數(shù)字圖書館的內(nèi)容建設(shè),是數(shù)字圖書館正常運轉(zhuǎn)的關(guān)鍵步驟。但目前我國信息數(shù)字化中由于種種原因還存在許多問題,如重復(fù)建設(shè)、知識產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范等問題,這些都嚴(yán)重阻礙了我國數(shù)字圖書館的健康發(fā)展。因此,我國在實施信息數(shù)字化建設(shè)過程中,不僅需要更新觀念、統(tǒng)籌建設(shè),還要規(guī)范標(biāo)準(zhǔn)、加強立法、提高館員素質(zhì),更要加強適合我國國情的技術(shù)創(chuàng)新。為此,我們需要不斷地總結(jié)經(jīng)驗,探索新的開發(fā)技術(shù)和工作方式,逐步將我國寶貴的傳統(tǒng)文化遺產(chǎn)加以數(shù)字化,進而開發(fā)出具有中國特色的數(shù)字化產(chǎn)品。
?。睌?shù)字圖書館中的信息數(shù)字化
?。保毙畔?shù)字化的內(nèi)涵
從社會信息化環(huán)境來說,數(shù)字圖書館是運用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)等多種信息技術(shù),對不同載體和類型的信息資源進行搜集、選擇和規(guī)范化處理,使之以數(shù)字化的方式存儲,建立分布式的館藏信息資源庫和虛擬信息資源庫,并通過網(wǎng)絡(luò)向世界各地用戶提供無時空限制服務(wù)的信息系統(tǒng)。數(shù)字圖書館的主要職能是搜集、保存和傳遞數(shù)字化信息,可以稱之為數(shù)字化信息的存儲和傳遞中心,因而信息數(shù)字化建設(shè)無論從質(zhì)量還是從數(shù)量上都是數(shù)字圖書館發(fā)展的關(guān)鍵環(huán)節(jié)。
1.2信息數(shù)字化的關(guān)鍵技術(shù)
信息數(shù)字化技術(shù)包括數(shù)字化信息的生成技術(shù)、存儲技術(shù)和壓縮技術(shù)等,其關(guān)鍵技術(shù)是數(shù)字化信息的生成技術(shù)和存儲技術(shù)。
?。保?shù)字化信息的生成技術(shù)包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數(shù)字化信息的生成技術(shù)主要是第二種方式。鍵盤錄入是一種手工轉(zhuǎn)換的文本模式;非鍵盤錄入包括手寫識別技術(shù)、印刷文稿掃描識別技術(shù)、語音識別技術(shù)。在信息數(shù)字化實際工作中,我國許多數(shù)字圖書館都采用兩者相結(jié)合的方式來規(guī)避鍵盤錄入的較高錯誤率和掃描方式對硬件的較高要求,也就是采用超星公司開發(fā)的數(shù)字化技術(shù)加上便攜式文件格式(PDF)和超文本標(biāo)記語言(HTML)格式。
?。玻?shù)字化信息的存儲技術(shù)包括直接存儲技術(shù)和網(wǎng)絡(luò)存儲技術(shù)。直接存儲技術(shù)是目前大多數(shù)數(shù)字圖書館的數(shù)據(jù)存貯技術(shù),主要包括光盤塔技術(shù)、磁盤陣列技術(shù)和磁帶庫技術(shù);網(wǎng)絡(luò)存儲技術(shù)是海量數(shù)據(jù)信息存儲的實現(xiàn)方式,包括直接附加存儲(DAS)、網(wǎng)絡(luò)附加存儲(NAS)、存儲區(qū)域網(wǎng)絡(luò)(SAN)、小型計算機系統(tǒng)接口(iSCSI)技術(shù)和內(nèi)容尋址存儲(CAS)[1]。
2信息數(shù)字化中存在的主要問題
雖然我國數(shù)字圖書館建設(shè)中的信息數(shù)字化工作取得了一定的進步,但由于觀念和技術(shù)的落后,信息數(shù)字化建設(shè)整體上呈現(xiàn)出數(shù)字信息資源重復(fù)建設(shè)嚴(yán)重、版權(quán)保護立法不健全、缺乏有力的技術(shù)支撐、標(biāo)準(zhǔn)和規(guī)范化建設(shè)滯后等問題[2]。
?。玻敝貜?fù)建設(shè)問題
由于國內(nèi)各地區(qū)、各系統(tǒng)以及各館之間無一個權(quán)威的協(xié)調(diào)機構(gòu),也無規(guī)劃布局和分工實施計劃,數(shù)字圖書館建設(shè)缺乏全局性的統(tǒng)一規(guī)劃和政府權(quán)威部門的協(xié)調(diào),相當(dāng)多的所謂數(shù)字圖書館建設(shè)仍處于各自為政、貪大求全和相對分散的無序狀態(tài),信息資源重復(fù)現(xiàn)象的問題嚴(yán)重。近年來,我國各級政府投入數(shù)字化建設(shè)的資金總額已達36億元,在政府資金的大力支持下,各級各類數(shù)字圖書館都在進行數(shù)字信息資源建設(shè),甚至引進CNKI等數(shù)據(jù)庫,這種現(xiàn)象在各大高校數(shù)字圖書館的信息數(shù)字化中也非常普遍,在相當(dāng)廣的范圍內(nèi)存在著潛在的數(shù)字信息資源重復(fù)建設(shè)問題。
?。玻仓R產(chǎn)權(quán)問題
數(shù)字圖書館中信息數(shù)字化所涉及的知識產(chǎn)權(quán)問題包括信息來源的著作權(quán)尊重和數(shù)字化信息建成后自身著作權(quán)的保護。隨著數(shù)字圖書館的開通,數(shù)據(jù)庫的利用將越來越廣泛,由此產(chǎn)生的知識產(chǎn)權(quán)問題就不可避免,其中爭論的焦點是關(guān)于網(wǎng)絡(luò)作品的制作、傳播和使用的版權(quán)保護問題,讓一些數(shù)字圖書館在實踐中遭遇法律尷尬。著作權(quán)人公開指責(zé)圖書館界濫用權(quán)利,嚴(yán)重?fù)p害了著作權(quán)人的利益;出版界也有人認(rèn)為文獻信息的數(shù)字化是復(fù)制出版界的出版物,在網(wǎng)上出現(xiàn)了成千上萬的復(fù)制本、使出版界的經(jīng)濟利益受到損害;而圖書館界則認(rèn)為信息獲取的主動權(quán)完全掌握在版權(quán)人手里,這樣會嚴(yán)重地影響知識的創(chuàng)造和傳播。因而制定網(wǎng)上數(shù)字化文獻的著作權(quán)法律法規(guī)已成當(dāng)務(wù)之急。
?。玻臣夹g(shù)應(yīng)用問題
隨著電子出版物的收藏和網(wǎng)絡(luò)數(shù)字化資源的采集,圖書館越來越多的信息一入館就是數(shù)字化的,而對于未數(shù)字化的傳統(tǒng)館藏,進行數(shù)字化轉(zhuǎn)化所使用的技術(shù)主要是光學(xué)字符識別(OCR)掃描錄入方式。一般的OCR錄入系統(tǒng)能夠?qū)崿F(xiàn)對各種現(xiàn)代書籍、簡繁體書籍、報刊雜志、公文檔案的錄入識別,且識別率高,還能實現(xiàn)各種校對,然而,對于館藏文獻的數(shù)字化而言,由于漢字的復(fù)雜性,OCR對各類中文文獻的識別遠難于對英文和數(shù)字的識別,特別對含有繁體手寫漢字的古籍文獻、簡繁混排的中文文獻、專業(yè)性強的中文文獻以及難于機檢的漢字文獻。OCR技術(shù)目前還存在很大的誤識率和拒識率,為此,需要對OCR系統(tǒng)進行深入的研究和改進,提高其應(yīng)用的全面性,并要引入中文校對、錄入質(zhì)量控制等技術(shù),從而加強其管理功能。
?。玻礃?biāo)準(zhǔn)與規(guī)范問題
目前,在信息數(shù)字化標(biāo)準(zhǔn)規(guī)范方面存在的問題主要有:①缺乏對標(biāo)準(zhǔn)規(guī)范重要性的認(rèn)識;②缺乏普遍接受和廣泛應(yīng)用的關(guān)鍵標(biāo)準(zhǔn)規(guī)范;③缺乏對標(biāo)準(zhǔn)規(guī)范建設(shè)的系統(tǒng)化把握;④缺乏對標(biāo)準(zhǔn)規(guī)范的開放描述和開放應(yīng)用;⑤缺乏開放、聯(lián)合、共享的標(biāo)準(zhǔn)規(guī)范建設(shè)與應(yīng)用機制,例如圖書館在信息資源建設(shè)過程中所采用的軟件系統(tǒng)差異很大,如ILAS系統(tǒng)、圖書館集成系統(tǒng)等,其標(biāo)準(zhǔn)和格式都不一致,導(dǎo)致開發(fā)的數(shù)據(jù)庫不能兼容,檢索界面不一,檢索途徑也不同,檢索語言也無統(tǒng)一的規(guī)范控制,無法在網(wǎng)上實現(xiàn)資源共享。
論文摘要:數(shù)字圖書館是一個將信息資源以數(shù)字化方式存貯并通過網(wǎng)絡(luò)提供即時服務(wù)的信息系統(tǒng),因而信息資源數(shù)字化是實現(xiàn)數(shù)字圖書館的根本條件。從數(shù)字圖書館中信息資源數(shù)字化的涵義出發(fā),探討了信息數(shù)字化的關(guān)鍵技術(shù),并從內(nèi)容建設(shè)、知識產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范4個方面分析了我國數(shù)字圖書館信息數(shù)字化中存在的主要問題,同時提出了相應(yīng)的對策和建議。
信息數(shù)字化作為數(shù)字圖書館的內(nèi)容建設(shè),是數(shù)字圖書館正常運轉(zhuǎn)的關(guān)鍵步驟。但目前我國信息數(shù)字化中由于種種原因還存在許多問題,如重復(fù)建設(shè)、知識產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范等問題,這些都嚴(yán)重阻礙了我國數(shù)字圖書館的健康發(fā)展。因此,我國在實施信息數(shù)字化建設(shè)過程中,不僅需要更新觀念、統(tǒng)籌建設(shè),還要規(guī)范標(biāo)準(zhǔn)、加強立法、提高館員素質(zhì),更要加強適合我國國情的技術(shù)創(chuàng)新。為此,我們需要不斷地總結(jié)經(jīng)驗,探索新的開發(fā)技術(shù)和工作方式,逐步將我國寶貴的傳統(tǒng)文化遺產(chǎn)加以數(shù)字化,進而開發(fā)出具有中國特色的數(shù)字化產(chǎn)品。
?。睌?shù)字圖書館中的信息數(shù)字化
?。保毙畔?shù)字化的內(nèi)涵
從社會信息化環(huán)境來說,數(shù)字圖書館是運用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)等多種信息技術(shù),對不同載體和類型的信息資源進行搜集、選擇和規(guī)范化處理,使之以數(shù)字化的方式存儲,建立分布式的館藏信息資源庫和虛擬信息資源庫,并通過網(wǎng)絡(luò)向世界各地用戶提供無時空限制服務(wù)的信息系統(tǒng)。數(shù)字圖書館的主要職能是搜集、保存和傳遞數(shù)字化信息,可以稱之為數(shù)字化信息的存儲和傳遞中心,因而信息數(shù)字化建設(shè)無論從質(zhì)量還是從數(shù)量上都是數(shù)字圖書館發(fā)展的關(guān)鍵環(huán)節(jié)。
1.2信息數(shù)字化的關(guān)鍵技術(shù)
信息數(shù)字化技術(shù)包括數(shù)字化信息的生成技術(shù)、存儲技術(shù)和壓縮技術(shù)等,其關(guān)鍵技術(shù)是數(shù)字化信息的生成技術(shù)和存儲技術(shù)。
?。保?shù)字化信息的生成技術(shù)包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數(shù)字化信息的生成技術(shù)主要是第二種方式。鍵盤錄入是一種手工轉(zhuǎn)換的文本模式;非鍵盤錄入包括手寫識別技術(shù)、印刷文稿掃描識別技術(shù)、語音識別技術(shù)。在信息數(shù)字化實際工作中,我國許多數(shù)字圖書館都采用兩者相結(jié)合的方式來規(guī)避鍵盤錄入的較高錯誤率和掃描方式對硬件的較高要求,也就是采用超星公司開發(fā)的數(shù)字化技術(shù)加上便攜式文件格式(PDF)和超文本標(biāo)記語言(HTML)格式。
?。玻?shù)字化信息的存儲技術(shù)包括直接存儲技術(shù)和網(wǎng)絡(luò)存儲技術(shù)。直接存儲技術(shù)是目前大多數(shù)數(shù)字圖書館的數(shù)據(jù)存貯技術(shù),主要包括光盤塔技術(shù)、磁盤陣列技術(shù)和磁帶庫技術(shù);網(wǎng)絡(luò)存儲技術(shù)是海量數(shù)據(jù)信息存儲的實現(xiàn)方式,包括直接附加存儲(DAS)、網(wǎng)絡(luò)附加存儲(NAS)、存儲區(qū)域網(wǎng)絡(luò)(SAN)、小型計算機系統(tǒng)接口(iSCSI)技術(shù)和內(nèi)容尋址存儲(CAS)[1]。
2信息數(shù)字化中存在的主要問題
雖然我國數(shù)字圖書館建設(shè)中的信息數(shù)字化工作取得了一定的進步,但由于觀念和技術(shù)的落后,信息數(shù)字化建設(shè)整體上呈現(xiàn)出數(shù)字信息資源重復(fù)建設(shè)嚴(yán)重、版權(quán)保護立法不健全、缺乏有力的技術(shù)支撐、標(biāo)準(zhǔn)和規(guī)范化建設(shè)滯后等問題[2]。
?。玻敝貜?fù)建設(shè)問題
由于國內(nèi)各地區(qū)、各系統(tǒng)以及各館之間無一個權(quán)威的協(xié)調(diào)機構(gòu),也無規(guī)劃布局和分工實施計劃,數(shù)字圖書館建設(shè)缺乏全局性的統(tǒng)一規(guī)劃和政府權(quán)威部門的協(xié)調(diào),相當(dāng)多的所謂數(shù)字圖書館建設(shè)仍處于各自為政、貪大求全和相對分散的無序狀態(tài),信息資源重復(fù)現(xiàn)象的問題嚴(yán)重。近年來,我國各級政府投入數(shù)字化建設(shè)的資金總額已達36億元,在政府資金的大力支持下,各級各類數(shù)字圖書館都在進行數(shù)字信息資源建設(shè),甚至引進CNKI等數(shù)據(jù)庫,這種現(xiàn)象在各大高校數(shù)字圖書館的信息數(shù)字化中也非常普遍,在相當(dāng)廣的范圍內(nèi)存在著潛在的數(shù)字信息資源重復(fù)建設(shè)問題。
?。玻仓R產(chǎn)權(quán)問題
數(shù)字圖書館中信息數(shù)字化所涉及的知識產(chǎn)權(quán)問題包括信息來源的著作權(quán)尊重和數(shù)字化信息建成后自身著作權(quán)的保護。隨著數(shù)字圖書館的開通,數(shù)據(jù)庫的利用將越來越廣泛,由此產(chǎn)生的知識產(chǎn)權(quán)問題就不可避免,其中爭論的焦點是關(guān)于網(wǎng)絡(luò)作品的制作、傳播和使用的版權(quán)保護問題,讓一些數(shù)字圖書館在實踐中遭遇法律尷尬。著作權(quán)人公開指責(zé)圖書館界濫用權(quán)利,嚴(yán)重?fù)p害了著作權(quán)人的利益;出版界也有人認(rèn)為文獻信息的數(shù)字化是復(fù)制出版界的出版物,在網(wǎng)上出現(xiàn)了成千上萬的復(fù)制本、使出版界的經(jīng)濟利益受到損害;而圖書館界則認(rèn)為信息獲取的主動權(quán)完全掌握在版權(quán)人手里,這樣會嚴(yán)重地影響知識的創(chuàng)造和傳播。因而制定網(wǎng)上數(shù)字化文獻的著作權(quán)法律法規(guī)已成當(dāng)務(wù)之急。
?。玻臣夹g(shù)應(yīng)用問題
隨著電子出版物的收藏和網(wǎng)絡(luò)數(shù)字化資源的采集,圖書館越來越多的信息一入館就是數(shù)字化的,而對于未數(shù)字化的傳統(tǒng)館藏,進行數(shù)字化轉(zhuǎn)化所使用的技術(shù)主要是光學(xué)字符識別(OCR)掃描錄入方式。一般的OCR錄入系統(tǒng)能夠?qū)崿F(xiàn)對各種現(xiàn)代書籍、簡繁體書籍、報刊雜志、公文檔案的錄入識別,且識別率高,還能實現(xiàn)各種校對,然而,對于館藏文獻的數(shù)字化而言,由于漢字的復(fù)雜性,OCR對各類中文文獻的識別遠難于對英文和數(shù)字的識別,特別對含有繁體手寫漢字的古籍文獻、簡繁混排的中文文獻、專業(yè)性強的中文文獻以及難于機檢的漢字文獻。OCR技術(shù)目前還存在很大的誤識率和拒識率,為此,需要對OCR系統(tǒng)進行深入的研究和改進,提高其應(yīng)用的全面性,并要引入中文校對、錄入質(zhì)量控制等技術(shù),從而加強其管理功能。
?。玻礃?biāo)準(zhǔn)與規(guī)范問題
目前,在信息數(shù)字化標(biāo)準(zhǔn)規(guī)范方面存在的問題主要有:①缺乏對標(biāo)準(zhǔn)規(guī)范重要性的認(rèn)識;②缺乏普遍接受和廣泛應(yīng)用的關(guān)鍵標(biāo)準(zhǔn)規(guī)范;③缺乏對標(biāo)準(zhǔn)規(guī)范建設(shè)的系統(tǒng)化把握;④缺乏對標(biāo)準(zhǔn)規(guī)范的開放描述和開放應(yīng)用;⑤缺乏開放、聯(lián)合、共享的標(biāo)準(zhǔn)規(guī)范建設(shè)與應(yīng)用機制,例如圖書館在信息資源建設(shè)過程中所采用的軟件系統(tǒng)差異很大,如ILAS系統(tǒng)、圖書館集成系統(tǒng)等,其標(biāo)準(zhǔn)和格式都不一致,導(dǎo)致開發(fā)的數(shù)據(jù)庫不能兼容,檢索界面不一,檢索途徑也不同,檢索語言也無統(tǒng)一的規(guī)范控制,無法在網(wǎng)上實現(xiàn)資源共享。