正文

龍語瀚堂典籍數據庫介紹

(2006-04-25 22:40:31) 下一個
龍語瀚堂典籍數據庫介紹 隨著現代計算機技術的發展和人們對傳統文化的重視,在中國傳統文化領域裏利用信息技術對古籍數據庫建設的工作得到高度重視和快速發展。眾所周知,傳統的二字節編碼技術隻能處理2萬多漢字,而漢字在古籍中種類總量超過五萬,這還沒有包括甲骨文、金文、簡帛等出土文獻研究中使用的無法隸定的漢字。因此,現有的計算機技術在使部分古籍實現了數字化、網絡化的同時卻依然對大量的生僻字、古字束手無策。就像我們在探究漢字起源時所經常用到的《說文解字》、《康熙字典》等字書類、小學類古籍就是因為含有大量的生僻字,至今仍無法很好的實現通用的數字化版本,更有大量甲骨文、金文等曆史文獻,仍然處在手工化研究的階段。研究人員在遇到電腦上無法檢索或編輯的生僻字的時候,往往利用造字、利用符號表示、利用手工製作卡片、利用語言對字的組成的描述等手段來表述,從而給學術之間的交流和傳播帶來了極大的不便。 為了解決古漢語數字化處理的瓶頸問題,人們在編碼和計算機技術的結合方麵做了很多的工作。首先,大量的生僻字已經被置於四字節的編碼區並確定了統一編碼。其次,在微軟的Office XP簡體中文版中也預裝了四字節的字庫。《龍語瀚堂典籍數據庫》處理係統正是在此基礎上,解決了四字節實際應用中的一係列相關問題,從而使四字節技術真正得到開發和應用,也標誌著計算機漢字處理開始進入到了四字節字符的領域。該係統在技術上的領先性和應用價值主要表現在以下幾點: 一、具有在通用瀏覽器上自由編輯和瀏覽的功能。 建立在Unicode超大字符集之上的《龍語瀚堂典籍數據庫》處理係統采用四字節編碼技術使計算機可處理的文字種類數達到7萬之多,即徹底解決這些四字節漢字在計算機平台上的錄入、顯示、編輯、檢索、查詢和管理。在所有已經裝有Unicode超大字符集的計算機內,這些文字可以自如的在MS-Office上進行複製、粘貼和通過互聯網進行廣泛發布,從而結束了古籍研究手工抄寫、圖片替代、生硬造字的時代,也為研究者、古文字愛好者查閱、認知生僻字、罕用字提供了便捷的途徑,使得整理所有古籍類圖書信息化成為現實,對於中華文化的保存和發展具有極為重要的意義。 二、獨有的四字節自然語言全文檢索技術。 目前的互聯網全文檢索都是基於二字節字符係統的,但是如果需要建構真正意義上的中國知識庫,那麽基於二字節字符的現有技術就有其不可避免的缺陷。龍語瀚堂典籍數據庫處理係統的四字節全文檢索的核心技術,已經申請了國家專利,它在建構真正的中文數據庫及檢索查詢方麵具有絕對使用價值。 三、具有圖書內容自動累加功能。 該項專利技術,不僅可以對《龍語瀚堂典籍數據庫》中現有的古籍進行自動累加,也可以由用戶自主添加各種圖書資料。換句話說,使用者完全可以利用龍語瀚堂典籍數據庫係統建立起自己專署的電子圖書館,查閱電子圖書館中的任何文字信息,最終解決翻紙版書查出處過程繁瑣的問題。這項功能無論是對於曆史、博物館界、圖書館界、還是對於各種的研究機構甚或個體的研究者,都可以通過它來建立一個與自己研究領域或方向相關的專業數據庫。比如說出版社,完全可以利用它將曆年出版的書籍整理成庫,充分發揮其資源優勢,在彈指間查出某篇文章甚至某個人某句話在各本書中的出處、前後語境等,一掃編輯人員查出處找源頭,或者搜集海量選題資料的困難。 建立在先進技術基礎上的龍語瀚堂典籍數據庫係統是一個專門基於四字節漢字處理的古籍處理係統。其本身自帶了漢字研究所必須用到的《說文解字》、《康熙字典》等字書類圖書。目前已經建成或正在建設的數據庫包括“字書類數據庫”、“殷周金文庫”、“中國古印庫”、“金文文獻庫”、“古籍期刊庫”、“中國簡帛庫”、“甲骨文庫”等,這些內容都是因為在此之前由於四字節處理技術瓶頸未被突破而無法在計算機平台上實現數字化的內容。除此之外還有大量的碑文、金石拓片、石刻甚至包括了蒙文、藏文、梵文等其他民族語言和文化的整理也亟待解決。 悠久的曆史和燦爛的文明使中國擁有讓全世界驚歎的浩如煙海的古籍文獻和出土文物,對它們的保存和研究是我們這代人的責任和義務。在信息化時代,這一切必須依靠現代的計算機技術,過去由於技術瓶頸問題使得大量的文獻資料無法在計算機平台上進行整理,而如今龍語瀚堂典籍數據庫係統則徹底的解決了這些問題。它的專利種類包括了四字節全文檢索技術、四字節網絡檢索的網站構建方法、四字節漢字編輯工具、圖書內容自動累加等,這些技術將為圖書館、博物館、檔案館、出版社、研究所等專業機構的數字化建設提供堅實的平台,使中國古代經書典籍特別是古籍、善本等文獻資料以電子文件的形式進行永久保存,實現真正意義上的傳播和推廣。我們相信基於龍語瀚堂典籍數據庫係統的技術,中國曆史文化的數字化整理必將步入一個全新的領域。 字書類數據庫 字書類數據庫包括了《說文解字》(中華書局影本清代孫星衍大徐本刻本整理)、《康熙字典》(中華書局影本同文書局原版整理)、《爾雅音圖》(清代嘉慶藝學軒宋刻本)等研究古籍的基礎性工具書。也包括《汗簡》等古籍。 殷周金文庫 以張亞初的《殷周金文集成釋文》為基礎,同時收錄了《金文集成》未收器(81年以前)、《偽作青銅器表》等文獻。對每件青銅器,用戶可以看到包括銘文、釋文、拓片、銘文臨摹、照片或者線圖、注釋等內容。 中國古錢、古印庫 收錄了包括戰國印章、漢印章,戰國古錢的釋文和影像。數據總量達到近萬條。 考古、文字學書目庫 包括考古學、曆史學、文字學等人文學科的書目與篇目資料。包含書名、篇目、作者、出處等信息。 簡帛庫 基於互聯網的所有關於簡帛研究的文章集成,提供含四字節漢字的全文檢索。 台灣國學報告數據庫 包括考古學、曆史學、文字學等人文學科的台灣政府研究報告與學術論文。 中國音韻庫 包括《集韻》、《廣韻》、《五音集韻》等傳統韻書,以及音韻學領域學術論文和罕見古韻書。也包括《古文四聲韻》等古籍。 小學類數據庫 小學類數據庫包括了段玉裁的《說文解字段注》、王筠的《說文句讀》、桂馥的《說文解字義證》、朱駿聲的《說文通訓定聲》、丁福保的《說文解字詁林》、徐鍇的《說文解字係傳》。是研究《說文解字》係列的專業數據庫。 金文文獻庫 包括中國近現代金文研究的曆史文獻和學術專著。 古籍核心期刊庫 包括古籍研究相關的《考古》、《文獻》等重點期刊雜誌。 甲骨文庫 包括中國近現代甲骨文研究的曆史文獻和學術專著。
[ 打印 ]
[ 編輯 ]
[ 刪除 ]
閱讀 ()評論 (0)
評論
博主已隱藏評論
博主已關閉評論