思潮.動向
2012-3-2
二〇一二年三月號
錢鍾書先生與「中國古典數字工程」 (田 奕)

  中國古典數字工程,作為全球首個古文獻數據庫,自一九八四年由錢鍾書先生首倡,並由欒貴明先生主持創建以來,迄今進程已逾二十七年之久。錢先生建議和發起該工程,同時密切關注其進展,予以多方指導,積極干預。例證舉要如下。

  一、為新成立的院計算機室正名以及英文名稱的審定。

  二、為一九八九年五月新聞發布會致函院新聞發言人楊潤時先生。

  潤時同志﹕

  得您來信,十分感愧。我因老病,承院領導關注,久未參預活動,沒有機會和您晤面,也是憾事。

  文學所欒貴明同志等關於《全唐詩》速檢系統的工作獲得可喜的成果,當然由於他們的努力,主要原因還是汝信同志和您們的大力支持和鼓勵。作為一個對《全唐詩》有興趣的人,我經常感到尋檢詞句的困難,對於這個成果提供的絕大便利,更有由衷的欣悅。這是人工知能在中國古典文學研究上的重要貢獻。我因健康原因,不克身與盛會,特此書面祝賀。即致

  敬禮!

  錢鍾書 五月廿三日

  三、楊絳先生為《人文電腦》書寫刊名,錢先生親撰《發刋詞》,並審閱部分稿件。

  其中《電腦裏的唐詩》一文,經錢先生審閱修正,最後一句「實踐證明,能幫助人的電腦需要人的更多的幫助」,即為錢先生所加。錢先生還曾以「特約評論員」名義寫過《糾正市儈化的短視和淺見》等文。

  四、為該項目第一個成果《論語數據庫》題簽,並在原《序言》上增補《前言》部分一段主要文字:

  從理論上來說,計算機和人類使用過的其他工具沒有什麼性質的不同。它在還未被人廣泛使用的時候,除自身尚待完善以外,總會遭到一些抵拒。慣用舊家什的人依然偏愛着他們熟悉的工具。有了紙墨筆硯「文房四寶」,準還有人用刀筆和竹簡;有了汽車、飛機、電報、電話,也還有不惜體力和時間的保守者。對新事物的抗拒是歷史上常有的現象,抗拒新事物到頭來的失敗也是歷史常給人的教訓。(一九八七年十二月,人民日報出版社。)

  五、錢鍾書先生建議編纂《全唐詩索引》和《十三經索引》系列叢書,決定編輯方式和凡例,並題寫書名。該系列凡三十餘種,均已出版。

  六、參與上報國務院、國家科委評審材料的修定和審閱。多次與院領導及科研負責同志談到,該項目是他本人建議立項,並說明立項理由。此後研究生院將本項目設置專門化科目,招收研究生等項措施,亦經錢先生同意。

  七、向《人民日報》、《光明日報》、《中國青年報》等記者編輯推薦本項目成果,得到多種報刋雜誌的響應。

  八、對一九八七年於上海、一九九二年於汕頭、一九九三年於北京將召開的本項目學術研討會,錢先生都積極支持。他特別強調國際交流的重要性,聽取了會議籌備情況匯報,為會議修改題辭、請柬,以及為會議禮品、題字等,由此掀起社會科學界的電腦國際會議高潮。

  九、在他生前一直關切該項目的進展,提出新建議,並經常督促該項目快速健康發展。他尤其關注對人員的選擇,主張對年輕人加強培養。

  十、錢先生經常用自己的稿費,在該項目遇到困難時,便通過欒先生予以資助。

  錢先生為文史學科應用電腦,多次規劃目標,制訂原則,或筆書,或口授,迄今觀之,仍覺高屋建瓴,頗富遠見卓識。具體介紹已見諸各類報道,此不贅述。

電腦準確反映古籍原貌

  中國古典數字工程具體建設過程頗為繁雜,茲先就構建基礎略作介紹。

  與傳統紙質界面不同,要在電腦上準確反映古籍原貌,必須有一個穩定可靠的漢字平台,這是中國古典數字工程的基礎和柱石,也是項目得以順利完成的重要前提和有力保障。經與錢鍾書先生商量決定,正式採用擴充的BIG-5大漢字庫以及朱邦復先生的倉頡輸入碼,同時採用經華康公司同意使用的打印字庫。該字庫及輸入法的最大特色和優點,便在於能夠自主造字,確保原本正字不致因儲存字量不足而被迫歸併消減。本工程庫每個造字均以文獻字體為基礎,非籠統根據字書造字。既不強行統一,更不隨便借用。據大致估算,歷經二十餘年累積,該字庫從一萬三千單字,逐步擴充至五萬五千,目前入庫有效漢字量已逾六億。

四大主庫格局

  基礎確立之後,主體結構設計與實施便是工程成敗之關鍵所在。概括言之,古典數字工程主要由「人物」、「時間」、「地點」、「事件」等部分,構成四大主庫格局,它們猶如四根柱子,支撐起富麗堂皇的大殿廣廈。茲就梗概略述如下:

  一、人名庫

  以人名為核心。每個姓名均綜合採自典籍,收錄其多種稱謂、主要履歷及全部著作和子目之名稱,並一一著錄該人在正史諸版本中出現的位置,以及與其他主庫的足夠勾連串通數據。多種格式查檢,方便易得。目前已收錄總人數三十六萬,輔名十五萬,總字數二千四百萬字。超過目前最大的《中國人名大辭典》總人數五倍之多,總字數四倍以上。

  二、歷史日曆庫

  以歷史日曆為核心。逐日編輯中國四千年歷史上每位皇帝的每一天。由於同一天在中國有可能不止一位帝王,國號不一,曆法更有差別,因此曆法天數總計應是五百一十九萬天。每天著錄帝號、年號、干支以及公元年月日等十三項內容,總數達二億四千萬字。

  三、地名庫

  以地名及古代地圖為核心。目前已完成二十五史和三十部地理名著全部的地名著錄,製作數據已超八百萬條。每條地名下均注有文獻出處及不同年代的變動,使用起來,簡明便利。中國史地典籍中的複雜問題,由於採用全新的設計理念,即將巧妙而合理地解決。

  四、事件庫

  以作品為核心。目前已基本完成宋代以前全部作品,總數已超過二十二萬件,可供文字檢索的重要珍稀圖形文件達到八萬餘幅。每件作品均經過精校,注明版本來源。既能提供完整正文文本,同時錄有異文,以供比對。

  除了主庫以外,還有以下的附加庫。

  一、工具庫

  提供一些必要的輔助查詢資料。比如:《四庫全書總目提要》、《康熙字典》,還有借助「中國古典數字工程」新編製的《詞林》和《中華成語大典》,本工具庫或為新編,或為舊書校點,均有自主版權及使用權。

  二、圖片庫

  收藏了大量珍貴的善本古籍和法書圖片,數據製作時所選底本皆為優秀、可靠及古老的版本。例如《二十四史》選用的是百衲本,約七萬頁,圖片製作、整修、編號及勾連主文本數據,完全按照錢先生要求保持原貌,並與文本檔正確契合,形成方便運作的統一數據。製作清代詩文時,多方搜集精良底本,約達一百萬頁。另外,多年以來還收集了中國歷史上二百六十餘位名家,六百六十餘幅法書作品。幾乎包括了所有中國古代存有真迹的作者。每幅作品均和作者小傳、日曆庫、地名庫、事件庫緊密扣合,可在屏幕上調動查詢,極其方便。

  三、地圖庫

  「地圖庫」是以「地名庫」為基礎,將二十五史和三十種地理專著中的地名,配以詳細的資料,明確的出處,精確的坐標。再結合專業的地圖製作軟件,如美國MapInfo公司的MapInfo Professional或類似軟件,開發中國特色的歷史地名及地圖檢索系統。其進展及成果,已引起國內外地圖界的高度重視。

  四、類書收藏庫

  類書是我國古代一種大型資料性書籍,例如《藝文類聚》、《北堂書鈔》、《初學記》、《冊府元龜》、《太平御覽》、《文苑英華》、《永樂大典》等。將這些類書再加上一些大型圖書,如《四庫全書》、《古今圖書集成》、《續修四庫》、《正統道藏》、《乾隆大藏經》、《叢書集成》等,作為補充應用。這也是對「事件庫」進行建設和增補的基礎之一。

  五、資料匯編庫

  根據各界人士、機構的需要與請求,在「中國古典數字工程」中,進行文化建設專業資料搜集匯編數百種,以供參考。

  出版成果

  在創建過程中,不間斷利用電腦優勢,重新整理出版古籍,這些出版物加強了對中國古典數字工程的全部知識產權的確認。在積極推動工程庫建設的同時,更起到固定成果、推進發展、明確版權的作用。目前已經出版的成果包括:

  一、《論語數據庫》,人民日報出版社,一九八七年版,三十五萬字。

  二、《全唐詩索引》(三十種),中華書局等,一九九二年版,二千六百萬字,二十五冊。

  三、《永樂大典索引》,作家出版社,一九九七年版,三百萬字。

  四、《全唐文新編》,吉林文史出版社,二○○一年版,一千六百萬字,二十二冊。

  五、《宋詩紀事補正》,遼寧人民出版社,二○○三年版,三百三十萬字,十二冊。

  六、《十三經索引》,中國社會科學出版社,二○○四年版,九百萬字,四冊。

  七、《永樂大典本水經注》,萬卷出版公司,二○○四年版,四十萬字。

  八、《乾隆大藏經》,中國書店,二○○九年版,七千二百萬字,一百零八冊。

  九、《千家詩選》,萬卷出版公司,二○一一年版,十萬字。

  十、通行本《二十四史》勘評選,新世界出版社,二○一二年版,三十二萬字。

副產品出版計劃

  中國古典數字工程歷經二十七年,現已完成一萬五千人作品集的數據製作,此係本庫之階段性成果。而對此作品集予以進一步校對、輯佚和整理,則逐步形成了《萬人集》出版計劃。《萬人集》可謂是對傳統的四部進行一次全新的補充、演化和推進。我們知道,四部分類法是對古籍進行分類、歸綜、編目以至管理研究的傳統途徑。然而經史子集之間雖有界限,卻又不甚明晰。中國古籍浩如烟海,徒以四部分類,實不能勝任,更無法適應現代學科的演變和進化,也為保存、整理及研究製造了特別大的困難。錢先生以個人歸檔的方法,既簡單合理,又非常方便適用,是任何用人力或不盡人意的電腦編輯法所無法辦到的。

  今天不妨將新成果置回四部的舊範疇,從而生動證明,新方法和新原則將會給我們帶來什麼。下面就按四部的分類闡述一下《萬人集》。

  一、經部

  先以《子曰》為例。孔子一生奉行「述而不作」準則,沒有存留下認定屬於他個人的著作。世人共知的《論語》,由其弟子纂輯而成。毫無疑義,該書並不可能將孔子言行記述詳盡。若能將歷代典籍所徵引孔子言論蒐集整編,對於全面了解孔子思想,無疑意義非凡。為此,欒貴明先生利用古典數字工程的豐富數據,隨手新編《子曰》一書,輯得歷代典籍所引孔子語錄近二十萬言,較《論語》原書一萬六千餘字,新增約十倍,它既是《論語》的精準注解,又是《論語》的重要補充。

  再舉《詩云》為例。據《史記•孔子世家》載:「古者詩三千餘篇,及至孔子,去其重,取可施於禮義……三百五篇。」歷史上一些大家,如孔穎達、朱熹等對孔子删詩多有爭議。茲借助《中國古典數字工程》,將不見於《詩經》而存於其他古典文獻中的「詩」檢索出來,多達一萬餘條,去其重複,共得一百八十餘條五千餘字。

  二、史部

  以《竹書紀年》和《十六國春秋》為例。

  《竹書紀年》作為史部重要典籍,歷來備受爭議。眾所周知,由於該書涉及文物和古字,所以版本複雜,注釋繁冗。於今我們利用電腦,將所得七個版本進行逐字比對,得到一個包含各種版本異文的統一正文版。它與其他各本《竹書紀年》均有不同,但能完整表示出各種版本的異同。這個正文文本歸屬「竹書紀年作者」名下入庫。然後再利用電腦分別製作各種文本,與原文校正,恢復整理本原貌,修正原版中認定有誤的部分,再屬於各版主名下入庫。這樣入庫的《竹書紀年》變成了準確反映不同學術觀點的清晰圖畫,既無割裂,也不混亂。

  又如北魏史官崔鴻私撰之《十六國春秋》,載北朝五胡十六國史事,敍述客觀、內容完整,最稱完整,亦最為系統,所以史料價值極高,素來受史家重視,為研究北朝史之重要典籍。惟該書久已散佚,後世所輯,出自多人,大有異同,莫衷一是。如今憑藉電腦技術,將散見於各書的《十六國春秋》逸文整編成書。推論厥功,亦當不在《竹書紀年》之下。

  三、子部

  目前我們已經完成的諸子新集部分,有箕子、微子、老子、莊子、管子、范子、商子、荀子、列子、墨子、孫子、慎子、尹文子、韓非子等,總計八十餘萬字。正在進行中的有管子、晏子、孟子、呂氏春秋、賈誼新書、論衡、申鑒、淮南子、潛夫論、鹽鐵論、春秋繁露、說苑、揚子法言、抱朴子等。

  四、集部

  歷來集部最複雜,如前所述,中國古典數字工程庫以作者為中心,換言之,存世文獻,無論原先歸屬經史子集任何一部,均可編入本人集內。因此,相較原有之集部,其增量最為可觀。以《兩漢皇帝集》為例,已完成二十五位帝王的作品集結,達五千餘篇五十餘萬字。而清代嚴可均《全漢文》及《全後漢文》所輯統共纔九百八十四篇十三餘萬字。新輯之規模成果均數倍於前修,不可等量齊觀、同日而語。

  中華文化源遠脈長、基厚根深、自成系統、流傳有序,歷經數千年而從未間斷。可以說,古典文獻是中華民族文化精神得以維繫和傳揚的最重要載體,也是中國成為世界上唯一未曾中斷的文明古國的根本原因。而自錢鍾書先生提出獨特的建設理念——以作者為中心的古籍數據庫,並由欒貴明先生率其弟子貫徹實施以來,中國古籍便已悄悄走上一條亙古未有的自新之路。欒先生受命建設和整理民族文化資料庫,主旨在於中國傳統文化之全體大用。根本特點及其目的,就是致力於中國古代核心文獻的保存、整理、傳承與新生。他們開創了一個新的學科,培養了一批新的人才。毋庸置疑,這是一個國家級的工程,更是一個歷史性的偉業。假以時日,其意義與價值終將為天下後世所認識和肯定。

  (作者是內地學者。)