建設[中國歷代典籍目錄總庫],推動數字古典目錄學發展
建設「中國歷代典籍目錄總庫」,推動數字古典目錄學發展
孫顯斌、攸興超
摘要:
古籍數字化工作目前亟需加強基礎設施建設,這部分由古籍目錄庫、古籍圖文庫和古籍知識庫三部分組成。目前古籍圖文庫發展比較突出,而古籍目錄庫和古籍知識庫的建設則比較落後,古籍目錄作為文獻知識也是古籍知識庫的重要組成部分。建設「中國歷代典籍目錄總庫」,不但彌補了古籍數字化基礎設施建設的不足,更重要的意義在於充分利用了數字化技術手段,推動了古典目錄學從「傳統目錄學」向「數字古典目錄學」的轉變。
關鍵詞:
中國歷代典籍目錄總庫 數字古典目錄學 典藏史 書籍史
一、引言
我們認為古籍數字化工作目前亟需加強古籍數字化基礎設施建設,這部分工作由古籍目錄庫、古籍圖」文庫和古籍知識庫三部分組成。目前古籍圖文庫發展比較突出,經過二三十年的建設,商業數據庫領域包括愛如生、書同文、雕龍、鼎秀等古籍數據庫能提供幾萬種古籍的圖文服務,而中國國家圖書館、日本國立公文書館、美國哈佛燕京圖書館等也建設了包含數萬種古籍圖像的數據庫,最近「識典古籍平台」在抖音集團的大力支持下,也宣稱在幾年內提供數萬種古籍圖文庫,還有「全球漢籍影像開放集成系統」提供古籍圖像庫的檢索發現功能,可以說這些已經能夠滿足研究的基本需求。但是這些古籍圖文庫大多有共同的缺陷,就是幾萬種古籍沒有導航目錄,無法按照分類進行導航瀏覽,「全球漢籍影像開放集成系統」也同樣不能解決這一問題。目錄首先是讀書治學的門徑,王鳴盛《十七史商榷》卷一中的總結最為精當:「目錄之學,學中第一要緊事,必從此問途,方能得其門而入。」已有的古籍目錄庫不能很好地支撐古籍圖文庫的建設與應用,同時,古籍目錄庫本身也沒有發揮出數字古典目錄學的功用,更好地支撐古典文獻學研究。另一方面,以時間、地理、人物、機構、職官、文獻、名物、術語等為主要建設內容的古籍知識庫建設就更為落後,那麼古籍目錄數據作為文獻知識內容也是古籍知識庫建設的重要組成部分。這就是亟需建設覆蓋全面的古籍目錄總庫的意義所在。
目前代表性的目錄數據庫有CALIS建設的「學苑汲古—高校古文獻資源庫」、北京大學數據分析研究中心與國家圖書館聯合開發的「中國歷代典籍總目系統」、北京大學數字人文中心開發的「經籍指掌—中國歷代典籍目錄分析系統」、國家古籍保護中心的「全國古籍普查登記平台和發佈平台」、上海圖書館的「中文古籍聯合目錄及循證平台」、中華書局古聯公司的「中華古籍書目數據庫」等,海外還有京都大學高田時雄先生主持開發的「日本所藏中文古籍數據庫」等。遺憾的是這裡面只有前三個目錄庫的數據是結構化的,所有目錄庫收錄古籍書目數量也很有限,並且沒有與古籍圖文庫建立鏈接,未起到目錄導航的作用。[1]因此,我們基於開發「中國歷代典籍總目系統」及「經籍指掌」的經驗,重新設計與分階段建設「閱藏知津—中國歷代典籍目錄總庫」(以下簡稱「閱藏知津」),以彌補目前已有目錄庫的不足和缺憾,充分發揮古籍目錄庫的導航作用,推動數字古典目錄學的建設。「閱藏知津」採用商業建設模式,由我們團隊負責學術指導,滾動投入多期開發,推向市場。目前我們已經完成總體設計,正在加工第一期數據,預計2025年下半年可以提供試用。現將目前總體設計與目錄數據加工情況介紹如下:
二、「閱藏知津」的設計與實現
「閱藏知津」的總體目標是建立全面覆蓋中國歷史時期的古籍目錄數據庫,以機器預處理與人工校對相結合的方式對目錄數據進行結構化、標準化、同一化處理,形成包含歷代典籍目錄和典藏目錄的集成數據庫。在集成數據基礎上結合檢索、統計、可視化等分析方法和人機交互技術,實現典籍導覽以及編撰、存佚、典藏等時空分析。「閱藏知津」包括三個子庫,分別為:中國歷代典籍總目庫(以下簡稱總目庫)、中國歷代編撰目錄庫(以下簡稱編撰庫)、中國歷代典藏目錄庫(以下簡稱典藏庫)。
圖1 「中國歷代典籍目錄總庫」構成示意圖(現階段)
(一)總目庫的數據加工與功能設計
總目庫是中國現存典籍與歷代亡佚典籍的目錄總和,現存典籍以《中國古籍總目》(以下簡稱《總目》)為基礎進行補充。第一期數據除《總目》以外,還匯合了正史經籍志和藝文志,即《漢書·藝文志》《隋書·經籍志》《舊唐書·經籍志》《新唐書·藝文志》、《宋史·藝文志》《明史·藝文志》以及《清史稿·藝文志》,以及《四庫全書總目》的數據。其中對《總目》的叢書子目進行了抽取與單行本進行品種合併,這是很重要的工作,因為有些典籍一直存在於叢書中,從來就沒有單行本。如《野菜博錄》《甘薯錄》《救荒活民書》等是重要的科技典籍,但都沒有單行本。當然這項工作做起來也很不容易,難免還是會有些差錯,但總體數量應該大致不差,我們合併後共獲得195124條。然後又與正史藝文志系列數據再進行合併,共獲得253838條,也就是說第一期總目庫提供現存典籍近20萬種,歷代亡佚典籍約6萬種。總目庫的第二期將主要擴展到古籍普查登記目錄、歷代藝文志補編、《清人著述總目》,這部分可以對現存典籍適當進行補充,對歷代亡佚典籍進行基本匯總;第三期主要通過出土文獻目錄、地方文獻目錄、專科目錄進行補充,包括佛道藏目錄、家譜目錄等。根據第一期數據的統計結果,可以估計我們所知中國歷史上典籍品種總數大約在35萬種左右,也就是說在目前總目庫第一期數據的基礎上再增加10萬種左右,這將是第一次盤點清楚我國古籍文化遺產的準確數量。由於古籍普查在《總目》編撰完成後仍在進行,包括海外收藏古籍調查的進一步推進,對《總目》補充的品種數量應該不少,比如李鴻濤主編的《新編中國中醫古籍總目》(中醫古籍出版社2023年出版),歷經十年的普查,共收錄全國379個藏書機構收藏的1912年以前寫印的中醫古籍8650種,比《總目》著錄的中醫類典籍多出近2000余種,我們自己編撰《中國科技典籍總目初稿》不包括中醫部分,也在《總目》的基礎上補充了750餘種。但最終補充數量也不會太多,估計存世古籍總數不會超過21萬種。
總目庫提供的基本功能是瀏覽和檢索,所有數據都按照《總目》的分類進行導航,古籍著錄顯示其品種、版本和收藏等信息,包括出自哪個目錄著錄。總目庫首先可以提供古籍的概貌,包括提供某一類古籍的概況,比如子部類書類都有哪些書,又如可以從中揀選編撰科技典籍總目、儒家典籍總目、文學典籍總目等等。但是總目庫的功用不僅在此,它最重要的功能還是導航,通過總目庫可以對其中的典籍進行各種類型的導航,比如對其中典籍網上公開圖像的導航,收在哪些數據庫中的導航,收在影印叢書中的導航,出版過點校整理本的導航,還有典籍提要的導航等等。編撰《中國古籍總目提要》是各界一直期待的基礎工作,做起來當然非常困難,但是也應該看到我們現在其實已經有了很好的基礎,各種敘錄、提要類的整理成果層出不窮,另外絕大多數點校整理出版物都有整理說明,其實也相當於撰寫了提要。對於存世的20萬種典籍,到底有哪些寫過提要,這些提要都在哪些書中,就需要做一個完善的調查和導航工作。粗略說來,大型的古籍提要除《四庫全書總目提要》收錄11000餘種外,有民國時編修的《續修四庫全書總目提要》收錄33000餘種,傅璇琮主編的《續修四庫全書總目提要》收錄5213種,《中國學術名著提要》收錄3000餘種,《中華再造善本》系列提要也有1000餘種,還有《大藏經總目提要》收錄1000餘種,《道藏提要》收錄1476種、《中國地方誌總目提要》收錄8577種,《中國家譜總目》收錄家譜47000餘種等等。再以文學類典籍為例,就有胡旭《先唐別集敘錄》、趙榮蔚《唐五代別集敘錄》、祝尚書《宋人別集敘錄》《宋人總集敘錄》、王媛《元人總集敘錄》、崔建英《明別集版本志》、湯志波和李嘉穎《明別集整理總目》、張舜徽《清人文集別錄》、袁行雲《清人詩集敘錄》、柯愈春《清人詩文集總目提要》、李靈年和楊忠《清人別集總目》、松村昂《清詩總集敘錄》、徐雁平《清代家集敘錄》、李舜臣《歷代釋家別集敘錄》、石昌渝《中國古代小說總目提要》、朱一玄《中國古代小說總目提要》、董康《曲海總目提要》、譚正璧《彈詞敘錄》、車錫倫《中國寶卷總目》等等。這樣看來,存世20萬種典籍中有一半以上都撰寫過提要,如果將古籍分為基本典籍、重要典籍和一般典籍三個層次的話,基本典籍提要撰寫已經基本完成,重要典籍提要估計也完成大半,以此為基礎編撰《中國古籍總目提要》應該是可行的。
(二)編撰庫的功能設計與數據加工
編撰庫將總目庫數據按照編撰時間進行排序。通過選擇一個古籍分類,可以檢索獲得總目庫中這一分類的所有典籍(可以區分現存和亡佚的),然後按照朝代(以後可以按照公元年代)進行統計顯示,比如類似圖2方式,展示所查該分類典籍歷代成書的柱狀統計圖,支撐學術史研究的需求。
圖2 編撰庫功能示意圖
由於現階段總目庫數據的編撰時間只精確到朝代,所以我們也只能按照朝代進行粗粒度統計和顯示。後期我們可以對此進行細粒度加工,依據《中國學術編年》《中國學術思想編年》等歷代學術編年,歷代文學編年史、學者年譜以及《宋元明清醫籍年表》等已有學術成果加工總目庫收錄典籍的編撰時間。當然可能大多數典籍都無法考證具體的編撰時間,這時候就需要和作者生平進行聯動估算,可以把編撰時間放入到一個30年的時段,最後我們以30年為時段單元來展現典籍的編撰概況。如果把作者庫的信息建立起來,我們就可以給出一個作者的編撰年表,把一些作者定義成一個學派,我們可以給出一個學派的編撰年表,根據作者的籍貫和旅居等地理信息,我們也可以給出一個區域的歷代著作年表。從中我們不難看出,更多數字人文需求的實現,必然依賴於數據加工的深度以及關係建立的密度。
(三)典藏庫的數據加工與功能設計
典藏庫是匯集歷代公私藏家的藏書目錄庫,首先可以按照時代和藏家,瀏覽歷代藏書目錄,瞭解其藏書情況。然後可以通過檢索某種書,獲得歷代公私藏家目錄對這種書的著錄情況,結果按時空方式進行展示,即這種書在時間和空間上的流傳分布圖,幫助我們瞭解這種書的典藏歷史,從而支撐書籍史的研究。據我們統計,目前點校整理和影印的歷代公私藏書目錄有千餘種,只有少數目錄編制了索引,在這麼多藏書目錄中遍尋某種書的典藏歷史需要巨大的工作量。典藏庫就要解決這一問題,我們將陸續把這些藏書目錄結構化加工,並對典籍品種做認同,這樣就可以一鍵檢索獲得同一種書的所有收藏信息。這部分第一期選取了29部歷代公私藏書目,數據量約為16萬條。需要說明的是我們會把七史藝文志和《四庫全書總目》也當作一個藏書目錄,當然後面我們會做一些調整,這是因為一方面這些目錄的確是以一個時期國家藏書為基礎編撰的,另一方面在查考典籍著錄情況時,這些目錄都具有很高的參考價值。除此之外,第一期還收錄了不少重要的公私藏書目,如《崇文總目》《秘書省續編到四庫闕書目》《中興館閣書目》《文淵閣書目》《內閣藏書目錄》《天祿琳琅書目》《郡齋讀書志》《直齋書錄解題》《遂初堂書目》《菉竹堂書目》《百川書志》《千頃堂書目》《絳雲樓書目》《傳是樓書目》等等。這裡我們將不同藏書目中的同一種書進行認同,而並不是同一復本,同一復本就要依靠藏書印和其他細節來確定。北京大學楊海崢等團隊開發的“漢籍流傳可視化”平台就是以藏書印為核心考察同一部書(即同一復本)的流傳情況。[2]
每一部藏書目錄都是典籍流傳在時空中的一個截面,數千種藏書目就是數千個大大小小的截面,將同一時代的藏書目匯聚在一起,就形成這一時代的總的時空截面。我們正在編撰一套「歷代藝文志新編」,功能類似紙版的典藏庫,擬從《漢書·藝文志》起,利用諸史藝文志經籍志為基礎,加以補充,展示我國歷史上大約每隔三百年所存典籍情況的斷面,同時為閱讀和查核斷代史典籍資料提供便捷的書目。現計劃編寫《漢書藝文志新編》《晉中經新簿新編》《隋書經籍志新編》《新唐書藝文志新編》《宋史藝文志新編》《明史藝文志新編》等六部,與《中國古籍總目》一起全面展現我國歷代典籍興替概況。數據庫與之相比,斷面展現就細緻得多。通過這些典籍著錄的時空截面,我們還可以估算典籍的亡佚時間,這就與編撰庫中的成書相對應,共同構成以書為單元的知識的生產和消亡,我們可以把典藏庫中估算出的典籍亡佚時間信息補充到編撰庫中,這樣就可以給出中國歷史上以書為單元的知識生產和消亡的全面圖景。其實這是我們做目錄學之初就有的一個願景,也是很多人共同的願景。而這一願景可以通過目錄庫這種數字人文手段來實現,也就成為支撐「作為新方法的數字人文」的典型案例,實際上用典藏庫的方法來研究書籍典藏史本身就是數字人文方法的典型案例。說到典籍的時空截面,引書目錄同樣也是一種與典籍存佚相關的時空截面,它記載作者所見到或者轉引的書目信息,如金德建《司馬遷所見書考》,當然考察起來要相對複雜一些,需要去除轉引的書目信息。從考察典籍存亡的角度,引書目錄還需要大力開發與利用,或者需要開發一個「中國歷代引書目錄庫」。[3]
在加工藏書目錄的同時,發現總目庫漏收的典籍,即可以補充到總目庫中,也就是說典藏庫與總目庫存在數據聯動的關係。
三、推動數字古典目錄學發展
古籍目錄數字化不能停留在圖文化階段,要深入理解數字形態目錄新的特徵,思考如何構建和利用這些新的特徵進行目錄學研究,進而支撐數字古典文獻學的發展。在數字形態下,傳統目錄的著錄項,比如書名、作者、編撰方式、編撰時間、版本、刻印時間、收藏地、藏印、題跋等在提取後會進行切分和結構化存儲,這樣就可以隨時進行檢索、聚類、排序和統計。例如可以實時生成各種索引:某一作者的著作目錄、宋版書目錄、明代活字本目錄、清代史評目錄、批校本目錄、孤本目錄等等。另外,如果對總目庫中典籍做細緻的主題詞標引,就能利用這些標籤自動聚類生成專題書目和專科書目,開拓目錄編纂的新方法。
同時,不同於紙本目錄是「平面」的,數字目錄本身就是「立體」的,數字形態方便目錄條目、著錄項之間建立關係鏈接,比如目錄庫中的作者屬性就可以與人物庫中的數據進行關聯,從而快捷生成作者籍貫在某地或者曾在某地工作的歷代地方文獻目錄。再比如,有了這種關聯功能,古籍目錄庫和圖文庫就可以方便地鏈接起來,實現從目錄到內容的導航。總目庫中的數字目錄導航功能可從書的級別下沈到篇、卷,甚至語段的級別,並且可以一鍵直達。將這些引用位置層級化、序號化和標準化,總目庫中的典籍信息就要增加篇卷和語段的結構目錄信息,以便最大程度地發揮導航功能。所以說數字條件下,目錄的結構和著錄項也會在傳統目錄基礎上不斷拓展。古籍數字化必將從圖文化向知識化方向演進,而知識化的基本特徵是結構化、同一化、標準化和關係化。在知識化階段,古籍整理工作的重點和難點實際上不在後面的統計分析,而在前面的數據加工,數據加工得越精細,能夠實現的功能就越多越強大。
「閱藏知津」的建設除了回應數字目錄的新特徵外,更重要的是推動建設滿足「真實」研究需求的數字人文應用。也就是說在傳統人文研究中本來就有的需求,但是在數字化條件下才方便實現或者實現得更快更好。只有這樣的應用越來越多,數字人文這個新興的方向才能逐漸得到傳統人文學者的關注和認同。按照這一思想,總目庫是要建設完整的目錄數據,是一切應用的數據基礎,而編撰庫和典藏庫則是面向研究需求的具體應用。其中編撰庫完全基於總目庫的數據按照編撰時代進行統計分析,滿足瞭解各時代各學科典籍生產的需求,這一功能也可以手動統計來完成,但是費時費力。而典藏庫則是為滿足書籍史研究中典藏和傳播史的需求,在成百上千典藏目錄中梳理出一部書典藏的歷史,在非數字條件下耗時巨大,還容易遺漏,幾乎是不可能的,這也就凸顯了數字人文的價值。「閱藏知津」的建設充分利用了信息時代的數字技術和方法,推動了古典目錄學從「傳統目錄學」向「數字目錄學」的轉變。
實際上,上述功能也僅是我們對「數字古典目錄學」需求的一部分,之所以先被提出來是按照書目數據獲取和加工的可操作性情況來考慮的。比如說編撰是品種層的行為,而在抄寫、印刷的版本層,我們可以建設「中國歷代寫印目錄庫」,收集版本層級的信息,可以分析責任者、寫印地點以及版本類型等版本學的研究內容。這就需要將書目數據放在與時間、空間(編撰地、出版地、收藏地等)、人物和機構(作者、校勘者、寫印者、藏書家等)的關係中,全面補充基本信息,構建語義網絡,展開各種分析研究,尤其是書籍史的研究。與西方相比,我國研究書籍史的具體史料比較匱乏,很大程度限制了其發展,但是我國傳統目錄學尤其發達,留存下來的典籍也數量巨大,那麼利用數字古典目錄學的方法,更多地從宏觀方面入手進行書籍史研究,尤其是與學術史相結合,也一定能開闢出新的局面。
現今時代的傳統文獻學一方面其研究內涵正在向縱深發展,目錄、版本、校勘等領域研究都更趨細密,一方面又在不斷加強與社會文化史相融合,在書籍史的領域拓展寬度。同時,我們在文獻數字化的時代背景下,也要勇於利用信息時代新的技術手段,開拓數字古典文獻學的新方向。
附「閱藏知津—中國歷代典籍目錄總庫」試用通知
在古籍數字化浪潮中,「圖文易得,目錄難尋」已成為學者研究的核心痛點。面對數萬種古籍圖文庫缺乏分類導航、現有目錄庫數據零散且非結構化、難以支撐進一步的數字人文研究,「閱藏知津—中國歷代典籍目錄總庫」應運而生。本數據庫由資深學術團隊領銜設計,基於以往的系統開發經驗,致力於打造全球首個覆蓋全面化、數據結構化、功能智慧化的中國古籍目錄數字人文平台,推動古典目錄學走進數字時代。
一、核心架構:三大子庫協同賦能
「閱藏知津」以「中國歷代典籍總目庫」、「中國歷代編撰目錄庫」、「中國歷代典藏目錄庫」為支柱,目前已構建「總目資源—成書分析—典藏分析」三位一體的目錄數據知識平台,實現中國古籍遺產的系統性盤點與時空動態解析。
二、突破性價值:數字古典目錄學的成立
(一)從「平面著錄」到「立體知識網絡」
1. 數據深度結構化:「閱藏知津」不僅是工具升級,更是研究方法的革新。在數據庫中,書名、作者、版本、藏印等字段被結構化為可計算單元,並經過標準化和歸一化,支持瞬時生成定制索引。
2. 關係化賦能:「閱藏知津」關聯人物庫,可以生成知識網絡;「閱藏知津」對接圖文庫,目錄條目可以直通全文圖像、篇卷乃至語段。
(二)革新傳統目錄學
1. 自動目錄編纂功能實現中:在“閱藏知津”,通過主題詞等標引,自動聚類生成各類書目,突破人工編纂局限。(未來開發)
2. 支撐宏觀書籍史研究:利用典藏庫數千「時空截面」,分析典籍傳播與學術思潮、地域文化的互動機制,彌補中國書籍史微觀史料不足的短板。
3. 數字人文的「真實需求」響應者:「閱藏知津」可以解決學者的真實需求,利用編撰庫替代人工統計歷代成書數據,省時90%;利用典藏庫可以秒級完成需長時間梳理的典籍流傳數據。
「閱藏知津」還具有一定的示範性意義,它證明數字人文可深度嵌入傳統人文研究環節(如目錄學、書籍史),推動人文研究範式轉型。
三、建設進程
當前階段(2025年下半年):總目庫第一期(26萬種,33萬條)、編撰庫(朝代粒度分析)、典藏庫(29種藏書目,16萬條數據)開放試用。
“閱藏知津”完成了古籍目錄數據加工的結構化、同一化、標準化、關係化。它不僅是中國歷代典籍的“超級導航儀”,更是數字古典目錄學的奠基工程。通過三大子庫的協同創新,本數據庫將重塑學者理解典籍、探索文脈的方式,推動中華典籍文化遺產在數字時代迸發新生命,支撐數字人文研究的革新與探索。
歡迎試用!
訪問地址:http://cata.yue-zhi.com
客戶服務:112276772(QQ)
聯繫方式:18911970380陳老師
尾注:
[1]有關數字古典目錄學的理論和方法以及古籍目錄庫建設的簡要歷程,請參考:孫顯斌:《古籍目錄數據庫建設與應用》,《數字人文》2023年第3期。有關「中國歷代典籍總目系統」的情況請參考:孫顯斌、攸興超:《談古籍知識庫建設的兩次嘗試》,《中國古典學》第七卷,2025年。有關「經籍指掌—中國歷代典籍目錄分析系統」的情況請參考:李文琦、王鳳翔等:《歷代史志目錄的數據集成與可視化》,《中國圖書館學報》2023年第1期。
[2]李林芳、楊海崢等:《古籍流傳的可視化》,《圖書館論壇》2024年第12期。
[3]關於引書目錄的開發與利用,請參考孫顯斌:《古籍引書目錄淺說》,載《北京大學中國古文獻研究中心集刊(第六輯)》,北京:北京大學出版社,2007年,第264-273頁。
本文原刊於《數字人文》2025年第3期

