錄組詞拼音 錄組詞組

作者:劉石(國家社科基金重大項目“基于大數據技術的古代文學經典文本分析與研究”首席專家、清華大學教授),尹小林(首都師范大學中國詩歌研究中心專職研究員)
大數據及其相應技術已經對社會知識體系及思維方式產生重大影響 ?;谶@一技術對古代文學經典文本進行深度而高效的分析,可使文學研究進入更宏觀的視野,提高研究結論的精準性、穩定性及可驗證性,促生新的研究理念、 *** 與范式 。信息革命以來,古籍文獻數據化積累和知識庫建設卓有成效 。浩如煙海的古籍,可以組成大小不等的任意文本 ***,具有不同維度的數據特征 。對它們進行基于字詞、語句、篇體等方面的統計,可以獲得不同于紙本閱讀的認知 。
對古籍進行散點透視
谷歌與哈佛大學利用其共同開發的數據庫對公元1800—2000年出版的近520萬冊書籍的單詞和短語的使用頻率進行統計,任意詞或詞組在過去數百年典籍中的出現頻率與變化趨勢得以清晰呈現 。這一詞頻統計器廣泛應用于如探索名物的興衰沿革、話題的熱度變化、人物或群體的影響力等研究 。
同樣,大數據時代下新的技術和研究思路為彌補紙質古籍在結構化整理、大量資料匯聚排列、關系立體化勾連呈現等方面的不足提供了可能性 。我們利用《國學寶典》數據庫收錄的超一萬種逾22億字的歷代古籍精良數據,在其中篩選出最為核心的經典近百部,對其從用字量、用字比(TTR_H)、字頻等不同角度進行統計,將時代與文體來源廣泛的文獻以前人不曾設想過的方式進行關聯比較,獲得了一系列涉及漢語史、文體學、知識考古學、蒙學研究、近代文白轉型等眾多領域與交叉學科的重大命題與發現,是“數字映射經典,技術更新人文”的有效例證 。
【錄組詞拼音錄組詞組】縱向概覽從先秦到清代典籍數據,首先可以關注到的是單部經典總字數和用字量的漸增趨勢 。顯然,前者與文獻的物質形態的變化發展直接相關,后者除了受中古漢語雙音化等自身發展因素的影響之外,同樣與漢代至中古以來總體書籍量的增長及社會的知識好尚有關 。用字量排名靠前的首先是知識性工具書與承擔識字教材功能的蒙學讀本,如《爾雅》(3360字)、《水經注》(4490字)、《古文觀止》(3863字)等 。漢代以降,士人逐漸重視學術與社會觀點的積累以及人生精華的總結,故而其著述常有豐厚淵博的知識性特質 ?!熬刻烊酥H,通古今之變”的《史記》與“言其大也,則燾天載地;說其細也,則淪于無垠”的《淮南子》用字量分別為4730字與3900字,在參與統計的上古至中古文獻中十分突出,已可與明清長篇章回體小說作品比肩(四大名著和《聊齋志異》用字量在3931~4936字之間) 。

錄組詞拼音  錄組詞組

文章插圖
僅依靠數據自身不能完成“智慧型”轉化,比數據更重要的是闡釋數據的方式 。除了將統計分析與經典論題相關聯,數據的切分與聚類也是至關重要的基礎環節 。一項經典研究案例是,將《紅樓夢》以四十回為單位進行文本切分,最后一部分在用字量方面的顯著不同剛好佐證關于作者的疑問 。然而,以用字量直接衡量作品質量或閱讀難度又會墮入機械的統計分析思維 。例如統計中居首的幾部小說文獻,其體量大、涉及內容廣、雅俗語體并包等因素共同提升了用字量 。同樣,受常用漢字總量限制,文獻篇幅的增加反而會導致用字比下降 。故而統計中引入計算語言學常用的TTR_H模型以修正用字比,最終結果顯示,用字比更高者皆為蒙學讀本:《千字文》(1)、《百家姓》(0.986)、《三字經》(0.894)、《聲律啟蒙》(0.857) 。可見,編著者有意識地在有限的篇幅和內容難度中增加用字量,讓學童能比較密集地習得盡可能多的漢字 。蒙學讀物的編纂者選字標準是什么,是當時常見經典文獻中的高頻字,還是日常生活中的常用字,還是有別的標準?這種選擇是以何種方式完成的?這些都是值得進一步探究的話題 。
從用字特征探測經典命題
錄組詞拼音  錄組詞組

推薦閱讀