建立我们的数据思维 ——简论大数据时代古籍数字化的若干问题
作者:张三夕《光明日报》( 2020年06月13日 11版)
4月23日,河北省张家口市宣化区图书馆工作人员在整理古籍。光明图片
人类社会已经进入一个大数据时代,人工智能是大数据时代最为重要的技术样态,它对人类社会生活的方方面面正在产生深远的影响,也势必对包括古籍整理在内的国学研究工作提出许多新的问题。在我看来,最重要的问题有以下四点。
问题一:大数据时代,人们应具有什么样的大数据观?
在大数据时代,判断一个人思维能力的重要标准之一是看他有没有大数据观。大数据观实为一种新的世界观。在大数据时代,首先应该转变思维方式,由过去惯常的逻辑思维转换为数据思维(当然,这并不意味着逻辑思维的失效,相反,它与演绎思维一起,仍是人类最基本的思维方法)。充分认识到人工智能是大数据时代最为重要的技术样态。
人工智能的发展不再是简单模仿人脑的思维,而是通过算法革命,不断提升大数据的收集和处理能力,从而形成类似于人类甚至部分超越人类的认知能力,挑战人类的认知极限。人工智能的思维方式就是数据思维,大数据是人工智能的基础。基于大数据收集和处理能力的人工智能,代表了一种思维方式的转换,即从逻辑思维转换为数据思维,确切地说就是从寻求因果关系的逻辑思维转换为寻求万物相关性的数据思维。在这里,万物相关性也可表述为万物互联。
从技术的角度讲,说大数据是人工智能的基础还不够,还要加上另外一个要素:云计算。人工智能(AI)、大数据(Big Data)、云计算(Cloud)三者共同构成了一个“ABC新时代”。“ABC新时代”代表新的产业趋势和技术革命,它是继PC时代、移动互联网时代后的又一波新的产业变革,标志着一个全新的时代已经来临,其对人类社会生活的影响、渗透是深远的。在古籍整理方面,传统纸质文献将会被完全数字化;在古籍研究方面,人们研究所依据的“底本”将是数字化的古籍文献。纸本古籍依旧会长期存在,人们可能在“怀旧”的意义上对其保持一份“亲切”或“敬意”。
对于从事包括古籍整理在内的国学研究者来说,要从对传统纸质文献整理研究的手工操作转向充分利用古籍数据库的智能操作。因此,未来不懂得如何智能操作古籍数据库的学者将会落伍,甚至被时代淘汰。就像当下的衣食住行消费,我们如果不会运用手机移动支付就会寸步难行一样。
问题二:大数据时代,古籍数据的量化尺度如何把握?
人们常说,中国的古籍浩如烟海。从量的方面来说,1912年以前产生并留存下来的中国古籍总量有19万种和20万种等不同说法。李明杰指出:“据不完全统计,我国现存古籍仍有约19万种,其中仅保存在公共图书馆系统的就有2750万册,可列入善本的约有250万册。”(《中华善本在当代中国的保护与传播》,载光明网-文艺评论频道2019-05-15)杜志强指出:“据《中国古籍总目》,我国古籍存世总量大约20万种,可谓浩如烟海。其中,善本大约占其三分之一。”(《古籍善本价值重大,中华文明源远流长》,载光明网-文艺评论频道2019-06-04)我们就暂时以20万种作为现存古籍的总量。当然,古籍总量在某种意义上是动态的,如新出土文献、海内外新发现的汉文典籍等都可增加古籍的总量,不过,这类文献的量都不会太大。
如果从传统的数据量化意识来看,20万种古籍确实可以说“浩如烟海”,但是,在大数据时代,20万种古籍又不能说是“浩如烟海”。在大数据视野下,它又可看作是“寥若晨星”,20万种古籍被完全数字化的时间指日可待。美国谷歌公司有一个宏伟的野心,它想通过扫描把全世界的图书数字化,建立一个包罗一切的数字图书馆。尽管遇到版权等方面的障碍,谷歌公司还是只用了9年时间就达到了一个惊人的数量,到2013年,“谷歌完成了3000多万本书的数字化,相当于历史上出版图书总数的1/4”(【美】埃雷兹·艾登,【法】让-巴蒂斯特·米歇尔著,王彤彤等译,《可视化未来——数据透视下的人文大趋势》,浙江人民出版社2015年版。下同)。相对于世界上3000万种图书来说,20万种中国古籍可能只是“小菜一碟”。
客观地评估,中国古籍的数字化应该说已经取得长足的发展。其中国家图书馆的“中华古籍资源库”是“中华古籍保护计划”的重要成果,目前在线发布的古籍影像资源包括国家图书馆藏善本和普通古籍、法国国家图书馆藏敦煌遗书、天津图书馆藏普通古籍等,资源总量超过3.2万部,可在国图官网上直接浏览。另外,中华再造善本工程一期、二期都已完成,且制作了数据库,提供全文浏览。唐宋编和金元编共影印善本古籍758种。清人陆心源“皕宋楼”以藏200种宋刻本引以为傲,今天我们足不出户便可阅览几百种宋本。不过,如果对标谷歌公司,我们有待完成的工作量还很大。中国古籍整理与研究的当务之急,是整合海内外各种古籍数据库,建立一个由国家和民间、高校和企业共同参与管理的包含全部20万种古籍的“古籍数字图书馆”,以实现古籍整理与研究资源的全面共享。
大数据时代正在重构新的文献统计学或计量文献学。如果能正确把握当下古籍量化的尺度,就不会产生古人经常发出的“望洋兴叹”的感慨,就能完成过去在人工统计时代不可能完成的各种古籍量化工作。
数据思维的前提是数据。也就是说,古籍整理与研究的基础不再仅仅是传统意义上的资料或文献,而是数据,各种大数据。所谓“大数据”,首先是一个“量级”的概念,大数据不是以个、十、百、千为量级,而是以百万、千万、上亿为量级,单个研究者依靠手工是无法完成这些大数据的收集与处理的,必须依靠机器,依靠人工智能。不少信息的统计手段发生前所未有的变化,必须依靠高科技的技术手段来分析海量的信息。数据思维的数据规模特点,除了量级的变化,还意味着某种庞大数据集。正如《可视化未来——数据透视下的人文大趋势》一书中指出的,我们面临的第一个主要的挑战是,“大数据和数据科学家们之前运用的数据在结构上差异很大”,“大数据是杂乱的数据集”。当我们收集并处理的古典文献从具体的、单个的文本转化为庞大而杂乱的数据集时,就必须运用寻求万物相关性的人工智能的数据思维方式,而不是简单地寻求线性的因果关系的逻辑思维方式。这一点将赋能包括古籍整理在内的国学研究以新的时代特征。
问题三:大数据时代,如何构建古籍数据和古籍数据库的目录学?
古典文献学是一套包含有目录学、版本学和校勘学等主干性知识的知识谱系,它们在大数据时代都面临着知识结构和研究方式的转型。其中,目录学具有优先性地位。
在大数据时代,我们需要构建新的古籍数据和古籍数据库的目录学。这种目录学,首先要对古籍数据进行重新分类,我们依照的既不是《汉书·艺文志》那样的七分法、《隋书·经籍志》那样的四分法,也不是按照针对纸质文献所流行的杜威分类法或中图法分类体系,甚至也不是按照传统的科学数据分类,如实验数据与观察数据之类的数据分类。
如何进行古籍数据分类?分类方法可以有多种,从层次上可分为表层数据与深层数据;从价值上可分为有用数据与垃圾数据;从可靠性上可分为真实数据与虚假数据;从时间上可分为长期数据和短期数据,等等。
上海宝藤生物医药公司董事长楼敬伟曾表示,在生物医学数据方面,不关注浅层数据,如身高、体重、呼吸、心跳等,而关注基因组数据、蛋白质组数据、代谢组数据等深层数据,关注这些深层数据所反映的人体表征之间的数据关系,关注人体生物学的这些表征,和影像学存在什么关系。我们在意的是人体的肠道微生态,人体与社会环境的互动,掌握多纬度的数据。我们不能收集一堆垃圾数据,而要开辟智能医疗的试验场。楼敬伟的说法,对于我们重新认识古籍数据的分类是有启发性的。哪些东西是古籍数据中的表层数据,哪些是古籍数据中的深层数据;哪些是古籍数据中的长期数据,哪些是古籍数据中的短期数据,这些都是需要进一步思考的问题。
至于古籍数据库的分类,我们曾做过尝试性工作。我和毛建军博士主编的《汉语古籍电子文献知见录》(世界图书出版公司2015年版),就是“从古典文献学教学资源利用视野对这些电子文献进行了科学分类与导航设计”。我们改变传统书目以“经、史、子、集”及其下设各小类进行分类提要的标准,而以古籍电子文献开发所在区域和机构个人设置一、二级目录进行解题。一级目录的安排次序为:中国大陆、中国台湾、中国香港、中国澳门、国外(日本、韩国、美国、欧美、澳洲);二级目录的安排次序为:图书馆、档案馆等古籍典藏机构、高校等研究机构、古籍数字化企业公司、个人等。其中,中国大陆有古籍电子文献数据库166种;中国台湾有古籍电子文献数据库70种;中国香港有古籍电子文献数据库9种;中国澳门有古籍电子文献数据库两种;国外地区有古籍电子文献数据库22种;合作开发的古籍电子文献数据库有6种。二级目录里所列古籍电子文献数据库共计275种,每种都有展现其研究特色的数据库名称。
另外,我们也试图改变传统书目对古典文献的版本分类,将古籍电子文献分为古籍书目数据库、古汉语电子语料库、古籍全文数据库、数字图书馆、古籍电子出版平台,等等。我们的尝试一定还存在不少值得改进的地方,所收的古籍电子文献数据库远没有做到“大而全”,还有很大的增补空间。古籍数据库的分类,自然还可以按现代学科体制来分,分为文、史、哲、政、经、法等,数据库所收古籍文献最好有标点。对于专业研究人员来说,好的古籍数据库应具备两大特点,一是全(搜集的数据越多越好),二是专(就是说,可按学科分类,也可按文体分类,还可按文献主题分类,按文献载体分类),且不需要标点(如果有标点,自然更好)。我本人也一直在准备《汉语古籍电子文献知见录》的修订工作。
在古籍整理与研究领域,除了基于大数据技术的目录学外,还有基于大数据技术的版本学、校勘学、辨伪学、辑佚学、索引学等,它们都会包括许多与古典文献学完全不同的知识结构,需要我们重新加以建构。
问题四:大数据时代,我们应该培养什么样的古籍整理与研究人才?
大数据时代,我们迫切需要培养同时具有古典文献学基础、古籍数据库开发和利用能力的高级人才或复合型人才。最近,清华大学人文学院刘石教授“基于大数据技术的古代文学经典文本分析与研究”课题组因研究需要,面向国内外招收博士生(直博生)或招聘博士后若干名。申请者的要求条件之一就是“应具有一定的计算机技术基础,或者具有一定的数字人文研究经验。入学或进站后,从事中国古代文学经典文本的数据分析与研究”。这种人才培养意识在国内学术界和高教界开了一个好头。“基于大数据技术的古代文学经典文本分析与研究”以及“数字人文”均属于人文社会科学研究的新兴领域,它要求学生在古典文献学、数据分析和认知哲学上都有一定基础,而目前能将这几方面专长结合起来的人才并不多。大数据时代会催生许多新的跨学科分支。
事实上,在古籍整理与研究的数字化推广领域,已经产生一些新型专家,比如“数字文献学家”兼“数字文献企业家”。现在清华大学人文学院已经在培养自己的“数字人文学家”,未来中国可能还会出现“古籍数据目录学家”“古籍数据平台设计师”“古籍数据统计师”“古籍数据分析师”“古汉语语料库语言学家”“古籍数字出版家”,等等。对此,我们没有理由不伸开双臂欢迎他们。我们的高等教育机构与研究机构必须立即行动起来推进有关的跨学科人才的培养。作为学者个人,我们也必须对此进行充分的思想准备、知识储备与技能训练。
(作者:张三夕,系哈尔滨师范大学文学院特聘教授)
用户登录
还没有账号?
立即注册