新闻动态 媒体关注

顾青:古籍焕新生 联手创未来

编者按:古籍出版数字化,是专业出版数字化的重要组成部分。近年来,中华书局在古籍数字化方面卓有成效。由中国新闻出版研究院主办,中国新闻出版研究院产业发展咨询中心承办的全国新闻出版单位数字出版工作交流会上,中华书局总编辑、古联数字传媒科技有限公司董事长顾青介绍了中华书局古籍数字化的情况。

1522720433022

中华书局数字化的战略:线上中华

中华书局的特色是传统文化的出版,核心竞争力是出版传统文化的典籍,也就是古籍整理的研究和出版。中华书局的数字化战略,是整合中华书局和全社会在中华传统文化数字化方面的有效资源,利用国家投入、社会投资和自有资金,依托书局品牌资源优势,开展广泛社会合作,根据国家规划,着力打造中华传统文化大数据中心和国家级古籍整理出版资源平台,使中华书局成为国内领先的优质传统文化数字资源的内容提供商和知识服务商,再造一个“线上中华”。

我们原来是“线下中华”,主要的盈利是靠纸书。线上中华建立起来以后,中华书局的一个基本目标是线上收入(媒体融合的收入)能与线下的收入持平,甚至超出。

2003年,中华书局开始古籍数字化的探索,十年间积累了古籍数字化的基础数据、标准、方法和人才。当时新闻出版总署科技司给我们一系列的项目支持,因此开展了古籍数字化的工作。这个时候,在业界有很多民营公司,包括一些港台的公司,都已经开展了古籍数字化的工作,但是这些工作做得不到位,没有达到理想结果。

谈到古籍数字化,很多朋友没有涉及到古籍,不太知道古籍产业化的艰辛。讲一个最简单的例子,我们一般做数字化,汉字拿来就用,不需要再开发。因为现在大字符集一直扩下去,可以处理七万多个汉字。一般的数字化,汉字使用是足够的,一般用一万多字就够了。但是处理古籍,我们要应对的汉字是五千年留下来的各种形体和各种字,包括很多死掉的汉字。这些汉字呈现要准确,而且能够被检索,所以要处理数以十万的汉字。

这是一个很棘手的问题,网络上很多字没有办法被检索和显示,我们必须解决。十几年来我们处理了一系列的古籍数字化的基础数据,列出了古籍数字化的一系列标准,开拓了一些具体的方法路径,也积累了一批人才。所以,中华书局古籍数字化的探索卓有成效。

2014年6月,“中华经典古籍库”(镜像版)第一期发布,中华书局古籍数字化开始产业化。之前我们很多产品被盗版,也都在用。这款数据库推出后,大家都觉得这是一款极好的数据库。我们近年来也一直不断增添数据。

2015年10月,古联数字传媒科技有限公司正式成立。这是一家专业的古籍数据化公司,与传统的出版完全隔开,按照科技公司的运作模式运作。这家公司的选址不在中华书局内部,而且距离很远,进入到科技园。因为传统出版的运作方式,对于科技公司很不适合。

2015年11月,“中华经典古籍库”线上版发布,“中华古籍整理出版资源平台”项目启动。

2016年4月,“中华经典古籍库”微信版发布,搭建了基于移动终端的平台。

2017年12月,“中华经典古籍库”第五期发布。

2018年4月,“籍合网”准备上线。

这是中华书局古籍数字化的基本历程。中华经典古籍库是我们的主打产品,前三年公司的主要盈利都来自于这个产品,其特点是:“基于古籍整理成果和规范的海量合法数据:最高质量,可供征引。”这几句话就表达了中华经典古籍库的标准和工作难度。古籍整理很麻烦,现在网络上看到的绝大部分的古籍数据都是不够准确的。如果用中华书局的图书引用古籍,你喝的是纯净水或者是矿泉水;如果你从网上直接下载,你就喝的是自来水,里面的文字不准确,引用不能得到正确的结果。真正做到最好的质量,必须基于古籍整理的一系列的规范和成果才能实现。中国的古籍整理事业从建国以来取得很大的成绩,是因为有一批优秀人才在做古籍整理的基本工作,出版最好的图书。

由于中华书局的数据库,是“基于古籍整理成果和规范的海量合法数据”,这给我们自己“套了一个枷锁”,数据库里的内容都是获得合法的信息网络传播权,一个一个签的。但是我们代表国家形象,就必须这样严谨。保障最高质量,可供征引。第五期为10亿字,1500种整理本古籍,汇集中华书局等10家古籍出版社的优质资源。未来还要将建国以来整理好的优秀古籍,全部融汇进去。“十三五”的目标是30亿字,5000种整理本古籍。

数据库的目的是提供基于多用户需求的多功能的多媒体服务。在实现的功能上,别人有的我们有,别人没有的我们也有:例如浏览,阅读,定制资源,在线编辑、下载、写作。其中尤其注意的是检索功能,数据库可以实现全文检索、深度检索、个性化检索。比如曹操,有很多别名,魏武帝、魏武侯、孟德等等,只是《三国志》里面就有38种别称。历史上各种人名、地名、官名、朝代名都是有很多别称的。如何通过一键搜索把这些资源全部摘出来,这个数据库做到了。

数据库的销售目前持续增长,虽然定价较高,但公共图书馆、大学图书馆、党政机关、新闻出版单位都在使用,而且在美国、日本、德国、英国等地实现了海外销售。但是产品的最大痛点是数据量增长太慢,拼死拼活干许多年才增加到十亿字,而同类竞争产品则可以达到三十亿字、五十亿字。但这些产品很多是从网上直接拿过来。我们的数据库要解决版权,而且保证高质量,数量就不大。我经常鼓励员工,我在上升,他们在下降,当数据量达到一定程度的时候,质量优势就充分体现了。

在平台建设上,中华书局正在打造籍合网,这是国家古籍整理出版资源平台。很多文本在几千年流传过程中会出现很多差错、丢失等,留下来的往往是面目全非,要恢复全貌就要进行古籍整理。这一古籍整理工作平台的工作是在线的校勘、标点、注释、白话翻译、辑佚汇编,实现在线编辑,利用线上的优势提高效率和质量。这一平台提供一系列工具,包括自动引文核对系统,自动校对系统,自动标点系统;繁简转换系统、跨库检索系统。平台采用众筹、众包模式,通过网络联合全社会的力量,进行在线古籍整理:项目发包;接受投稿。在发布方面,将会采取古籍整理成果发布平台,包括审稿、加工、入库、发表,实现网络出版,并成为纸质出版的基础。越是大型项目,这一平台越有优势,例如“中华大藏经续编”,多达两亿字规模。如果按照中华书局正常的工作流程,需要60位编辑加工三年,日夜加班。现在利用平台,充分发挥网络的技术、自动比对等功能,从操作出来的样稿来看质量是可以的,有一定作用。

产业升级,开创古籍整理出版的3.0时代

中华书局数字出版是产业升级,开创了古籍整理出版的3.0时代。古籍整理1.0时代是从纸到纸:在纸上进行加工,再出版纸书,从古代到上世纪80-90年代都是如此。古籍整理2.0时代是从电子到纸。有了方正系统,有电脑和微软系统,可以在word上进行相关整理、激光排版,最后出成纸书。古籍整理3.0时代是线上整理和全媒体出版,大幅加快古籍整理的效率,提升文本整理的质量,古籍整理的生产能力成倍增加。不止于古籍,现当代文献也可以处理。

古籍整理3.0时代是重组古籍整理出版的产业链的过程。过去是作者整理古籍后交给出版社,再经过排版印制、发行,从而获益。现在变为作者到平台发布,从而直接获益。路程短了,这是重建产业链。3.0时代的赢利模式是接受委托、主动策划、收取制作费、策划费;还可以采取全媒体出版,如数据库、电子书、平台出版。这些方式将会彻底改变古籍整理出版的生态。

目前,中华书局准备做中华传统文化大数据中心。我们是以资源的质量求胜的企业,接下来我们要寻求如何对社会提供服务和帮助,解决痛点,获取自己的发展机会。我们能做的最大的基础工作就是构建中华传统文化大数据中心。要求涵盖中国传世古籍的主要品种,基本满足学术界和全社会对优质传统古籍的需要,三年时间完成150亿字,2万种古籍的整理工作。这里面包括整理本古籍、图像、普及读物(注译)、学术著作与期刊、工具书、音视频内容,也包括用户资源、行为资源、行业资源、授权资源等等。其中的50亿字(自有版权)要完成校勘与标点,成为可供阅读引用的标准文献。

各类的数据整理汇入后,经过文字加工和知识标引,按学科分类和语词本体进行结构整理,形成可关联、可检索的知识库。具体实现还有一些资源需要购买,可以自产,也可以与出版社和公司合作。

大数据搜集后可以做什么?可以很快形成专业主题数据库集群。在售的有中华经典古籍库和海外中医典籍数据库;在建的支持性数据库有:古籍书目数据库,善本古籍数据库、文史工具书数据库、文史学术论著数据库;人名库、地名库、事件库······在建的专题数据库有:中华大藏经数据库(正编、续编、其他佛教资源);中华传统文化普及数据库(500种,1000篇)。此外还包括可按需定制数据库:石刻文献数据库;西南联大数据库;二十四史数据库······

大数据还可以利用来搭建智能开放云平台,进行知识服务。进行标引之后,我们数据就进行知识化、结构化。“中华传统文化大数据中心”的基础是已经过深度标引的知识化结构化的数据,这是我们的核心竞争力。

有三种模式可以进行知识服务:内容API服务模式,工具API服务模式,行业报告服务模式。前两种API的模式是B-B-C,保持我们知识产权和专利的能力,通过第三方获取C端的资源。

用户需求很大,对传统文化有需求的研究院所、各级党政机关、文化企业、社会团体等都会采购。

服务形式有地域传统文化资源调研报告、专题研究报告、地域文献编纂数据集、建设数据库提供必要数据服务等。

随着全社会对传统文化的需求激增,知识服务可能是最具前景的赢利方式。

总体来讲,从古籍整理这个角度出发,依托中华书局对传统古籍的理解和所拥有的品牌,我们进行产业升级和资源再造,完成古籍与数字化的融合发展。中华传统文化大数据中心和籍合网的打造,将彻底地改变当下古籍整理出版的生态和格局和运营方式,将实现再造“线上中华书局”的梦想。

我们深知,这就是中华书局的未来,更是中华优秀传统文化和古籍整理出版的未来!

责任编辑:陈丽壮
分享到微信

分享到:

更多新闻
联系我们技术支持友情链接站点地图免责条款
主办单位:中国出版传媒股份有限公司
网站开发维护:中版集团数字传媒有限公司
Copyright 中国出版传媒股份有限公司 2015,All Rights Reserved
京ICP备16000259号-1     京公网安备 11010102002206号