传统出版数字化的关键与产业方向
编辑:佚名 来源:中国出版网 更新于:2018-3-6 阅读:
数据是当前出版业最大的资产
在这几个趋势中,我们都可以看到,无论是人工智能、共享经济、移动支付还是数字经济,都离不开大数据作为基本前提。正是这些大数据的存在,使得机器人产品、共享产品、支付体系的创新等成为可能。我们再看一个行业内的案例。2004年谷歌启动了它历史上的第一个“探月”项目,即数字图书馆计划,准备将全世界一共1.2亿种图书进行扫描,转化成为PDF格式的数字化资源。它和密歇根大学、哈佛大学、斯坦福大学、牛津大学图书馆以及纽约公共图书馆、许多其他图书馆系统都订立了合约,并且短短10年内扫描了大约2500万册图书,总共花费了近4亿美元。但是这个野心勃勃的计划失败了。因为在海量的、碎片化的、个性化的需求面前,内容资源的数字化不是关键,关键的是内容资源的数据化。数字化是把模拟数据转换成用0和1表示的二进制码,而数据化则是把现象转变为可制表分析的量化形式。一切皆可数据化,DATA的拉丁语本意是“已知”和“现实”。我们可以把一切都看成是数据存在。它们过去是默默无闻的,因为没有数字化、云计算。在云计算、互联网的条件下,它们神通广大起来。
对于出版而言,数据包括:第一,营销数据。如发行量、购买人群等,主要提供用户消费行为分析。第二,生产数据。如首印数、开本、定价等,主要是提供产品的外部基本信息。但是,还有一种最关键、最本质、最有用的数据,那就是内容本身所蕴含的全部知识数据,也就是,“内容即数据”。
就出版产业而言,近10年的发展,第一波是转企改制驱动,第二波是上市融资驱动,第三波是数据驱动。从这个意义上讲,内容不再是一种传统意义上的资源,而是一种大数据时代意义上的数据资源。传统的数字内容是单一文本、语义固定的、静态呈现的,适合整体浏览和阅读,不可自由组合,采取关键词搜索,遵循整体范式逻辑;而数据资源是开放文本、语义多元的、动态呈现的,适合碎片化和个性化需求,可以随机抽取,采取语义搜索,遵循个体范式逻辑。传统的内容是一种产品,而数据资源是一种资产;传统的内容资源是一次投入、一次消耗的,而数据资源是一次投入、循环使用的;传统的内容资源是算术级增值,而数据资源是几何级增值。
在传统时代,内容是出版业最大的资产;而大数据时代,数据是出版业最大的资产。出版业要努力做大数据资源规模,做大数据资产规模,做大数据增值规模。
中版集团正形成多种专业数据库
近年来,中国出版集团正在形成古籍、辞书、翻译、百科学术文化、音乐、美术、法律等专业数据库,同时集团资源总库的建设已拥有20多万种资源。我举几个例子:
上篇:
下篇: