数据知识产权保护论纲
数据本质上是认知媒介,是知识生产或创新的原材料。由于在促进经济发展中的作用凸显,知识在生产系统中成为关键资源,因而被视为独立生产要素。由于数字经济的发展,对数据的分析利用可以产生社会经济效益,因而需要保护价值创造者的合法利益,创制数据利用秩序,激励价值创造,我国进一步将数据认定为独立的生产要素。一般认为,数据分析可以产生洞察(insight)或知识(knowledge),碎片化的数据没有什么价值,而只有组织不同的数据、挖掘出有意义的洞见,支撑决策或智能行动时才能转化为生产力。若将数据的这种产出等同于知识,那么将数据视为生产要素无非是数据因人工智能而直接转化为知识或智慧的一种反映,是知识生产要素在人工智能时代的表述。也正是基于数据与知识或创新的这种密切联系,在寻求数据上合法利益保护方式过程中,知识产权被作为一种可选方式,受到广泛的讨论,甚至实践中还出现了数据知识产权登记的探索。
虽然知识产权并不是一个封闭的体系,是在不断发展的,但是在讨论可否将数据独立纳入知识产权体系获得保护时,仍然要遵循法律的价值和逻辑,确保这一设计符合知识产权制度的宗旨,能够创制清晰的行为准则。由于知识产权体系下本来就有权利体制(赋权模式)和责任体制(行为模式)两种保护模式,所以对于可行的保护路径选择较为清晰,但具体对于什么样的数据或具备何种条件的数据才能给予知识产权保护、应当保护数据上的何种利益、利益主体分别应当是谁等基础问题,目前还缺乏共识。当前司法实践中对侵害数据上合法权益的不当行为的制止,以及对受害者的救济可以说明,将数据权益纳入知识产权体系通过责任体制保护已是可行路径。但显然,提出和探讨“数据权益知识产权保护”问题本身旨在突破现有模式,寻求知识产权体系下赋权模式的可能性。这是一个需要从知识产权制度甚或法律基本原理出发进行探讨的新命题。
本文将数据视为认知媒介,是知识或创新的原料,并将知识创造活动称为知识生产,同时将创新看作受知识产权保护的前提或原则。尽管创新侧重于知识的应用实践,一般被理解为“基于知识的产出”,但是创新也是形成新的知识。因此,本文将创新看作生产新知识和创新性应用知识(智慧行动),并将二者等同于知识生产,在知识生产框架下探讨数据的知识产权保护路径问题。
一、智能时代知识生产方式变革下的数据与知识
数据上的权益保护,涉及“数据”和“权益”两个关键词,即在讨论将数据纳入知识产权体系保护的可行性之前,需要明确保护什么“数据”和数据上的什么“权益”这两个基本问题。
(一)数据是知识生产的出发点
数据是一个泛在的存在,是一个被广泛使用但没有甚至可能也不会有统一认知的概念,因为不同的学科或研究目的会赋予数据不同的含义。但为寻求共识,我们需要对数据本义或最基本功能有共同认知。为此,本文的基本出发点是,数据是人类认知客观世界的媒介。
客观世界是一种事实存在。人类需要借助一定的媒介,再现客观事物的存在和变化规律,才能认知客观世界。数据就是对事实对象的测量或观察记录,记录的媒介是文字、数字、声音、图形等符号。因此,数据是对客观世界中各种事物(计算语言亦称为entity or object,即实体或对象)的性质、状态、关系、现状、运动或变化的符号表达或反映。换言之,数据是人类表达某种含义、意义,描述或认知客观世界的工具或介质。
介质意义上的数据应当成为各个学科或领域讨论数据的共识或出发点,这也是数据纳入法律规范的出发点。在这方面,存在人类认知或知识结构的经典表达,即“数据-信息-知识-智慧”结构(英文首字母缩写为DIKW)。其含义是:“智慧源于知识,知识源于信息,信息源于数据。”在DIKW结构下,数据是人们依赖文字、数字、语音、图像等来表达客观世界、认知客观对象的符号表示;当这些符号与特定场景、目的相结合,反映、表达某种有意义的事物时,数据亦被称为信息(信息被认为是有意义的数据);进一步地,当人们利用数据表达关于特定场景或条件的客观世界的变化或发展规律时,信息又成为知识要素。知识是人类借助数据(信息)表达的认知或判断,是特定时间或条件下对客观对象或事实发展或变化规律的总结。比如,经过长时间观察,人们得出结论,地球存在自转、太阳从东方升起等。
(二)智能时代数据价值的转变
通过数据认知行为对象和客观世界是人类自古至今不变的规律,因而数据的价值在于认知价值。人类利用数据认知客观对象,总结其性质、特征和运动(变化)规律,形成各种知识。知识被传播、消化吸收后,可以转化为人的判断决策或智慧行动,进而转化为社会生产力。人类基于数据不断生产新知识或创新性应用知识,不断创造社会价值。这种社会价值可能是经济价值(企业运营降本增效),也可能是人类健康改善(如治疗某疾病新药的发现),或者其他社会福利的直接或间接改进。可以说,人类社会不断依赖数据获取知识,不断进步,提升改造世界的能力。
在计算机技术(数字技术)出现之后,人类依赖二进制数字(其值为1或0)存储和呈现客观世界及变化。数字技术同质化了信息的载体,不论是文字、数字、语音、图像等符号表示,还是利用这些符号表达的事实和认知(知识),在计算机语言中,数据、信息和知识在呈现形式上并没有什么区别,都可以通过0和1的形式呈现和处理。数字技术不仅改变了人类记录客观事实的速度、维度和广度,还具有自动采集、处理和分析数据的功能。尤其是在万物互联的泛在网络环境下,一切数据均可与描述对象(实体)关联。基于数据与客观世界不同程度的勾连,可以将数据提取、组织、汇集成数据集进行分析使用,借助数据与数据之间的关联分析可以挖掘数据背后的客观世界规律,预测其未来行动。算法和算力的革命性改进使信息系统具有处理大数据的能力,人类由此进入机器生产和分析数据而产出知识或信息的新时代。由此,数据认知价值演变为计算价值。计算价值是机器智能背景下数据认知价值的体现。这样,数据成为人工智能的原料、生产知识的原料,数据的认知价值演变为人工智能的原材料价值。其具体体现为:利用数据训练模型或喂养机器学习,形成机器智能,并利用机器智能分析实际场景中的数据,解决具体业务问题或作出预测(辅助人类决策),甚至让机器智能面对真实环境,作出智慧行动(替代或部分替代人类行动)。“大数据+机器学习”形成了与人类智能不同的智能,使人类利用数据认知客观世界和改造客观世界的能力发生巨大变革。AI技术仍然在发展,目前在模仿人类的思维模式(推理和感知)方面已经取得显著进步,今后还会有更强的甚或独立思维能力——与人类不同的新思维。因此,我们正在进入人工智能与人类智能相互补充、人类智慧和机器智能相互补充的智能时代。
在机器智能情形下,数据获取、整合、高效处理或分析来源于不同主体或系统的异构数据,形成可用(可计算)的数据资源成为最为关键的设施和能力。机器智能需要源源不断的数据原材料,而且样本越多、越丰富,得出的结论就越精准。如何数据化地再现物理世界和人类行为就成为一种重要的生产性劳动,数据的生产、治理、整合和分析会成为一种产业,一种产生智能和知识的产业。人类智能劳动的重要性在于人工智能的算法本身来源于人的能力和经验,算力和算法都需要行业知识加以补充。在人类创造知识的时代,数据生产、治理和整合劳动被忽略,因为它是知识生产的一部分或者被知识生产活动所吸收,通过给予知识生产者以知识产权保护,给予了足够的激励。此时,数据被置于公共领域,或者奉行一旦公开即可自由使用的事实利用原则。但机器智能出现后,需要建立数据获取和使用规范,将人类制度延伸至数据,构建数据重用或社会化利用秩序。
(三)知识生产的二阶段划分
数据是任何以数字或者其他方式对客观世界状态和变化的记录,属于客观世界或客观对象的映射。这样的数据“即指行为、事实或信息的任何数字表示或它们的任何汇编”。知识则是对客观世界认知(数据分析)的结果。虽然数据和知识具有相同的表示形式,但是在社会意义或效果上有所不同。为使数据处理(使用)行为纳入法律规范,我们将数字化表达(计算机处理的数据)简化为数据和知识。
人类一直利用数据获取知识。在这一过程中,数据被视为知识形成的素材或资料。数据与知识创造天然地联系在一起。利用数据作出科学的决策,不仅体现在日常行动之中,也体现于科学研究或产品研发之中。基于数据的决策已经贯彻到从避免拥堵的快捷出行,到精准产品定位和市场,再到政府治理的科学决策等几乎社会运营和个体活动的所有领域。在科学研究领域,21世纪初,技术精英已经宣布科学研究进入数据密集型研究时代,并将数据密集的科学发现作为第四范式。
知识是人类在一定阶段对客观世界的认知成果,反映人类对客观世界的规律总结和思想表达。又因为人类认知是不断累积和验证的,所以知识是可以不断被修正或更新甚或推翻的。在这样的语境下,数据(资料)就是事实。所谓事实,就是以符号或数字形式对认知对象的存在和变化状况的描述或记录。人们获取数据的能力受到各种限制,因而人们得到的结论才会因为新事实的发现而被修正甚至推翻。严格地说,只有真实数据才是事实。记录越全面、真实和完整,数据就越逼近事实。将数据等同于事实,是在承认人类认知能力相对性前提下的结论,并不妨碍对数据在知识生产过程中的定位。在人类认知长河中,人类的创新或知识进步来源于对真实、全面、完整的数据的获取,数据远比知识(结论)更重要。
大数据之所以开启人类社会的认知革命,就是因为数据分析不再进行抽样,而是全样本,降低了分析误差;其分析方法也不再是其他假设的验证,而是相关性分析,通过算法找出变量之间的相关度。大数据的核心就在于它能更充分地挖掘数据的全部真实含义。但是,大数据认知不是人类直接完成的,而是由机器(算法系统或智能工具)完成的,而智能算法又是数据训练出来的。这实际上改变了人类智能为主的知识生产方式。在这种新的知识生产方式中,数据的作用不再仅为分析对象,而成为智能工具的生产的原料,智能工具成为挖掘数据价值、产出分析结论(知识)的工具(甚或主体)。这也就是说,以机器学习或智能算法主导的知识生产将知识创造过程划分为两个阶段:生产智能工具的阶段和利用知识工具生产知识的阶段。伴随这一过程,数据在知识创造中就有了双重作用:作为智能工具生产的原料,以及作为知识生产的对象。这样,数据具有了知识生产资料性质。
在笔者看来,数据作为“生产要素”是对数据成为知识的生产资料现象的概括。这再次凸显数据在推动人类认知进步或知识生产中的作用。人类社会进步与发展不仅建立在对真实、全面、完整的数据获取和汇集利用上,而且建立在快速高效、低成本获取高质量的足够规模的数据上。但是,由于数据分散产生于各主体、各系统之中,且存在多源异构性,数据汇集利用不仅存在激励或产权难题(获取或流通障碍),而且还存在重用难题(自动化汇集或关联障碍)。这需要新的制度供给,解决数据分享或流通的激励与标准化数据治理问题。正是在这样的背景下,出现数据利益保护制度的需求,以实现高质量数据的社会化配置与利用。
需要注意的是,上述作为生产要素的数据,指代的是事实范畴的原始数据而非基于数据的产出——知识。尽管对外分享或交换的数据需要重用治理(curation),但是重用治理主要作用在于解决数据多源异构问题,使脱离原系统和场景的数据可以被另一个主体应用于另一种场景和另一种系统之中。在技术上,这被解释为实现数据的互操作性,以使数据可以自动汇集、匹配、关联,从而形成可计算分析使用的数据资源。数据治理不改变数据形态(比如,成人可视读的信息或知识),而是保持数据的原始性。这里的原始性强调的是数据与其表示或描述的客观世界(对象)的联系程度,联系越直接和紧密(如对于个人数据来讲,表现为能够关联或识别特定个人),那么数据就越原始。这样的原始性反映了数据的真实性。只有原始数据才能用于分析、生产知识。一旦拥有足够多的原始数据,数据价值或效用就越大,就可以产出无限接近于事实的分析结论(知识)。在这个意义上,治理后的数据越原始,越有价值。
这样,知识生产就被区分为数据生产(data production)和知识生产(knowledge production)两个连续的过程,作为生产要素的数据与利用数据产出的知识虽相互联系但又完全不同。数据代表事实,其价值在于分析价值。伴随数据智能应用,产生了利用智能工具的新知识生产方式,在这种生产方式中数据具有生产资料的性质,具有产生智能工具和分析对象的双重价值。知识代表对客观世界的认知结果,体现为内容价值,主要作用在于给予人以启迪或享受,辅助人类决策。数据的分析价值体现在数据与其他数据或更多数据的关联分析上,不结合不产生价值,结合或关联分析多少次产生多少价值;知识内容价值相对固定,不因使用次数而改变,但消费人数越多,其效用(价值外溢性)就越大。
因此,尽管数字化同质化了数据与知识的表示形式,但二者的社会价值和效果并不完全相同,在其上权益保护方面,需要分别对待。寻求知识产权体系下的数据赋权保护,必须直面知识产权价值定位,寻求其正当基础和可行路径。
二、知识产权体制下数据赋权困境
区分数据生产和知识生产是为了促进高质量的知识生产,并不否定知识来源于数据,因而数据生产者也是基于数据的创新成果(知识创新)的贡献者,具有寻求知识产权保护诉求。但是,知识产权制度有其本身的价值和逻辑,将赋权保护模式延伸到数据,不仅可能背离知识产权的目标,而且也并不可行。
(一)知识产权体系中的价值平衡
为激励创新、促进科学文化艺术的进步,人类社会发明了知识产权制度,用来保护创新成果。广义地理解,知识产权制度是保护创新的一套体制和机制,它依赖事先赋权模式,激励创新成果的生产(创造)和使用(包括转让和许可实现的社会化利用);同时依赖事后救济,扼制不正当竞争行为,保护难以权利化的创新成果的正当商业利益。任何创新都离不开对前人创新成果(知识)的继承和学习,所以该制度下的创新激励依赖平衡的安排,一方面要给创新者以激励;另一方面还要给社会公众学习和模仿留下一定空间,以实现不断创新和进步。这决定了赋权模式既有门槛,也有限制。
知识产权体系下,并不是所有的创新都可以赋予专有权。专有权权利客体要求创新知识范围可界定,可以通过某种形式表示(可传播或可学习),具有固定或稳定价值(有必要设置专有权),且专有权权利范围仅限于创新成果中的创新部分。这是因为赋权意味着遵循排他性支配权(绝对权)原理,给权利人以自由和非权利人以不自由,就要求制度设计中界定和公示专有权控制的边界,为社会创制明确的行为规范和预期。典型的三类知识产权(著作权、专利权和商标权)坚持传统排他性支配权原理,通过明确的专有权客体范围的公示机制,努力划定专有权人的自由和非权利人不自由的边界。虽然在许多情形下这种边界存在模糊性或可争辩性,但是在形式上这条边界是清晰的。
对于创新(尤其在应用创新)中基于数据分析作出智慧商业决策或行为、研发出的快销品或容易模仿的新商业方法等,创新者往往能够在市场中寻得先机或提前布局,取得竞争优势,所以一般不采取赋予专有权模式,而通过制止不正当竞争行为,来保护竞争优势(保护商业创新)。因为即使存在需要保护的创新,但因无法通过一定形式彰显创新内容,清晰界定权利边界,不满足设置专有权的条件或者不需要借助公共管理资源确认和保护。
即使满足专有权赋权体系的创新成果,仍然存在许多例外。一方面,这意味着排除了事实发现或事实作品。不能仅仅因为最先发现、记录了客观存在的现象,以数字形式表达某种事实,就寻求对这种记录或表达的保护。在专利法中,科学发现、动物和植物品种等不被授予专利权。在著作权法中,“单纯事实消息”排除在保护范围(作品)外。另一方面,知识产权只保护创新部分的知识,而排除了任何已经公开进入公知领域的知识(包括进入公有领域的技术发明和作品)。例如,常识性知识(历法、通用数表、通用表格和公式)也不在著作权保护范畴。在限定专有权客体的同时,知识产权法还通过公开机制、权利限制、司法救济的利益平衡等实现创新者权利保护和社会公众利益的保护。为了鼓励继续创新,知识产权的专有权获得以公开创新知识内容为前提条件,这在专利法中是通过权威专利审查技术公开机制实现的,在著作权法中也规定了作品出版或公开后权利用尽原则。
总体上,知识产权刻意将知识内容裸露于保护范围或专有权控制范围之外,所有的创新成果都是基于前人知识的进一步创新,实现了受到保护的部分仅限于创新者“创造”或“创新”部分,获得与激励相当的专有权(行使期限和权利限制)。此外,对于创新部分的专有权仅限于商业化实施行为的控制,而且技术内容或作品内容会公之于众,供社会公众学习和进一步创新。因此,基于此种理念,知识产权无法将赋权体制延伸到事实的数字化表示——数据。
(二)基于数据性质的知识产权赋权困境
如前所述,知识产权制度下,事实、知识和受保护知识(创新部分)是有明确区分的:事实是一种客观存在,受保护的知识(智力成果)被认为是与之前知识相比具有创新性的认知(在专利权中还存在实用性要求),而知识产权只对基于利用数据(事实)或先前的知识(基于事实的规律总结)而产出的创新成果(可实施、产生商业价值的知识)赋予一定限度的财产权。数据的分析价值体现在数据与其他数据或更多数据的关联分析上,不结合不产生价值,结合或关联分析多少次产生多少价值;知识内容价值相对固定,不因使用次数而改变,但消费人数越多,其效用(价值外溢性)就越大。治理的数据本身不是创新的成果(虽然数据治理的手段可能存在创新),而是保持原始(接近事实)的状态,因此不存在寻求配置知识产权的可能性;对数据分析(无论是否采取智能工具)存在创新,不同规模的数据或不同质量的数据均会导致新发现(新知),而这些新知则依创新程度不同,存在寻求赋予知识产权的可能性。
此外,如果将赋权机制延伸到产生知识的、事实表示性质的数据,那么通过客体边界确定权利边界的机制就丧失基础。其主要原因是基于数据本身的性质特征,因为我们无法通过控制(类似物权法的占有)来彰显其控制(权利)边界。一方面,数据不存在独立的价值,数据是在不断流动和结合之中实现其价值的,数据价值实现依赖流动或分享,每一次结合或使用都形成新的数据,控制与使用(价值实现)无直接关系;另一方面,即使存在持续控制,因数据是持续产生和变化的,控制与特定数据并不能形成稳定支配关系,控制不能彰显权利。毕竟数据来源是开放的,每个主体都可以获取和控制相同或相似的数据,特定主体与特定数据之间无法通过控制形成排他性的支配关系、产生排他性支配权。也就是说,单纯控制并不能推定有合法的数据使用权。所以,数据本身的特征决定了它不适合纳入排他支配权体系、通过赋权机制实现其社会化利用。WIPO总干事Francis Gurry在2019年接受采访时表示,“不认为会有新的可登记的数据产权”。“事实不受保护,知识应当公开”是目前知识产权的制度假设。
所以,从知识产权制度的基础理论来看,该制度定位于对创新智能成果的保护,因而没有触及支撑创造性劳动的数据生产部分,甚至将数据利用置于保护之外,难以直接对数据赋权。这样的制度安排并不利于人工智能的研发和应用,无法应对机器智能需要高效率、低成本、合法地获取和汇集大规模数据的需求。由于产权制度(包括知识产权)被认为是最能够有效激励价值创造或生产活动、通过市场交换实现资源社会化利用的制度,人们自然地求助于产权来构建数据资源的生产和流通利用秩序,以高效的数据供给,满足智能或知识生产的需求。这意味着,数据赋权问题并不是数据上的权益保护问题,而是解决数据资源的社会化利用、促进知识生产的问题。
三、数据社会化利用的实现机制
在知识产权框架下,赋予数据专有权存在障碍,而新的知识生产方式迫切需要创制数据资源利用秩序——数据资源生产和流通利用秩序。公开即可自由使用的体制下,爬虫成为获取数据的主要方式,导致重复数据生产和治理劳动。这不仅使数据利用呈现无序和混乱状态,而且导致社会资源的浪费。在否定基于产权的数据利用机制的同时,如何实现数据高效率低成本的社会化利用成为亟待解决的问题。实践中,通常将数据集作为治理的原始数据基本单元,那么数据的社会化利用需要解决的问题是,数据集持有者如何实现数据流通。
(一)传统产权登记制度与数据性质不符
国家知识产权局正在加快探索数据知识产权保护规则,鼓励满足依法依规获取,经过一定规则处理,并具有实用价值的数据集合三个条件的就提出登记申请,经登记后数据权利人拥有对所登记数据的持有、使用、交易和收益等权利。该数据知识产权登记证书可作为数据的权属证明。我国已经在北京、上海、江苏、浙江、福建、山东、广东等省市开展了试点工作,上线数据知识产权登记平台,已累计向经营主体颁发数据知识产权登记证书超过2000份。部分省市还发布了知识产权登记办法。关于数据知识产权的登记对象,《北京市数据知识产权登记管理办法(试行)》规定,数据持有者或者数据处理者依据法律法规规定或者合同约定收集,经过一定规则或算法处理的、具有商业价值及智力成果属性的处于未公开状态的数据集合。《江苏省数据知识产权登记管理办法(试行)》规定,“依法获取的,经过一定规则或算法加工处理,具有实用价值和智力成果属性的数据”。《浙江省数据知识产权登记办法(试行)》规定依法依规处理数据的单位或个人均可申请登记,登记后,登记证书可以作为持有相应数据的初步证明,用于数据流通交易、收益分配和权益保护。深圳则发布实施《深圳市数据产权登记管理暂行办法》,明确可以对数据资源和数据产品进行登记,还搭建了国内首个数据知识产权登记系统。显然,所有这些探索旨在通过登记公示制度明确数据或数据集的归属,以作为数据交易、质押融资、数据资产入表等的依据。
数据产权登记障碍并不在于数据集的权利没有上位法支撑,而在于数据本身并不是形态和价值稳定的资源,根本无法纳入产权登记体系。产权登记适合于形态和价值相对固定的资源,在持有者与资源之间可以形成唯一控制(支配)关系,且持有者可以自主决定其“命运”,登记只是公示这样唯一的支配关系,使外人可识别、可判断或核查。但数据恰恰是特定时间的生成或应用场景存在,数据的价值在于使用(融合或关联计算),每一次使用都生成新的数据(集),产生新的价值。同时,数据获取和控制并不能完全消灭数据上存在的其他主体的合法利益(如个人权益、企业合法利益等),持有者是否有权又是一个依赖场景而动态判断的事情。因此,通过登记而一劳永逸地解决数据权属问题并不现实。即使可行,对于不断流转使用、转换控制或形态的数据,亦没有必要引入。因为在数据来源和合规性无法审核的情形下,登记并不能够确保登记数据的合法性、确保交易安全,反而徒增交易成本。因此,通过登记确权来“倒逼”社会接受存在可公示的产权的做法值得商榷。
产权问题本质上是解决流通交易中对交易标的的信任问题。借助占有推定或登记公示规则,传统产权体制简化了交易相对人对处分者是否享有完整产权的判断,法律对于一切善意信赖公示的主体加以保护,能较好解决交易安全问题。也就是说,通过对合法产权的信赖确保交易安全。在缺失可公示产权的情形下,数据集流通仍然要解决交易相对人对持有者数据集的信任问题。
(二)数据社会化利用的国际实践
从数据集形成机制来看,数据集形成和使用大致分为两类场景:一是伴随着各种研发和研究项目形成产生的数据集;二是各种组织运行和社会主体活动实时产生的数据,经汇集治理形成的数据集。所有的科研均建立在数据采集基础上,在其项目或成果完成后,可以将支撑研究的数据整理成可重用数据集(称为科研数据)。科研数据相对固定且质量有保障,一旦建立相应的制度及治理、归集和发布规则,就可以形成可重用科研数据资源,支撑科研数据的流通利用。组织运行和社会主体活动实时产生的数据,需要预处理并汇集形成可持续供给的数据流,才能支撑组织智能决策,一旦有统一数据治理标准、风险控制和利益分配机制,那么每个数据使用者和专门数据集成商均可对外提供可重用数据集,形成可社会化利用的数据资源。在这两个方面,国际社会一直在探索可行的解决方案。
科学研究是一种遵循学术规范的认知活动。在科研数据的分享利用方面,现在有许多学术机构或行业协会致力于数据集发布(伴随学术论文的数据集出版或单纯数据集发布),甚至存在在线的数据出版刊物。研究数据联盟(RDA)开发和形成数据基础设施解决方案,发布了系列技术规范,以实现数据共享、交换和互操作性。美国经济协会在2005年发布政策,要求在研究论文的同时公布数据。如今,经济学和社会科学领域的大多数顶级学术期刊都要求公布数据。甚至一些NGO组织对研究项目数据也有类似要求。谷歌公司专门开发了数据集发布语言(DSPL),规范数据集的元数据和实际数据(数字)的表示格式,所描述的数据集可以导入谷歌公共数据浏览器,形成允许对数据进行丰富、可视化探索的工具。2016年,Mark D.Wilkinson等人提出科学数据管理的FAIR原则,以指引所有的数据治理实现可查找性、可访问性、互操作性和重用性。欧盟专门成立FAIR数据专家组,该专家组2018年发布了《将FAIR原则变为现实》研究报告。报告从研究文化和技术两个方面提出了全面实施FAIR原则的27项具体的建议,号召成员国通过调整其与FAIR数据和开放科学相关的政策与投资来支持这一运动。之后欧盟推出《地平线2020欧洲开放科学云项目》,建立欧洲开放科学云(EOSC)作为基础设施支持该政策落地,为跨国界科学学科研究数据的存储、管理、分析和重复使用提供开放无缝的服务。可见在科研数据治理、发布、分享等方面,国际社会日渐形成共识。
自21世纪初起,国际社会尝试通过开放数据(open data)、数据分享(data sharing)、数据市场(data marketplace)实现社会经济数据社会化利用。面对数据本身公共性和个体控制使用的难题,可信数据一开始就被认为是良好的商业智能的关键。2011年有行业专家认为,可信数据市场可以解决市场主体之间关于数据质量相关的信任问题,并提出治理信任、规范信任和关系信任的信息框架。2016年10月,麻省理工学院出版了《可信数据:身份和数据分享的新框架》,提出稳健的数字身份、普及访问、分布式网络信任机构、分布式的安全计算等方面的解决方案。欧盟地平线设立“可信安全数据分享空间”项目,在总结德国IDS和奥地利DMA数据市场项目基础上,研发安全可信和合规的数据分享平台,为构建欧盟数据空间、实现数据战略提供政策和制度指引。世界经济论坛也将信息看作国际间数据自由流动的基础,并于2020年发布《以信任促数据自由流动(DFFT):通往自由和可信数据流的途径》白皮书,倡导国际社会数据信任机制的形成。目前,欧盟正在实施“欧洲共同数据空间”战略,并提出9大数据空间规划。“数据空间”是指在一个或多个垂直生态系统内遵守相同的数据存储和分享高级别标准及指导方针的可信合作伙伴之间的一种数据关系(data relationship)。这些规则充分尊重数据自主权(包括是否决定数据提供),支持在有偿或无偿条件下重用数据。安全、信任、治理和尊重数据自主权是合作伙伴性的数据空间建设基本原则。
(三)可信数据流通框架的构建
数据集流通过程中的信任问题主要可归结为两个方面:其一,持有者的数据集是否可用或好用(尤其是否适合其目的);其二,数据集流通是否合法(持有者提供和接受者使用是否合法)。由于数据集并非大众消费品或者标准化产品,需求者往往属于同行或者需要相应行业知识,所以其信赖范围存在领域或行业限制。同时,由于数据上并存各种合法利益且涉及众多管制性规范,数据的合法持有并不等于合法使用,提供者或接受者是否可合法使用数据(享有数据使用权)也要依赖具体场景才能判断,因此不存在适用各种场景的合法性判断规则。数据天然地存在不确定风险,需要流通交易双方合力控制,再加上数据集使用本身一般不能脱离数字环境,因而数据流通应当在受控系统环境下开展,以使数据来源、流动和使用过程可以被监督和审计。也就是说,数据流通并非借助公开市场,而是在特定行业的特定环境下实现,因而不需要借助传统产权机制,而是通过有组织的可控制的流通利用环境来实现。简言之,只有建立与数据特征适配的制度规则和组织机制,才可以解决传统产权要解决的问题。
综合来看,虽然数据是当今社会重要资源,但它本质上仍然是认知媒介,具有强烈的社会性、基础性和公共性。经治理的数据集可以并且需要分享和交换,以最大化实现数据社会价值,但是很难适用传统的产权机制,需要在信赖和合作关系中,在受控环境或结构性市场关系中实现数据社会化配置与利用。国际社会在科学数据和其他社会经济大数据的社会化利用方面所提出的解决方案中,虽然仍然坚持尊重数据(集)持有者的权利,但不是通过事先清晰界定和赋予权利、以产权交换来实现利益和风险分配,而是通过建立共同规则,协同或共同治理控制和防范风险,从而实现数据使用权交换和利用分享。而为了实现数据社会化配置和利用,仍然需要解决用来交换的数据集在哪里、由谁持有、是否可信等信任问题,但不是依赖传统产权登记制度来实现,而是需要建立一致的数据标准,为每个可分享数据集配置唯一标识符,通过可检索数据网络,使数据集可发现、可检索、可互操作来实现高效的社会化配置。因此,单纯数据集的流通或交换并不需要配置新产权,关键是打造和形成信任机制。为推动可信流通基础设施建设,全国信息技术标准化技术委员会大数据标准工作组已经开始着手制定《可信数据流通参考架构》国家标准制定工作,数据流通架构以主体可信、流通数据可信与流通过程可信为基本逻辑构建,希望能够为我国商业或非商业性质数据流通提供可信数据流通框架,构建中国可信数据流通的解决方案。
四、数据知识产权权益保护的框架
在数据驱动创新和发展的背景下,如何激励基于数据的知识创新和创新应用成为关键的基础制度。不管数据如何被使用,数据使用的结果导致创新,仍然存在创新成果的归属和利益分享问题。在数据生产、流通和使用环节,我们很难借助赋权(专有权)实现对数据上的利益保护,但是一旦使用数据产生了创新成果,创新成果的商业化应用可以产生经济利益,仍然需要界定创新成果控制和利益归属问题。这本质上是数据知识产权保护问题。
新的知识生产或创新方式主要特点是多种来源汇集而成的数据被作为生产资料,经过多环节社会分工协作完成知识生产或创新应用。数据知识产权保护问题就演变为界定创新成果的参与者并在参与者之间分配知识产权权益的问题。为此,笔者提出两方面思考,以作为今后进一步研究的方向。
其一,区分创新者和创新参与者,实行创新者配权,而参与者分利。新的知识生产方式是社会大协作的结果。在这样的链条中,大致可以分为来源者、数据使用者(数据加工使用者)和数据产品消费者。其中,来源者是数据描述或映射的对象,是数据分析利用可能涉及的主体;数据使用者是加工使用数据、产出知识或创新成果的主体,可以称为知识生产者,生产出的产品可以称为数据产品;数据产品消费者是使用智能工具获得知识产品或服务的主体,可能作为来源者再次参与到知识生产过程中,或者作为数据使用者利用智能工具进行知识再生产。在这三类主体之间,数据使用者属于知识的生产者,最为复杂,可以进一步区分为:A.初始数据采集者(形成未处理的数据);B.数据预处理者(产出可用数据集);C.数据汇集者(产出结构化或关联分析的数据资源);D.挖掘分析者(产出AI算法或智能工具);E.智能工具的使用者(分析场景数据,产出知识或智慧行动)。显然,在这样参与主体众多的复杂情形下,我们无法完全采取赋权模式,进而通过产权交易(转让许可)的方式来实现利益分配。来源者、使用者和消费者三类角色中,笔者倾向于将使用者定位于知识的生产者,希望借助于经济学原理,解决他们之间对最终产出的权益配置问题(具体见下文),而来源者和消费者则间接地参与到知识生产过程中,既无法从事实上界定贡献,也无法对最终成果进行控制,只能依赖利益分享机制保护其权益。类似于ChatGPT等大模型智能工具,无疑包含着分散于世界各地的网络用户的默默贡献。来源于用户和最终知识的消费者的数据被多少主体收集、收集了多少通常难以计算;即使所使用数据的关联主体是确定的,使用量也是确定的,但是这些数据在最终的知识产出甚或应用中创造了多少价值也依然存在较大的不确定性。在存在数据范围不确定、贡献不确定、价值难计量的情形下,来源者和消费者直接分享产出的价值(利益)的可能性就很小。只能采取数据默认可收集使用原则,依赖使用者依据情况实施利益分享或补偿机制来实现数据源或互动反馈者的贡献。当然,我们也不能排除范围确定、价值可计量的情形,此时来源者可以向使用者索取明确比例或可估值的回报。
其二,依据创新客体可界性,区分专有权保护和法益保护。即使不考虑数据来源者和最终消费者,基于数据的知识生产亦非常复杂。它可以区分为数据的生产和知识的生产,其中知识的生产又分为两个过程:先是利用数据训练模型或学习,形成AI算法模型;然后再利用算法模型分析数据产出知识或者智慧行动。在上述五类知识生产主体中,A、B和C是数据的生产者,而D和E则是知识的生产者,其中D是算法的生产者,而E则基于算法采取某种决策或智慧行动。在这两个阶段中,为了实现A、B和C之间的数据流通,我们需要将数据视为产品(data as a product),通过某种治理机制实现数据流通或分享,最终结果是形成规模或范围相对固定的可用数据资源,通常称为集成数据(可以是物理集中,也可以是逻辑集中)。集成数据生产者C可以控制数据流通,提供给D用于训练模型、机器学习或进行其他分析,而D可以将产出算法模型提供给E使用,E可以利用算法模型在特定数据环境下产出知识或实施智慧行动。我们需要集成数据持有者对集成数据的控制者权,构建数据生产者与知识生产者之间的数据流通。知识生产者产出两种产品,即模型和洞察(可能是有价值信息、预测或分析报告等)。这两种知识产品(又称为数据产品),形态相对稳定,价值固定且可评价,可以在专有权体系下考虑其保护体制。当然,E还可以利用模型支撑智慧决策或智能行动,只是无法产品化再次许可他人使用,因而只能在竞争法体系下,寻求创新利益保护。至于知识生产者与数据集或集成数据供给者(或持有者)如何分享知识产品的商业利益,则取决于双方之间的契约或数据分享平台(或数据空间运营者)的制度安排。
五、结论
上述对数据生产到知识生产的简单勾勒表明,在数据智能驱动的新知识生产时代,知识生产和创新成为产业化活动,是社会分工大协作的结果。在这一过程中既有全社会不特定公众(网络用户)的贡献,也有主导这一过程的数据生产者和知识生产者的贡献。虽然数据的生产和流通汇集在知识生产中占有非常重要的地位(公认属于基础设施),但是只有在产出形态和价值相对固定的知识产品后,其在社会经济中的应用价值才成为可测量和估值的产品,也只有在这个阶段,才具有寻求在赋权模式下保护数据产品(知识成果)知识产权的可能性。赋予数据产品(持有者)稳定专有权,既是让其可以开启知识(产权)交易或服务、实现其价值,同时也使其可以向数据供给者支付对价或分配收益。至于为了实现数据社会化配置和利用,各数据生产者(A、B和C)赋予其怎样的权利并不重要,因为界分清晰产权既无可能,也无必要。数据流通(可重用数据汇集)是通过建构市场化和非市场化制度安全实现的。在这个阶段,我们可以说这些为知识生产者生产和提供数据的主体也享有知识产权利益,但这种利益很难形成稳定的权利以主张自己利益,因而意义不大。真正可以和应当受知识产权权益保护的还包括那些利用数据智能,在商业竞争中作出智慧决策或智能行动的组织,对源自数据智能而产生的竞争优势,应当给予保护,防止他人不当窃取或不当使用其数据资源或者决策信息。
知识产权制度诞生于工业革命早期,成熟于现代工商业的不断发展中。其运作的一个重要基础是事实数据的自由流动和利用、知识公开和传播,并在此基础上建立了激励个体(个人和组织)利用不受控的数据和知识不断创新的制度,形成赋权(专有权)体制和法益保护双轨保护体制。进入数据智能驱动创新时代后,规模化低成本快速地获取和利用数据成为知识生产或创新的关键,但若为此试图在数据生产和供给阶段就引入产权制度,可能会减缓创新的步伐,至少因为过高的交易成本和风险让创新者望而却步。实质上,我们已经越过单个组织开放创新走向全社会协同和社会分工协作创新阶段。在这种情形下,我们仍然应坚持数据是社会可用资源,开放和分享仍然是数据价值最大化主基调。也就是说,知识创新已经进入各种数据生态系统中的创新。未来企业和国家的竞争力可能更多地建立在各种合作、共享、协调的数据分享利用生态上。在这个意义上,基础设施、数据权益保护、对创新者知识产权保护、各参与主体利益分配机制成为数据驱动创新的四大要素。为此,我们需要在坚持知识产权基本原则下,发展适配新知识生产方式的知识产权保护制度和体系。
作者:网络