作者:金茂律师事务所 金文玮 律师
“如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。”——艾伦·图灵
2023年1月30日(差两天就是二月份了),哥伦比亚法官胡安·曼努埃尔·帕迪利亚·加西亚(是一个法官,不是四个)宣称在判决时采纳了Chat GPT的答复,引发了今年第一轮人工智能热议;而Open AI公布GPT4.0以前10%的成绩通过律师资格考试也不过才刚刚是三月上旬 ;3月31日,意大利宣布禁止Chat GPT使用;2023年4月11日,国家网信办发布了《生成式人工智能服务管理办法(征求意见稿)》,意见反馈截止时间为2023年5月10日。
在笔者从1999年开始上网的记忆中,IT界似乎还从来没有哪次事件可以与今年开始的人工智能热潮相提并论——哪怕针对windows2000的“冲击波”病毒和乔布斯第一次的iPhone发布会都不能与之相比。短短两个多月的时间内,从开发者到从业者,从打工人到政府监管部门,甚至中小学的班会都变成了这波热潮中的一份子。
GPT4.0的出现第一次让现实中的人工智能具备了通过图灵测试的可能(或者说其实已经通过了),法律层面该如何面对这波浪潮带来的冲击,尤其是在还不清楚这波冲击到底会有多深多广的情况下?
美国监管对新技术的态度一贯是“让子弹再飞一会儿”,欧洲的监管态度则是“脏水和孩子一起倒掉,再关上门”,而中国的态度更像是“先上列车,然后补票”——目前能想到的规则先执行起来,在情况不至于太失控的前提下鼓励技术成长,哪怕规定还存在着这里或者哪里的问题,但总比什么规定都没有强——这就是我对《生成式人工智能服务管理办法(征求意见稿)》(以下简称“意见稿”)的整体感觉。
一、给Chat GPT这类人工智能下个中文定义
“意见稿”提出了一个新的概念:“生成式人工智能”,从国内立法层面为Chat GPT这类人工智能产品起了个中文式样的名称,并且在第二条给出了定义:
生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。
坦率讲,“意见稿”的定义有点粗糙,其中“算法、模型、规则”这些词语本身就需要被定义。但是Chat GPT这类人工智能产品本身还在不断演化,要用抽象的语言去定义,就仿佛要用直角三角尺去仗量一团还在流淌的岩浆。对从业者而言,“算法、模型、规则”这些是计算机领域的术语而不是普通的词语,如果一定要强加“数据的算法,分析的模型”这种定语限制,反而可能会导致因为定义过窄而带来监管上的困境。
二、先管住人工智能服务的提供者
“意见稿”共二十一条,2218个字,最后一条附则讲办法何时开始实施(附则直接写明2023年某月某日开始实施,而且征求意见时间只有一个月,看来是铁了心今年必须出台的),所以只有二十条有具体的内容。
其中第一条至第四条,属于总则性质的内容,共621字。第一条规定上位法依据,第二条规定人工智能定义,第三条规定国家支持原则,第四条规定人工智能生成内容的基本底线。
从第五条开始至第十九条,统统是关于“人工智能服务提供者”的规范,第二十条是“人工智能服务提供者”违反办法的罚则——“意见稿”几乎通篇规定都在讲如何规范“人工智能服务提供者”(第五条至第二十条共1580字,占全部内容的71.24%)。在产品可能千差万别的情况下,中国监管者的思路是先管住服务提供者。
第五条至第二十条值得注意的内容有以下几点:
1. 人工智能服务提供者对生成内容承担“生产者”责任
第五条先给人工智能服务提供者下了个定义,然后规定人工智能服务提供者对其产品生成的内容承担生产者责任,如果涉及个人信息的,承担信息处理者责任。
这条规定同样略显粗糙,“生成内容生产者”又是一个需要被定义的词语,“生成内容生产者”所承担的责任是参照《产品质量法》《消费者权益保护法》的生产者责任?还是仅仅用以区别于“生成内容使用者”?但是“意见稿”中既没有“生成内容使用者”应承担义务的规定,甚至也没有“生成内容生产者”的责任到底包含哪些内容的规定。
但既然“意见稿”已经提到了“生成内容生产者责任”这个概念,今后规定的趋势肯定是进一步细化生产者责任的内容,或者进一步增加“生成内容使用者责任”的内容,而不会取消这个概念。
2. 人工智能服务提供者的安全评估与报备义务
可以说“安全评估与报备”已经成为中国监管新兴网络产品的基本操作路径了——《区块链信息服务管理规定》就是同样的操作思路。
“意见稿”要求按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》(以下简称“安全评估规定”)的规定向国家网信部门申请安全评估,以及按照《互联网信息服务算法推荐管理规定》(以下简称“算法管理规定”)履行算法备案和变更、注销备案手续。
“安全评估规定”规定,服务提供者应当在信息服务、新技术新应用上线或者功能增设前,通过全国互联网安全管理服务平台向所在地地市级以上网信部门和公安机关提交安全评估报告,安全评估可以自行实施,也可以委托第三方安全评估机构实施。
重点评估内容:
(一)确定与所提供服务相适应的安全管理负责人、信息审核人员或者建立安全管理机构的情况;
(二)用户真实身份核验以及注册信息留存措施;
(三)对用户的账号、操作时间、操作类型、网络源地址和目标地址、网络源端口、客户端硬件特征等日志信息,以及用户发布信息记录的留存措施;
(四)对用户账号和通讯群组名称、昵称、简介、备注、标识,信息发布、转发、评论和通讯群组等服务功能中违法有害信息的防范处置和有关记录保存措施;
(五)个人信息保护以及防范违法有害信息传播扩散、社会动员功能失控风险的技术措施;
(六)建立投诉、举报制度,公布投诉、举报方式等信息,及时受理并处理有关投诉和举报的情况;
(七)建立为网信部门依法履行互联网信息服务监督管理职责提供技术、数据支持和协助的工作机制的情况;
(八)建立为公安机关、国家安全机关依法维护国家安全和查处违法犯罪提供技术、数据支持和协助的工作机制的情况。
安全评估报告应当包括下列内容:
(一)互联网信息服务的功能、服务范围、软硬件设施、部署位置等基本情况和相关证照获取情况;
(二)安全管理制度和技术措施落实情况及风险防控效果;
(三)安全评估结论;
(四)其他应当说明的相关情况。
“算法管理规定”第二十四条规定:
服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。
备案信息发生变更的,应当在变更之日起十个工作日内办理变更手续。
终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续,并作出妥善安排。
“额外的报备内容”
“意见稿”第十七条规定,人工智能服务提供者应当根据网信办和主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。
这条规定是对“算法管理规定”的进化,毕竟人工智能有自己的特点,如果完全按照算法推荐的规定,肯定会产生不适格。但第十七条提供这些信息的前提是应监管部门的要求,而不是主动备案的内容——是否会演变成备案时必须要提供这些信息,需要在实践中检验了。
3. 更重视人工智能“初始合法”——训练数据来源合法性与用户实名
考虑到人工智能自动学习的特征,所以“意见稿”的规范更强调人工智能的“初始合法”,具体体现在第七条与第九条的规定。
第七条规定人工智能服务提供者对预训练数据、优化训练数据来源的合法性负责。人工智能服务提供者能够干预人工智能数据来源的只有训练数据——这是人工智能服务提供者“喂”给人工智能系统的数据,而不是人工智能系统从网上自动习得的数据。网上数据的合法性并不是服务提供者可以控制的,所以监管者考虑到了这点。
第九条规定人工智能服务提供者应当要求用户提供真实身份信息——也就是说要实名制后,用户才可以使用(生成式)人工智能服务。
从监管者角度来说,用户实名制是规范用户行为的前提,只有在实名制的前提下,才有可能对利用人工智能进行非法活动的用户进行规制。对这条规定,笔者持保留意见——用户生成信息的行为其实并不见得需要规制,用户发布生成信息的行为才是需要规制的。如果用户都需要实名认证,那么肯定会加重中小开发者(服务提供者)维护数据安全的成本,甚至成为压垮他们的稻草,这其实不利于技术发展。
4. 将用户义务转化为人工智能服务提供者义务
笔者认为,生成式人工智能产品应该秉承“各负其责”的原则,分配权利义务——服务提供者承担服务提供者义务,生成内容使用者(用户)承担使用者义务。但是“意见稿”基本上将用户的不良行为都转化为了服务提供者的防范义务,对此笔者一样是持保留意见的。
第十条将“采取适当措施防范用户过分依赖或沉迷生成内容”规定为服务提供者应当的义务——防用户沉迷或许还容易理解,但是用户过分依赖服务提供则能 怎么办?
第十八条“指导用户科学认识和理性使用生成式人工智能生成的内容”又将用户“损害他人形象、名誉以及其他合法权益,商业炒作、不正当营销”等不良行为规定为服务提供者应当进行指导的义务。
结合第二十条的罚则,如果服务提供者违反管理办法(包括未尽到应当的义务),是要进行行政处罚的,这样规定是否有利于行业发展值得推敲。
三、“其实我也很矛盾”——“意见稿”中的逻辑矛盾
从Chat GPT的突然爆发到国家网信办推出“意见稿”,期间不过两个多月的时间,所以可以明显感受到“意见稿”颇有点临阵磨枪的感觉,依然有很多不完善之处,其中就包含了几处逻辑上的矛盾。
1. 矛盾之一:“松绑”与“枷锁”孰者优先?
“意见稿”第七条规定服务提供者对训练数据的来源合法性负责,那么言下之意就是对人工智能系统自动习得的数据来源不负有责任;但同时第五条又规定服务提供者对生成内容承担生产者责任——生成式人工智能系统只是对现有网络信息的再拼接,甚至有些几乎等同于引用,本质上不能认为是信息的新创作,那为什么在认识到服务提供者对系统自动习得的非法数据无法负责的情况下,还要规定服务提供者对包含了部分非法数据的最终成品承担责任呢?
2. 矛盾二:分析前无法判断,分析后就构成违法
“意见稿”第十一条规定服务提供者不得非法留存能够推断出用户身份的输入信息。这句话本身包含了合规陷阱,什么样的输入信息属于可以推断出用户身份的呢?
其逻辑悖论在于:计算机系统只能记录输入信息,不将输入信息放到计算模型中进行分析推断之前,是无法判断输入信息是否可以推断用户身份的,但是一旦进行了分析推断,服务提供者就真的构成违法了。于是服务提供者就陷入了分析输入信息肯定违法,不分析输入信息也不见得不违法的两难境地。
除非用户的输入信息一律不保留——那么还要用户进行实名登记的意义又在哪里呢?
3. 矛盾之三:到底要“实名”,还是要“用户画像”?
通常网络服务中,实名登记的数据敏感性要高于用户画像(根据网络中留存的用户行为痕迹数据分析推断用户身份)的数据敏感性——实名登记数据可以直接告诉你用户是谁,但是在没有实名登记的情况下,纯粹靠单一网络服务进行的用户画像很难推断出用户的真实身份。
所以通常情况下,进行实名登记的网络服务提供者同时要进行用户画像是需要严格控制的,甚至有时候是禁止的。“意见稿”秉承的就是这个思路,要求人工智能服务提供者对用户进行实名登记(第九条),但是禁止进行用户画像(第十一条)。
但是对大数据分析产品而言,用户画像数据的价值要高于用户实名的数据(买卖个人信息的犯罪分子除外)——你是谁不重要,你行为所隐含的逻辑很重要。生成式人工智能系统如果要优化,其实需要的恰恰是用户画像的数据,而不是用户实名数据,“意见稿”正好操作反了。
四、结语
Chat GPT所带来的生成式人工智能产品到底是新一轮科技浪潮,还是滔天洪水目前依然还不明朗,中国的监管既不学美国式的放任,也不学欧洲式的禁止,要走出一条风险可控下技术发展的道路,对大家都是一个严苛的课题。
尽管“意见稿”仍有诸多不完善之处(否则也不征求意见了),但小步快跑,紧跟变化或许才是有效的中国式监管思路。
附:《生成式人工智能服务管理办法(征求意见稿)》
生成式人工智能服务管理办法(征求意见稿)
第一条 为促进生成式人工智能健康发展和规范应用,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规,制定本办法。
第二条 研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。
本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。
第三条 国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。
第四条 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:
(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。
(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。
(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。
(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。
(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。
第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。
第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
第七条 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。
用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:
(一)符合《中华人民共和国网络安全法》等法律法规的要求;
(二)不含有侵犯知识产权的内容;
(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;
(四)能够保证数据的真实性、准确性、客观性、多样性;
(五)国家网信部门关于生成式人工智能服务的其他监管要求。
第八条 生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。
第九条 提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定,要求用户提供真实身份信息。
第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。
第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。
第十二条 提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。
第十三条 提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。
第十四条 提供者应当在生命周期内,提供安全、稳健、持续的服务,保障用户正常使用。
第十五条 对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。
第十六条 提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。
第十七条 提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。
第十八条 提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。
用户发现生成内容不符合本办法要求时,有权向网信部门或者有关主管部门举报。
第十九条 提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。
第二十条 提供者违反本办法规定的,由网信部门和有关主管部门按照《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的规定予以处罚。
法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。
第二十一条 本办法自2023年 月 日起实施。