评论文章
AI知识蒸馏是贴牌假酒吗?浅谈大模型合规问题

作者:金茂律师事务所  韩正 律师

一、什么是知识蒸馏?如何蒸馏?

1、知识(模型)蒸馏(Knowledge Distillation, KD)是一种通过成熟大型的教师模型(Teacher Model)训练小巧精简的学生模型(Student Model)的有效技术手段,也是业内常见做法 。其基本流程如下:

2、具体原理:(1)通过教师模型对提问的回应,输出结果(概率分布)就形成了软标签(Soft Labels),用以指导学生模型;(2)学习中间层(输入、输出层之外的其他层)特征;(3)学习数据之间的相互关系;(4)通过温度(T)参数设置(修改softmax函数 ),让教师模型输出的概率分布更加平滑(T大于1,则不同类别的概率差异变小,可注意细微差别,增加多样性)或更加陡峭(T小于1,则突出类别差异,强调最优信息,提高准确率),来训练学生模型;(5)设置硬标签(Hard Labels,添加数据真实的概率离散情况)来帮助训练、拟合。

二、AI通过数据蒸馏学习到了什么?

1、通过上述概述,我们知道知识蒸馏主要是通过学生模型学习教师模型输出的概率特征(均值、方差、协方差等)而实现压缩模型(保持效果)的目的。而教师模型中的固有参数(即通过数据预训练的原始数据和参数数据)并不会直接转移至学生模型。

2、除了对概率特征的学习之外,学生模型还有两个重要的事项:(1)教师模型中间层的特征图(中间层的激活值、注意力图谱等),这涉及教师模型对输入数据表示的内部结构和模式(权重),通过相似性评价学习(如均方误差、余弦相似度等回归方法来参与损失函数计算,使得其蒸馏口感尽量接近于原厂);(2)基于关系的知识(关系蒸馏),教师模型不仅对某个样本有预测能力,亦能对样本间或类别间知识的关系进行界定。

三、知识蒸馏合规吗?

1、任何大模型进行计算都依赖于数据集(data set),一旦作为数据进行训练,或作为问题的一部分进行输入,那么都必须进行复制(包括临时复制 ),并以该等数据的分析形成模型的参数(参数并非原样的数据存留)。因此,使用的数据来源应当得到合法授权。部分观点认为,临时复制或不保留数据原始状态的模型参数不需要授权,此类观点不值一驳。按此观点,人类也无需付费即可浏览任何资料,因为储存在人类大脑的记忆也并非数据原样。

2、由于知识蒸馏中,是学生模型通过自身结构、算法来实现同等的输出概率特征,其本质是功能性的,而非直接获取代码或者数据,因此通常不存在侵犯特定程序著作权的问题 。而对于中间层的激活值、注意力图谱等,如果系教师模型所允许学生模型免费或收费调用,则其属于合同问题,应按相应约定解决。如果该等中间层信息,是学生模型通过不断地输入、输出方式探寻得出,则其系一种逆向工程手段,若不受到用户协议限制则原有法律中不存在规制措施,至于该类行为是否(及如何)构成不正当竞争则是一个新命题。

3、目前Open AI 、Adobe 、微软 、X/Twitter的用户协议中都含有限制用于训练未经授权的其他模型。因此,如果学生模型通过违反协议的方式进行训练,将可能面临潜在的索赔(通常是仲裁)。但其面临的潜在难题是,如何证明其模型用于了其他模型训练(通常API接口不会与学生模型相连),这可能需要:(1)证明API用户或访问者与其他模型的关联关系;(2)要求API用户或访问者就输出结果进行文件披露(如何请求披露、披露何种类型的文件和数据值得思考和研究)。(3)是否有损失,损失如何计算?Open AI也称目前并不打算向Deep Seek索赔 ,而后者并不认可存在任何不当行为。

结语

通过现有的AI模型路径(无论是卷积神经网络还是Transformer),其主要表现为利用海量数据进行结果的概率预测,其具有模拟性。而人类思维所依靠的概念、命题等自然语言公理系统,首先是对真实语义进行理解再进行推理应答 。两者之间的差异如同模拟信号与数字信号的区别。而人类语义所依靠的词类指称大量依靠真实世界的实践,这一点无法通过大语言模型进行充分实现。至于目前仍在研究中的具身智能体(Embodied AI,通过硬件获取感知信息输入)是否能够穿越通用人工智能(AGI)的叹息之墙,犹未可知。