律师观点

肩上担山知任重,志存云天砥砺行

具身智能崛起背后的数据合规暗礁:物理交互时代的隐私与安全挑战
关联律师:发布时间:2025-09-03

  作者:樊思琪、王岩飞、聂雯珺

 

前   言

Foreword

具身智能是指拥有物理形态,能够感知、学习并与人类世界进行动态交互的人工智能系统。从家庭中的陪伴机器人到工厂里的协作机械臂,从医院内的精准手术助手到城市街道上的自动驾驶汽车,这些“具身化”的智能体正以前所未有的深度和广度融入人类生活。与主要处理文本、图像等数字痕迹的传统AI不同,具身智能所收集、处理和理解的数据是高度多维、持续且具身的。

 

这些数据不再仅仅关乎隐私,更直接关联到人身安全、财产安全乃至公共安全。因此,在具身智能开启无限可能的物理交互时代之时,我们亟需审视其背后复杂的数据合规困境:如何在不扼杀创新的前提下,为持续数据收集与使用建立规则?

 

JINGSH

01

什么是具身智能?

(一)具身智能概念

具身智能是人工智能研究中的重要方向,指智能体(包括具有实体的机器人等)在现实世界中,通过感知、决策和执行,与环境进行动态交互,从而实现特定目标的综合能力。¹与传统仅存在于虚拟空间中的人工智能不同,具身智能强调“智能”必须依托“身体”,并在真实环境中发挥作用。

 

“具身”体现了智能系统对物理载体的依赖。这一载体可以是类人机器人、工业机械臂、无人机、自动驾驶车辆、服务机器人,甚至是带有传感器的可穿戴设备。它们通常具备多模态感知系统,例如视觉摄像头、麦克风、触觉传感器等,能够实时采集外部环境和自身状态的信息。“智能”不仅体现在数据处理和算法推理上,还包括对环境的理解、自适应策略的制定、任务规划以及对突发情况的应对。

 

具身智能的核心在于将人工智能算法与物理实体深度融合,使智能体既能“理解世界”,又能“改变世界”。它不仅是人工智能发展的重要方向,也是推动机器人技术、自动化系统和人机协作向更高水平演进的关键力量。

 

(二)具身智能运行的基本逻辑

具身智能系统通常遵循“感知、决策、执行”的基本逻辑:首先获取环境信息,其次进行信息融合与情境理解,生成动作计划并执行,最后通过反馈不断修正策略。这一逻辑确保了具身智能能够在复杂、不确定、动态变化的环境中,持续优化自身行为策略,完成既定目标。

 

1. 感知

感知是具身智能运行的起点,其目标是将外部世界的动态信息转化为可处理的内部表示。感知过程首先依赖于多模态传感器(如摄像头、麦克风、触觉传感器等)采集视觉、听觉、触觉、空间位置等多维度数据。这些原始数据需经过降噪、滤波、特征提取等预处理,以剔除干扰信息并提高信号质量。感知系统会进行多源数据融合,将来自不同传感器的数据在时间和空间维度上整合,形成对环境的全局理解,从而为具身智能提供稳定、可靠的信息输入。

 

2. 决策

决策是将感知结果转化为行动方案的核心环节,其目标是选择在当前情境下最优的行动路径。决策过程首先要进行情境理解,即分析环境状态、物体属性、任务目标及其约束条件,在此基础上,决策系统会生成多种可行方案,并通过规则推理、规划算法、概率模型等方法评估不同方案的风险与收益。当外部不确定性较高的时候,决策系统还会预演可能的情形,在系统内部模拟不同动作的可能造成的不同结果,从而选取最优方案。它不仅能在已知环境中高效运行,也能在未知环境中调整策略,这一环节直接决定了执行的有效性和任务完成的效率,因此在具身智能体系中占据核心地位。

 

3. 执行

执行是具身智能将决策落实到现实的阶段,其核心在于将任务指令转化为实际可操作的动作,并在执行过程中保持稳定与精确。执行系统会先进行动作规划,将决策结果细化为具体的运动轨迹、关节控制参数、力度分配等,其次通过执行器完成实际操作,在这一过程中,执行系统会实时采集来自传感器的反馈信息,对位置、速度、力量等参数进行分析,确保动作的准确性与安全性。由于执行直接作用于现实环境,它必须与感知、决策保持紧密的协同,从而形成稳定、高效的运行逻辑。

 

JINGSH

02

从具身智能的运行逻辑透视潜藏的数据合规风险

(一)感知

不同于ChatGPT、Deepseek等常见的互联网智能,具身智能的特点在于其需要具备感知外界和学习交互的能力,能够据此作出决策,进而在不同场景中随机应变地完成任务。这就意味着具身智能需要与现实物理世界进行交互,在此过程中需要收集大量的数据用于感知物理世界各类环境及物质特性,正因如此,具身智能所需的多模态训练数据较互联网智能而言更加复杂且具体。

 

1. 训练数据来源合规

目前具身智能行业的训练数据主要包含仿真合成数据、真实数据及互联网数据。由于真实数据需要设置多种场景及物品,且需要耗费大量的成本进行多模态搭建,因此目前具身智能相关企业更偏向于使用仿真合成数据。仿真合成数据是指通过仿真软件在计算机中构建一个与现实世界高度相似的数字孪生训练场。在这个虚拟世界里,开发者可以模拟逼真的光照和材质以及摩擦力、接触力、重力等物理规律,从而大规模地生成机器人与环境交互的数据。但无论是真实数据还是仿真合成数据,在形成过程中均需耗费相应的成本,在互联网智能领域,因训练数据来源合法性问题引起的知识产权侵权、不正当竞争纠纷在国内外均有相应案例出现:

 

(1)知识产权侵权风险

由于互联网智能的训练数据以文章、图片、视频等形式为主,使用过程中难免会涉及到他人享有知识产权的作品,在此过程中,如智能体开发者在使用训练数据前并未获得作者的授权,则可能因此引发知识产权侵权纠纷。

 

国外

《纽约时报》向美国纽约南区联邦法院提起诉讼,指控OpenAI和微软未经授权复制和使用其大量文章内容来训练大型语言模型,并且通过AI产品公开展示这些内容,侵犯了其版权,同时构成了不正当竞争和商标淡化等行为,要求被告承担相应法律责任,包括停止侵权、销毁相关模型和数据集以及赔偿经济损失等。据2025年3月的裁决结果,美国纽约南区联邦地区法院在若干问题上支持了包括《纽约时报》(The New York Times)在内的新闻机构,认定OpenAI在训练阶段使用特定算法剥离文章作者、版权声明等信息可能构成故意移除版权管理信息。

国内

据凤凰网报道,爱奇艺日前已向上海市徐汇区人民法院正式提起诉讼,指控国内AI初创企业MiniMax在AI模型训练及内容生成流程中涉嫌侵犯其版权。MiniMax被指控未经授权使用了爱奇艺享有版权的素材进行模型训练,导致生成的内容构成了对爱奇艺版权的侵犯。爱奇艺方面要求MiniMax立即停止这一侵权行为,并索赔约10万元人民币。²

 

综上,具身智能开发者在训练阶段若未经授权使用他人合法享有知识产权的内容,极易引发侵权纠纷。在美国,模型训练过程中使用新闻文章作为训练数据可能侵犯版权,甚至涉及故意移除版权管理信息;在中国,模型训练中未经授权使用受保护的影视素材不属于合理使用,使用他人享有知识产权的素材进行训练极易被认定为侵权。因此,训练数据的合法获取与合规使用是具身智能发展的前提条件,若开发者忽视训练数据可能存在的知识产权属性,在模型训练中未经授权直接使用受知识产权保护的内容,极有可能引发侵权纠纷,并对数据应用的合法性产生制约,阻碍其商业发展。

 

(2)不正当竞争风险

对于不构成作品的训练数据,在使用过程中同样需要注意数据来源的合法性问题。《反不正当竞争法》第十三条第三款规定:“经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序”。相较于文学影视等作品,具身智能的研发主体所需的训练数据更偏向于人类或其他机器人在行动过程中产生的环境数据及行为数据,这类数据内容一般不会构成《著作权法》意义上的作品,但根据新修订的《反不正当竞争法》,数据本身已经被认定为经营者享有的一项竞争性权益,受到《反不正当竞争法》的保护,如未经授权使用其他主体合法持有的数据,将存在构成不正当竞争的风险。

 

案例

笔神作文(北京一笔两划科技有限公司)与学而思(三体云联公司)于2020年12月开始合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,按照调用次数收费。2023年6月13日,笔神作文(北京一笔两划科技有限公司)发布了《关于学而思AI大模型侵权事件的声明》,称学而思(三体云联公司)作为笔神作文的合作伙伴,在2023年4月13日至4月17日期间,未经笔神作文同意非法爬取缓存笔神作文APP服务器数据多达258万次,并猜测学而思将这些数据用于训练其即将上线的AI大模型MathGPT中包含的产品“作品AI助手”。笔神作文认为,这一行为不仅违反《数据安全法》,且违反双方之间的合同约定。虽然双方后续均未就此事发表进一步回应,也未有该案相关的公开裁判文书出现,但该案仍被称为国内大模型侵权第一案,反映了训练数据持有主体与人工智能研发主体之间不可避免的争议。

 

上述案例中不仅涉及人工智能使用他人享有版权的作品是否能够被认定为合理使用,还涉及未经授权获取、使用训练数据是否构成不正当竞争。该案表明,数据在商业运营中的具有竞争性的属性,笔神作文的数据,本质上是其在长期经营过程中形成的、具有商业价值的竞争性资源,即便这些数据本身不构成著作权法意义上的作品,但在《反不正当竞争法》框架下,仍可因其稀缺性、投入性和市场价值而受到法律保护。由此可见,数据使用的合法边界并不仅仅是知识产权,还应当从反不正当竞争的角度加以规制。促进人工智能的发展与保护人类智力成果在事实层面及法律层面的冲突已日益凸显,对于人工智能研发企业来说,如何在保持成本可控的情况下合规获得、使用训练数据,似乎已经成为推动技术发展的核心挑战。

 

2. 个人信息与隐私保护

从行业情况来看,由于真实数据仍是具身智能训练过程中的稀缺数据,因此各大研发厂商在利用仿真数据进行训练的同时,也会采购或收集机器人或人类行动过程中产生的真实数据,以更好的对标具身智能的训练过程。由于各具身智能研发厂商开发形成的机器人型号及参数有较大差异,如需利用对应型号的机器人收集真实数据将产生高额的数据收集成本,且数据可用性较低,因此多家厂商采用人类动作捕捉的方式收集真实训练数据,即由数据采集员穿戴好动作捕捉设备,数据采集员行动过程中采集设备中的力触觉传感器、音视频传感器等将自动收集相关数据,数据收集厂商仅需在完成收集后通过数据清洗和复验进行筛选归集,确保训练数据质量。

 

国内外多家具身智能企业均采用此类方式收集真实数据:例如特斯拉在2023年股东大会上展示Optimus的进展时,视频中工作人员穿戴动捕服进行演示,人类的动作能够直接迁移到机器人身上,机器人再通过传感器收集数据³;又比如国内企业帕西尼在天津的工厂通过其自主研发的PMEC超采技术,由数据采集员双手穿戴具有手部全运动自由度和全触觉信号覆盖采集功能的硬件设备,获取操作动作所涉及的多视角视觉、触觉、接触点位姿等信息。⁴

 

在由数据采集员作为行为主体采集数据的过程中,为保证环境数据及行为数据收集的完成性,难免涉及到收集数据采集员的面部信息、声纹信息、虹膜信息、个人行为轨迹等各类个人信息,且涉及的个人信息类型多为生物识别信息,属于敏感个人信息的范畴,这就要求数据收集厂商需特别关注个人信息及隐私保护的问题。依据《个人信息保护法》第十三条及第二十九条的规定,处理敏感个人信息需征得个人信息主体的单独同意;第二十八条中则明确,只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息。

 

(1)数据收集环节

对于此类训练数据收集厂商来说,如数据采集活动中涉及处理数据采集员敏感个人信息的,应当在开展处理活动前征得个人信息主体的单独同意,且需对敏感个人信息采取严格的保护措施,包括但不限于加密、去标识化、分类单独管理等。依据《个人信息保护法》第五十五条的规定,数据收集厂商还应当在处理敏感个人信息前开展个人信息保护影响评估。

 

实践中有些数据收集厂商与数据采集员之间会签订《劳动合同》,双方构成劳动合同关系,那么,数据收集厂商是否能够以《个人信息保护法》第十三条(二)的规定⁵作为处理个人信息的合法性基础呢?

 

笔者认为,在具身智能的训练数据收集场景下,数据收集厂商可以实施人力资源管理所必需作为合法性基础,但需要具备以下几个前提:

 

第一,在双方订立的劳动合同中,已明确约定数据采集员的岗位,告知其在工作过程中将会无法避免的收集到部分个人信息,基于工作岗位的要求及为保证训练数据的完整性,收集其个人信息具备合理性及必要性;

 

第二,已在劳动合同中明确,或通过其他方式明确告知数据采集员,可能收集的个人信息类型、处理方式、保存期限、个人行使权利的方式和程序,按照《个人信息保护法》第十七条的规定履行告知义务。

 

事实上,大部分公司的劳动合同为统一模版,并没有为数据采集的岗位单独创设劳动合同模版或者履行告知义务,此时处理其相关个人信息依然存在一定合规风险。

 

(2)数据对外提供环节

由于数据收集厂商主要通过对外提供训练数据获得收益,如对外提供训练数据时未对其中包含的数据采集员个人信息采取匿名化措施,则对外提供前也需开展个人信息保护影响评估,且依据《个人信息保护法》的要求,对外提供前,个人信息处理者需应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意,如接收方的个人信息处理情况发生变化,还应当重新取得个人信息主体同意。如数据收集厂商对外提供匿名化处理后的数据,则应当保障所采取的技术处理措施能够使处理后的数据达到无法识别特定自然人且不能复原的程度,否则仍存在侵犯个人信息权益的风险。

 

综合上述合规义务要求来看,具身智能训练数据收集厂商在数据采集员的个人信息保护方面需付出高额的合规成本,且由于个人信息主体可随时依据《个人信息保护法》的规定撤回同意,这就导致数据收集厂商对所收集的数据资源权属可能存在一定不确定性,如何平衡个人信息保护合规成本及训练数据质量和收集效率也已成为数据收集厂商面临的一大难题。

 

3. 训练数据管理

除上述风险外,由于具身智能训练数据具有一定的特殊性,在数据管理方面也有相关法律法规做出特殊要求,这同样值得训练数据收集厂商关注。

 

(1)涉及工业领域重要数据

依据《工业领域重要数据识别指南(YD/T 4981—2024)》中的相关规定,数据遭到篡改、破坏、泄露或者非法获取、非法利用,对政治、国土、军事、经济、文化、社会、科技、网络、生态、资源、核、海外利益、生物、太空、极地、深海、人工智能等国家安全相关领域造成严重影响的工业数据属于工业领域重要数据,与人工智能相关的包括但不限于人工智能控制程序、算法、源代码、训练模型数据、数据挖掘分析数据。

 

具身智能训练数据如达到遭到篡改、破坏、泄露或者非法获取、非法利用会对相关领域造成严重影响的程度,则可能被识别为工业领域重要数据,应当依据《工业和信息化领域数据安全管理办法(试行)》的规定,按照重要数据的要求进行管理。

 

(2)涉及数据出境的管理要求

如训练数据收集厂商涉及向境外提供在中华人民共和国境内收集的数据内容,且拟出境训练数据被有关部门告知应当进行重要数据识别申报的,应当按要求进行重要数据识别及申报,并通过所在地省级网信部门向国家网信部门申报数据出境安全评估,按照《数据出境安全评估办法》及《促进和规范数据跨境流动规定》的相关规定采用合规方式实现数据出境。

 

此外,如训练数据收集厂商拟向境外提供的数据内容涉及《中国禁止出口限制出口技术目录》中软件和信息技术服务业086501X、086502X、206503X三类限制出口技术内容的数据,则应当按照《禁止出口限制出口技术管理办法》的要求履行出口许可手续,如未按规定擅自向境外提供与限制出口技术相关的数据,则可能面临走私罪、非法经营罪、泄露国家秘密罪等刑事犯罪风险。

 

(二)决策

在决策层面,具身智能研发主体往往以大语言模型作为具身机器人的“大脑”,此类大语言模型用于接受使用者的指令,并作出相应的判断和决策,调动具身智能按照指令执行。

 

1. 大模型开源许可协议使用合规

多家具身智能研发主体采用的原始大模型可能均为某一主体发布的开源模型,研发主体在开源模型的基础上进行升级和拓展。在人工智能行业内,使用开源模型需遵守“开源许可证”或“开源许可协议”中的相应规则,在规则范围内使用开源产品。开源许可证适用的场景既包括软件、代码,也包括数据集、版权或者是硬件。开源的标准由开源促进会(Open Source Initiative, OSI)确定,开源的分发条款必须符合以下条件:(1)免费再分发;(2)程序包含源代码;(3)可以修改和二次开发;(4)确保源代码完整性;(5)不歧视个人或群体;(6)不歧视应用领域;(7)允许重新分发;(8)不基于特定产品;(9)不限制其他软件;(10)技术中立。⁶

 

需要注意的是,“开源”不意味着可以无限制使用,不同的开源许可协议中规定的开源条件并不相同,如违反开源许可协议使用开源软件或数据,仍可能存在软件著作权侵权风险或不正当竞争风险,以我国法院的裁判案例中的观点为例:在某网络公司诉福建某科技公司、北京某科技公司、某计算机系统公司侵害计算机软件著作权纠纷案⁷中,某网络公司是涉案权利软件登记的著作权人,在软件托管平台GitHub上公开了涉案权利软件的源代码,同时在该平台上声明,任何人如将涉案权利软件用于商业用途需向某网络公司购买商业授权,需遵循GPL3.0开源许可协议。福建、北京两科技公司在某软件中使用了某计算机系统公司依GPL3.0协议开源的VirtualApp源代码,但并未依照GPL3.0协议履行相应的开源义务。一方面,福建、北京两科技公司在开发和发布某软件时,未向公众开放其整体源代码,违反了GPL3.0协议关于“派生作品整体需开源”的要求;另一方面,其复制、修改和发布VirtualApp代码时,也没有保留相应的版权声明、修改信息等必要标识。法院经审理认为:GPL3.0协议的内容具有合同性质,开源软件的发布可视为要约,用户使用即为承诺,在用户使用开源软件时合同成立,由于GPL3.0协议以遵守开源条件作为许可使用的前提,福建、北京两科技公司拒绝履行开源义务,导致其依据协议获得的授权自动终止。本案中,被诉侵权软件本应遵循GPL3.0协议向用户开放源代码,福建、北京两科技公司对于涉案权利软件源代码的使用因后续未开源而丧失正当的权利来源基础,因此两科技公司对涉案权利软件源代码的使用属于未经著作权人许可而使用其作品的行为,构成对某网络公司涉案权利软件著作权的侵害。

 

由此可见,我国法院认可开源许可协议的法律属性,支持开源软件管理主体按照开源许可协议约定的规则维护其所享有的软件著作权,开源许可协议的内容对协议方具有约束力,协议方后续的行为需依据协议授权,未经协议授权使用开源软件或数据涉及侵犯著作权。因此,具身智能研发主体如采用开源大模型或开源软件进行研发,需仔细审查开源许可协议中的各项条款,避免违规使用导致的侵权风险。

 

对于不构成软件作品的开源数据内容,数据权益主体也可依据《反不正当竞争法》主张权利,即使开源数据内容不符合商业秘密的构成要件,也属于权益主体依法享有的竞争性权益,如使用者未按照开源协议的约定使用数据,则可能违反反不正当竞争法的规定:

 

在全国首例涉及确认数据知识产权登记证书效力不正当竞争纠纷案⁸中,数某(北京)科技股份有限公司(简称数某公司)经合法授权收集了涉案1505小时中文普通话语音数据集并登记取得《数据知识产权登记证》,其主张隐某(上海)科技有限公司(简称隐某公司)未经许可公开数某公司200小时子集数据集(简称涉案数据集合)的行为构成不正当竞争。一审法院认为,涉案数据集合构成商业秘密,隐某公司披露、使用行为侵害数某公司商业秘密,判决其赔偿102300元。隐某公司不服提起上诉。二审法院认为,《数据知识产权登记证》作为数某公司享有财产性利益及数据来源合法的初步证据;虽然涉案数据集合因公开不符合商业秘密要件,且不符合汇编作品的构成要件,但涉案数据集系数某公司投入大量技术、资金和劳动后形成的具有商业价值的数据条目,其合法权益受反不正当竞争法保护。数据需求方使用开源数据需遵循开源协议,隐某公司未遵守相关协议,违背商业道德,损害数某公司权益及市场竞争秩序,违反反不正当竞争法第二条规定。二审法院据此调整关于商业秘密的认定,对一审判决结论予以维持。

 

在本案中,开源数据难以满足著作权法所要求的“独创性”,因此不必然构成软件作品或汇编作品,如果数据已被公开披露,也可能不符合《反不正当竞争法》关于“商业秘密”的要件。但开源数据集系权利人投入大量资金、技术和劳动形成,具备稀缺性和商业价值,应当受到《反不正当竞争法》第二条的保护,在此框架下,数据使用方如需利用开源数据,应严格遵循开源协议的约定。

 

2. 大模型备案及算法备案要求

具身智能如配备有大语言模型的,应当依据算法的相关管理规定自行进行审查,看是否需要依法完成算法备案及大模型备案。

 

依据《互联网信息服务算法推荐管理规定》,第 24 条第1 款规定,“具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续”,第2款、第3款则分别对备案变更、注销备案进行了规定。

 

对于具有舆论属性或者社会动员能力的生成式人工智能服务,除其中包含的相关算法应当依据《互联网信息服务算法推荐管理规定》履行算法备案手续外,生成式人工智能服务整体还需依据《生成式人工智能服务管理暂行办法》的规定完成生成式人工智能备案,该项备案程序在实践中也被称为“大模型备案”。不同于算法备案可通过线上系统进行备案申请,生成式人工智能备案以属地申报为原则,需由企业向所在地区的省级网信办线下申领、提交备案材料。

 

(三)执行:数据权属的确认及划分

在最终的执行环节,具身智能体需根据操作者指令执行,在执行过程中也会产生相应的操作数据,对于这类数据的权属应当如何确认,也是需要相关参与方思考的问题。

 

1. 在使用者是个人用户的场景下

以互联网智能及现有智能驾驶等的用户协议为例,用户使用智能体过程中产生的数据内容将在经过用户同意后授权给智能体开发者用于进一步的智能体训练或能力提升:

 

Deepseek用户协议第4.3条:“为向您提供连续、高质量的服务,在经安全加密技术处理、严格去标识化且无法重新识别特定个人的前提下,我们可能会将服务所收集的输入及对应输出,用于模型训练和服务的优化。在此前提下,您同意授予深度求索在全球范围内一项免费的、非排他的许可使用权,以使我们对前述内容进行处理。如您拒绝将您的数据用于模型训练,可以在产品内通过关闭“数据用于优化体检”来选择退出,关闭后您的输入和输出不会再用于我们的模型训练。”⁹

 

Kimi用户服务协议第五条第3款:“为了提升您使用本服务的体验,您授予我们一项免费的的使用权,以在法律允许的范围内将您输入输出之内容及反馈用于模型服务优化。”¹ᴼ

 

特斯拉客户隐私声明:“在符合当地法律的条件下,只有当您开启数据分享后,摄像头记录的内容才会被传输和分享,并用于车队学习。您可以随时通过车辆的触摸屏开启或关闭数据分享功能。即使您选择开启数据分享,摄像头记录的内容也会以匿名的方式传输,而不会与您或您的车辆相关联,除非发生了安全事件(例如碰撞、气囊弹出或自动紧急制动事件)。”¹¹

 

从上述协议文件中不难看出,智能体研发类企业均需要用户的使用数据作为训练数据反哺智能体升级,那么在此情形下,研发类企业能否将所收集的使用数据整理形成新的训练数据集,并通过对外出售该类数据集获取收益呢?

 

对此,我们需要重点考虑两个层面的问题,一是将用户的使用数据形成训练数据集是否侵害数据来源者权益;二是对于所形成的训练数据集,智能体研发类企业享有什么类型的数据权益。

 

第一,就用户的使用数据而言,以智能驾驶的场景为例,用户使用智能驾驶功能过程中,智驾系统需通过各类传感器收集车内及车外的环境数据,可能包括但不限于视频、声音等数据,且在此过程中可能会收集用户个人的个人信息,甚至是用户的个人隐私,在此情况下,如果研发企业在用户初次使用智能体前未对信息收集情况进行提示,也未就数据收集条款进行提示,则其收集行为本身的合法性即存疑,在数据收集行为本身可能侵害用户个人信息权益或其他合法权益的情况下,后续的数据确权工作亦无法开展。

 

第二,在数据权属确认方面,研发类企业一般可基于用户的合法授权持有用户的使用数据,并为改进自身服务的目的将使用数据进行内部使用,但如基于使用数据形成的训练数据内容中包含用户的个人信息,则企业是否还能对此类训练数据享有数据经营权,这仍是实践中需要进一步探讨并思考的问题,具体分析可详见笔者团队在《数据权属与合规挑战:个人信息与企业数据的实务难点剖析》一文中有关个人信息能否确数据经营权的论述。

 

2. 在使用者是企业用户的场景下

如具身智能使用者为企业用户,例如从事制造业的工厂或提供酒店、餐厅等服务的主体,在经营过程中使用机械臂、送餐机器人等具身智能产品,在此过程中产生的使用数据本身也可作为企业用户自身的数据资源。使用者同样可以将其用于提升经营效率或为同行业提供数据参考,甚至是将其深化处理为某一特定行业场景下具身智能应用的训练数据。在此背景下,具身智能使用主体与研发主体如何就该类数据资源的权属进行分配可通过协议提前约定,避免后续出现权属纠纷。

 

JINGSH

03

不同环节的参与方需关注的数据合规要点

随着大模型与具身智能(Embodied AI)的深度融合与应用落地,具身智能的开发与应用涉及多方主体协同。不同环节的参与方在数据处理活动中扮演着不同角色,也面临着差异化的数据合规挑战。清晰界定并落实各方的数据合规责任,是保障技术健康发展、防范法律风险的关键。具体而言,主要参与方需重点关注以下核心合规领域:

 

(一)训练数据生产方:需重点关注数据来源合法性及个人信息保护问题

数据来源合法透明:对于训练数据生产方来说,其需要确保训练数据的获取途径合法合规,拥有充分的授权或许可,包括但不限于合法获取公开数据、经授权爬取、用户授权同意、合法购买等。需特别警惕来源不明或涉嫌侵犯知识产权、商业秘密或个人隐私的数据。建立清晰、可追溯的数据来源记录机制至关重要。

 

个人信息与隐私保护:若训练数据包含个人信息,尤其是敏感个人信息,则训练数据生产方必须严格遵守《个人信息保护法》等相关法律法规。核心要求包括:获取有效的用户同意或具备其他处理个人信息的合法性基础,保证处理方式及目的明确性、遵循最小必要原则,仅收集处理训练数据所必需的个人信息,对个人信息进行匿名化/去标识化处理,在对外提供训练数据前,训练数据生产方可对数据进行有效的匿名化或去标识化处理,使其无法识别到特定个人,同时依法设置相应的管理制度,保障个人信息主体的知情权、访问权、更正删除权等合法权益。

 

数据质量与偏见防控:除法定合规义务外,训练数据生产法还应对原始数据的代表性、公平性、质量进行初步评估,避免引入或放大社会偏见、歧视性内容,为后续模型训练奠定良好基础。

 

(二)具身智能制造主体:需关注大模型使用的合规性

在大模型的使用方面,如具身智能制造主体以开源大模型作为基础,则应当注意遵守开源许可协议,避免违规使用大模型导致知识产权侵权或不正当竞争风险。此外,若具身智能开发过程中涉及第三方数据、云服务或数据的外包处理,制造主体还需通过合同明确双方数据保护责任和义务,并对第三方进行有效监督。

 

(三)具身智能使用主体:关注数据权属划分及自身权益保护

1. 对于使用主体来说,应当与研发主体明确通过合同约定数据权属:在与制造商/服务提供商的采购或服务合同中,必须清晰界定在应用过程中产生的各类数据的权属,例如:具身智能运行中收集的环境数据、交互数据、操作日志归属,基于用户数据或运行数据生成的衍生数据、分析结果归属等。

 

2. 在权益保护方面,使用主体如为个人信息主体则应当仔细阅读用户服务协议中的数据条款,了解具身智能制造企业可能收集的个人信息类型,并明确个人信息主体依法享有的权利类型及行使方式,避免自身的合法权益或个人隐私受到侵害。

 

JINGSH

04

结语

在具身智能发展的道路上,数据合规不应被视为减速器,而应被定义为安全护栏与创新助推器。只有当开发者把每一帧环境扫描、每一次用户语音指令,都视为需要被加密、被授权、被审计的“隐私事件”,才能避免技术列车在暗礁密布的海域脱轨。

 

注释

1.来源:中国多智能体系统会议2024:《具身智能》,

https://ccf.org.cn/13Japhx/general_3017。

2.“凤凰网科技”微信公众号:《爱奇艺起诉Minimax索赔10万元,未经授权使用相关内容进行模型训练》,

https://mp.weixin.qq.com/s/UbODn3AOoslqP0TsRZQGhw。

3.周善斌:《具身智能的数据采集主流路径》,载于“机智流”微信公众号,2024年12月4日,

https://mp.weixin.qq.com/s/0EM3l4gY9VYRm3YIWzo0aA。

4.郑萃颖:《采集数据“燃料”,突破机器人“智能”瓶颈!实探帕西尼数据工厂》,载于“中国证券报”微信公众号,2025年6月27日,

https://mp.weixin.qq.com/s/3-khXfSlUXjJI8S441fJzA。

5.个人信息保护法13条,符合下列情形之一的,个人信息处理者方可处理个人信息:(二)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;

6.https://opensource.org/osd

7.案号:(2021)最高法知民终2063号。

8.案号:(2021)京0491民初45708号、(2024)京73民终546号

9.https://cdn.deepseek.com/policies/zh-CN/deepseek-terms-of-use.html

10.https://www.kimi.com/user/agreement/modelUse?version=v2

11.https://www.tesla.cn/legal/privacy

 

 

律师介绍

樊思琪律师


北京市京师(深圳)律师事务所高级合伙人、数字经济法律事务中心副主任、青年律师工作委员会 副主任。

 

业务领域:

企业合规、数据合规及个人信息保护、数据交易及入表、公共数据授权运营等数据要素市场化法律服务;人工智能行业及Web3.0相关行业;游戏行业法律服务;投融资并购及资产证券化业务等。

 

专业资质:

国际认证德国莱茵TüV DPO(数据保护官)/ISO37301 ;深圳数据交易所DEXCO(数据交易合规师) ;DAMA数据治理工程师;ESG合规管理分析师 ;证券及基金从业资格证 ;荣获“2025年GRCD中国年度青年律师”

 

专业著作:

《金融消费者权益保护的法律实践及合规体系构建》法律出版社,2023年; 

《数据合规全攻略:法规解析、实践应用及数据资产化探索》法律出版社,2025年

 

王岩飞律师

 

广东省律师协会数字经济法律专业委员会副秘书长

深圳市律师协会数据合规法律专业委员会副主任

北京市京师(深圳)律师事务所  联合创始人、数字经济法律事务中心主任 

中南财经政法大学大湾区数字经济法律研究中心副主任

深圳市大数据研究与应用协会首席法律顾问、数据合规研究院执行院长

深圳数据交易所DEXCO(数据交易合规师)

国际认证TüV DPO(数据保护官)/ISO37301

 

研究领域:

网络安全与数据合规、数字经济、互联网犯罪辩护

 

教育背景:

中南财经政法大学

 

聂雯珺律师

 

北京市京师(深圳)律师事务所律师、法律研究院研究员

 

业务领域:

数据资源入表、数据交易及公共数据授权运营等数据要素市场化法律服务。

联系我们
  • (+86) 0755-82796094
  • hr-shenzhen@jingsh.com
  • 广东省深圳市福田区彩田路广电文创中心五、六、七、九、十、十一楼
法律咨询热线:

400-875-8880

400-679-9709

微信扫码关注
京师深圳律所
微信扫码咨询
京师深圳律所
Copyright © 2020 北京市京师(深圳)律师事务所 | 粤ICP备2020086911号-1