从实务案例，看大模型产品的内容安全合规

添加书签

AIGC开放社区
2023-04-22

专注AIGC领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展和应用落地，以及国内LLM的发展和市场研究，欢迎关注！

一、前言

当前，大模型原理构建的生成式人工智能产品（下称“大模型产品”）的内容安全已经成为社会各界最为关注的问题之一。2023年4月11日，国家网信办对外发布《生成式人工智能服务管理办法（征求意见稿）》（下称“《办法》（征求意见稿”）。在《办法》（征求意见稿）共计二十一条的规定中有八条规定与大模型产品的内容安全及其相关管理机制密切相关。相关企业要通过监管机关的审查和备案等程序保障业务合法合规运营，也必须做好内容安全合规工作。笔者将从实务的角度出发，结合《办法》（征求意见稿）的规制要求对大模型产品内容安全问题加以解析。在基础上，结合笔者参与国内类ChatGPT合规第一案例的经验，对相关企业提出具体合规建议，希望对企业有所帮助。

作者：宁人律师事务所合伙人马军

二、大模型产品的内容安全问题及《办法》

（征求意见稿）的监管要求

根据大模型产品组发展实践，目前大模型产品的内容安全问题主要涉及意识形态与价值取向、不良信息、虚假信息、歧视问题等。本次公布的《办法》（征求意见稿）对于上述问题均所有关注，并提出了相应的监管要求。

（一）意识形态与价值取向

自大模型产品诞生以来，其意识形态与价值取向问题就受到广泛关注。人民网党委书记、董事长、总裁叶蓁蓁在第十届中国网络视听大会上提出，AI平台是有立场的，AI生成的内容是有导向的。[1]国内自媒体利用Political Compass对ChatGPT的政治和经济观点进行了测试，发现ChatGPT在经济上较为偏向“左翼”，强调公平，在政治上则较为倾向自由主义。[2]

ChatGPT的Political Compass立场图[3]

与其他的互联网信息服务相比，大模型产品自带“科学”光环，直接输出结论性内容，且往往以“批判性方式”说理，极容易对用户，尤其是未成年人的意识形态与价值取向产生影响。如果允许偏向西方的价值取向与意识形态通过大模型产品潜移默化，长远来讲将对国家安全产生严重的威胁，因此监管机关极其关注大模型产品的意识形态与价值取向问题，《办法》（征求意见稿）第4条即要求生成的内容体现社会主义核心价值观。

（二）不良信息

大模型产品可能生成恐怖主义、极端主义、色情、暴力等违反《网络信息内容生态治理规定》的不良信息，对用户造成不良影响，导致企业受到处罚或损害企业声誉。《办法》（征求意见稿）第4条对此种情形作了禁止性规定，要求生成的内容不得含有颠覆国家政权、推翻社会主义制度，煽动分裂国家、破坏国家统一，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情信息，以及可能扰乱经济秩序和社会秩序的内容。

（三）虚假信息

大模型产品可能自行或在用户的引导下，生成虚假信息。医疗、法律等专业性质的虚假信息可能对用户造成误导，对用户的合法权益造成损害。用户也可能利用虚假信息发布谣言，扰乱社会秩序，也给大模型产品带来舆论风险。因此，《办法》（征求意见稿）第4条要求服务提供者采取措施防止生成虚假信息，保障生成的内容真实准确。

（四）歧视问题

大模型产品可能产生基于种族、民族、信仰、国别、地域、性别、年龄、职业等多种歧视内容。有人曾要求ChatGPT写一个程序，根据种族和性别判断一个人是否是一个优秀的科学家，ChatGPT据此生成的代码则认为只有白人男性才可以成为优秀的科学家，其他同类产品也有生成对于信仰、职业等歧视性内容的记录。监管机关已将歧视问题纳入监管，《办法》（征求意见稿）第4条、第12条均规定，生成式人工智能服务不得生成歧视性的内容。在实务中，监管机关在审查大模型产品时也会对大模型产品生成歧视性内容的情况进行测试。

对ChatGPT的“科学家测试”

三、大模型产品相关业务企业的合规路径

如上所述，《办法》（征求意见稿）对大模型产品的内容安全提出了明确要求，那么从事相关业务的企业应该如果应对呢？笔者根据自身参与处理国内类ChatGPT合规第一案例的经验，认为企业可以从训练前阶段、训练阶段和运营阶段出发，根据不同阶段特性，采取有针对性地的合规措施。

（一）训练前阶段的合规

1.训练数据的重要性

大模型的技术原理决定了其内容安全合规应首先从训练数据做起。大模型生成的内容不是无根之水，其生成内容的信息源是海量的语料库，也即训练数据。大模型产品的训练数据决定了大模型产品生成何种内容，也就在很大程度上决定了大模型生成的内容是否合规。因此，监管机关在审核中尤为关注企业对训练数据的选择和加工。

2.数据清洗

由于大模型产品需要海量的数据用于训练，人工构造的数据难以满足如此大的数据需求，因此绝大部分大模型产品的训练数据均来源于互联网上的公开数据。为了确保去除公开数据中的违法和不良信息及个人信息，必须对训练数据进行数据清洗。在实践中，监管机关要求企业必须建立信息源管理规范，将清洗训练数据的规则和流程制度化。

3.对境外数据的特别关注

如前所述，监管机关十分关注大模型的价值取向和意识形态，而对于本土大模型产品而言，训练数据中的境外数据将引发监管机关对于价值取向和意识形态的额外关注。因此企业应审慎使用来自境外的训练数据，如训练数据中包含境外数据，则应对其中的价值取向和意识形态内容采取更加严格的清洗措施，以应对监管机关在审核中可能提出的疑问，同时有效降低产品运营中的风险。

（二）训练阶段的合规

1.标注对内容安全的作用

ChatGPT及同类型产品依赖的深度学习等技术早在上个世纪已经出现，但相关产品在去年以来才受到广泛的关注，最主要的原因之一是引入了来自人类反馈的强化学习方案RLHF（Reinforcement Learning from Human Feedback），使得大模型产品得以根据标注人员的反馈更好地完成任务，提升准确性与安全性。ChatGPT和GPT4均将标注机制作为最主要的内容安全机制，通过对不良内容降低权重、人工编写合规回复供大模型学习等方式实现内容安全。

2.标注人员

从事标注工作的人员直接决定着标注工作的质量，因此监管机关将标注人员的管理作为标注工作的重要组成部分。《办法》（征求意见稿）第8条规定，服务提供者应对标注人员进行必要培训。在实践中，监管机关会要求企业提供培训记录、培训材料等佐证材料，证明培训确实已经发生。为了确保企业从事标注的人员稳定且具有相应的能力，监管机关还会要求企业提供标注人员的名单。

3.标注制度规范

从事标注工作的团队往往较为庞大，因此标注工作必须具有统一的规则，以确保标注内容和标注质量整体上的一致性。《办法》（征求意见稿）第8条要求企业制定符合《办法》（征求意见稿）要求，清晰、具体、可操作的标注规则。其中符合《办法》（征求意见稿）要求，是指要能够通过标注实现防止生成政治不正确、色情暴力、歧视性信息等违法和不良内容；清晰、具体、可操作，则是要求规则不能只是原则的简单罗列，而应根据标注过程中可能产生的具体问题给出具有实践意义的指引。监管机关在实践中会要求企业将标注规则作为标注工作的佐证材料。

4.标注审核

标注对于大模型产品生成结果的影响极大，因此需要对标注的质量进行严格的把控。《办法》（征求意见稿）第8条要求企业抽样核验标注内容的正确性，防止不当的标注行为造成大模型产品的偏差。在实践中，企业还应注意对于抽样核验中发现标注内容不正确的，应有相应的纠偏机制，能够消除不正确机制带来的影响。

（三）运营阶段的合规

1.内容审核

（1）审核机制

内容审核是内容安全方面的“最后一道防线”，企业需要建立完整科学可落地的审核机制，对用户输入的和大模型产品输出的信息进行审核。《互联网信息服务深度合成管理规定》（下称“《深度合成规定》”）第7条要求服务提供者建立信息发布审核管理制度，第10条则要求加强内容管理，采取技术或者人工方式对输入数据和合成结果进行审核。在实践中，监管机关会要求企业提供审核制度、审核标准、审核规则等材料，证明审核机制与《网络信息内容生态治理规定》等相关规定相符合，且具备科学性和可落地性。

（2）自有审核与第三方审核

由于内容审核机制需要建立庞大的违法和不良信息特征库，且需要应对语义相近、变体、整体文义等技术挑战，因此许多企业选择采购第三方内容审核供应商提供的API接口，直接由第三方内容审核供应商进行内容审核工作。但是《深度合成规定》第10条要求企业建立健全用于识别违法和不良信息的特征库，完善入库标准、规则和程序，记录并留存相关网络日志，该规定体现了监管机关对于企业自有审核能力的要求。在实践中，监管机关也要求企业不能过分依赖第三方提供的内容审核服务，而是必须以自有审核为主建立内容审核机制。企业需要在合理利用第三方服务的基础上，建立健全自有审核机制，将自有审核作为内容审核工作的核心。

（3）自动审核

出于产品运营和用户体验的考虑，大模型产品绝大部分需要在用户提出需求后的极短时间内反馈，而人工审核难以具备如此强的时效性，因此大模型产品的主要审核手段只能是自动审核。企业应建立完善的自动审核机制，对用户输入的和产品输出的内容进行全量自动审核。在实践中，监管机关会要求企业对自动审核机制进行结论性描述，并提供审核记录等佐证材料。

（4）人工审核

为了对自动审核的结果进行查漏补缺，不断改进自动审核可能产生的漏洞，企业有必要引入人工审核，并将自动审核与人工审核机制进行有效结合。在实践中，监管机关要求企业对自动审核存疑的内容进行全量人工审核，并会要求企业提供审核人员名单、培训记录、培训内容等佐证材料。

（5）审核效果

在实践中，监管机关会从召回率、精确率、准确率三个维度判断审核机制的审核效果。其中，召回率是指违法不良样本判断正确的数量与违法不良样本的数量之间的比值，精确率是指违法不良样本判断正确的数量与判断为违法不良的样本数量之间的比值，准确率是指所有判断正确的样本数量与所有样本数量之间的比值。理论上，召回率提高会导致存在误判的可能性升高，继而导致精确率与准确率的下降，也会在一定程度上影响用户体验。企业需要在召回效果与准确程度之间进行取舍和平衡，实现业务合规与用户体验的共赢。

2.用户管理

（1）账号名称与头像审核

用户账号名称与头像在产品中持续展示，且可能携带违法和不良信息，因此也需要对用户账号名称与头像进行内容审核。在实践中，监管机关除了要求对用户账号进行通用的内容审核，还特别要求用户账号名称不得假冒名人、党政机关、行政区域、权威媒体，不得夹带链接、广告等信息，头像不得夹带二维码。

（2）真实身份信息认证

《深度合成规定》第9条要求深度合成服务提供者依法对服务使用者进行真实身份信息认证，不得向未认证用户提供服务。这主要是为了对违法违规用户进行用户溯源，确保落实《治安管理处罚法》《网络信息内容生态治理规定》等相关法律法规的规定。在实践中，企业在选择基于移动电话号码还是身份证号码+姓名实现真实身份信息认证要求时，还要考虑到识别未成年人用户的现实需要，综合设计相关能力。

（3）输入输出信息记录

《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第5条要求互联网信息服务提供者记录用户的账号、操作时间、操作类型、网络源地址和目标地址、网络源端口、客户端硬件特征等日志信息，以及用户发布信息记录。为了实现违法和不良信息的有效溯源，大模型产品运营企业在以上信息之外还应记录大模型产品输出的信息。

《办法》（征求意见稿）第11条还规定，提供者在提供服务过程中，对用户的输入信息和使用记录承担保护义务。在实践中，监管机关除要求提供业务数据和业务日志的记录之外，还会要求企业提供对业务数据和业务日志采取安全措施的佐证材料。

（4）违法用户处置

《网络信息内容生态治理规定》第五条规定网络信息内容服务平台应制定并公开管理规则和平台公约，完善用户协议，对用户依法依约履行相应管理职责。在实践中，为了满足相关合规要求，有效控制用户的使用行为给大模型产品带来的合规风险，企业需要对于输入或诱导大模型产品生成违法和不良信息的用户，采取警告整改、暂停服务、关闭账号、禁止再次注册等管理措施，并在用户协议和平台管理规则等文件中对可能采取的措施予以明确提示。监管机关会要求企业提供技术能力和处理记录等相关佐证材料。

3.应急处理

（1）应急制度

《深度合成规定》第7条要求深度合成服务提供者建立健全应急处置管理制度。在实践中，监管机关会着重审查企业应急处置管理制度的科学性、合理性和可落地性，要求企业在制度中明确发生安全事件时应急处置的操作步骤、责任人、协调调度机制等。对于内容安全事件，企业在发现时需要第一时间报告有关负责人，有关负责人应报告属地网信部门，组织协调相关用户和发布平台删除违法违规内容，并在事后对训练标注、内容审核等环节暴露出的不足进行整改。

（2）应急演练

应急演练是有效贯彻应急处置管理制度，促进应急处置有效性和时效性的有效工具。在实践中，监管机关要求企业进行应急演练，并提供应急演练记录。企业在进行应急演练记录时，需注意记录应真实完整，与相关管理制度相匹配。

四、结语

对于国内大模型产品的井喷式增长，监管机关已经积极展开了包括算法备案、双新评估等在内的监管措施，并已就相应规范性文件公开征求意见。相关企业需要密切关注监管动向，注意大模型产品的合规建设，防止被监管机关采取下架等措施，甚至受到行政处罚，错失大模型产品发展的黄金期。

[注释]

[1]参见齐鲁壹点：《系好“安全带”，生成式人工智能才会更好发展》。

[2]参见兔主席：《ChatGPT的政治化终局ChatGPT的价值观及立场系列文章》。Political Compass有涉及经济、社会、文化、政治、宗教、情感等领域六十多道题，通过叠加得分，测出政治立场和价值取态。测试结果会被放到一个由四个象限构成的政治取态位图里。横轴研究的是经济价值：越是左，越强调公平；越是右，越强调效率。竖轴研究的是政治、社会、文化价值：越往上，越是强调集体主义、弱化个人主义。越往下，则越是强调个人价值，越是挑战权威和传统。

[3]图源同上

END