网易易盾朱浩齐受邀出席杭州通用人工智能论坛，发表AIGC内容治理相关演讲

来源：看点时报 2023-05-31 18:23:33

5 月 30 日，由中国信息通信究院、浙江省经济和信息化厅、杭州市人民政府、中国人工智能产业发展联盟主办的杭州通用人工智能论坛，在杭州未来科技城学术交流中心成功举办。

本次会议以“大模型应用机遇和挑战”为主题，超过 1000 名产学研代表现场参会，共同探讨人工智能领域的创新经验与创新方向。网易易盾 CEO 朱浩齐受邀出席大会，并以《AIGC 浪潮下数字内容风控的新挑战》为主题发表演讲。以下是演讲实录：

中国杭州

中国信通院副总工程师、中国人工智能产业发展联盟副秘书长王爱华大会致辞

各位领导、各位嘉宾，大家下午好！易盾是一家数字内容风控公司，自成立以来一直服务网易内部及行业其他公司的客户。刚才很多嘉宾也提到了大模型、AIGC 相关内容，我也想借此机会，和大家回顾一下，人工智能技术在“数字内容风控”行业的一些成长历程。本次分享分为四个方面：

一、简要介绍 AIGC 相关技术及应用；

二、介绍 AIGC 带来的潜在风险和挑战；

三、探讨应对这些挑战的策略；

四、对未来内容风控技术趋势进行判断。

2022-2023年的AIGC

数据快速繁殖，十年后模型的参数量可与人类总脑容量相当。

近半年来，以 ChatGPT 为代表的 AIGC 技术引起了广泛关注。借助 AIGC 技术，人们可以创作独特作品、提升工作效率，但也可能将其用于非法活动。数字内容风控行业也面临新的挑战，如何更有效、精准地识别风险，确保内容的合法性和真实性，值得探讨。因此，今天将与大家分享数字内容风控在 AIGC 浪潮下所面临的新挑战及应对策略。

ChatGPT 是史上用户数量增长最快的平台之一。2022 年底，OpenAI 推出 ChatGPT。令人惊叹的是，仅仅两个月后，月活跃用户就突破了亿级，这使得 AIGC 成为备受瞩目的话题。

ChatGPT 作为 AIGC 的一部分，主要用于文字生成，而 AIGC 不仅包括文字生成，还包括图像、3D 和音视频生成等。文字生成可用于智能对话，图像生成技术可用于艺术创作，3D 生成技术可应用于建筑、工业设计等领域，视频生成技术可生产出兼具艺术性和创新性的视频内容。在 AIGC 的助力下，上述工作的效率推被进到了一个全新的水平。

在文本领域，2018 年 GPT-1 的诞生标志着 NLP 无监督预训练模型的开端。随着 GPT-2、GPT-3、ChatGPT 和 GPT-4 的不断发展，这些模型的参数量已经从最初的大约1亿增长到了万亿级别。如果把 GPT-1 的参数量比喻为西湖的大小，现在 GPT-4 的规模已经相当于浙江省的面积。如果以这种速度继续下去，五年或十年后，模型的参数规模将达到地球甚至太阳表面积的数量级。这种快速发展和参数量的巨大是非常惊人的，十年后模型的参数量可能与人类总脑容量相当。

图像生成领域在过去的 10 年中也经历了快速的发展。2014 年，生成对抗网络开启了图像生成算法的新篇章。2021 年，基于扩散模型的算法凭借“加噪和去噪”的思路生成质量更高、多样性更强的图像，成为目前图像合成领域的主要研究方向。另外，Midjourney 是一款高质量的图像生成工具，始终采取不开源与收费的模式，已经成为众多设计师和画家的得力助手。如今，生成的图像质量已然以假乱真。

相较于图像生成，视频生成更难一些，但是目前合成视频的质量相比前几年已经有了很大的提升。在技术路线上，视频生成算法也较多地借鉴了图像生成相关的算法，例如当下研究火热的扩散模型。此外，和图像一样，视频生成也逐渐从单模态的视频生成逐渐走向跨模态的视频生成。举例而言，AIGC 支持基于文本描述生成一段视频。

综上而言，AIGC 实际上已经发展了很多年，并在各个领域取得了不错的进展。最近，以 ChatGPT 为代表的算法引起了人们的高度关注，让人们感受到了智能的存在和生产效率的提升，但同时也带来了一系列的风险和挑战。

警惕充斥侵权、虚假、垃圾的数字世界

潜力巨大，但发展之路充满挑战。

自诞生以来，ChatGPT 的数据安全问题和隐私问题一直被提及。这与其训练方式密切相关，喂养 ChatGPT 的训练数据不仅包括维基百科，还包括其他社交媒体、新闻、科学论文等多种来源。

这种训练方式还带来了另一大算法问题：数据泄露，即生成的数据和训练数据很相似，如下方的版权图可能存在侵权风险（左图来源：Erin Hanson，右图来源：Rachel Metz via Stable Diffusion）。

此外，虽然用 ChatGPT 能够轻松应对日常写作任务，而在其背后，却参杂着高比例的虚假信息，人工验证不可或缺。由此可见，AIGC 技术在下游应用上仍有许多不完善的地方。

确实，AIGC 技术的一个显著特点就是内容生成速度快。在 PGC 时代，内容生成主要依靠专业的创作团队，生成速度较慢，内容也比较单一。在 UGC 时代，内容生成更多地依靠用户创作，速度得到了明显提升，但质量不稳定。而在 AIUGC 和 AIGC 时代，内容生成速度更快，并且能够创造出具有艺术性、创新性和独特性的作品，内容创作空间更加广阔。

除了生成速度快之外，AIGC 技术可生成多样化的内容类型，包括文字、图片、音频、视频等，也支持在已有真实内容上做自定义修改。同时，借助跨模态技术，人们只要说一段话、写一段文字就能生成对应的内容，大大降低了内容创作的难度。

AIGC 不仅生成速度快、内容多样，而且内容逼真。以目前最常见的人脸生成为例，人物的整体形态和脸部细节都和真人相差无几，甚至连光影效果、虚化都能以假乱真。

基于以上 AIGC 的显著特点，在带来生产效率提升的同时，也充斥着欺诈、不合规内容的泛滥，给内容风控带来了新的挑战。这不仅要求内容风控需要精准有效，而且要能快速识别特定内容，保障内容的合法性和真实性。

变与不变，呼唤数字风控新时代

AIGC 暴露潜在问题，智能风控技术来弥补。

针对 AIGC 技术所带来的风控难题，易盾依靠近些年和黑产的对抗，沉淀出一套全方位的风控体系，结合近期出现的 AIGC 风险加以验证和优化，不断适应新的挑战。

这套风控体系应涵盖多个环节，以实现对生成内容的全面、精准、实时监控和管理，确保内容的安全可靠。

在体系建设方面，我们从 AIGC 提供商运营角度出发，结合国家政策与丰富的行业经验，提供了覆盖事前—平台运营前置的风险、事中—平台内容合规风险以及事后—投诉与违规处理风险的全流程解决方案。在 AI 算法治理、安全制度管理、AI 伪造内容识别、实时审核平台建设与人机交互等方面不断开拓与创新，构建了多轮多模态的内容风控体系，以确保平台上的内容安全合规，同时保证 AIGC 技术的正常运营和发展。

在产品形态上，我们设计了支持业务定制拦截尺度的策略，以满足每个客户的不同需求和标准。由于相同客户在不同场景不同时期的标准也会存在差异，我们采用通用标准和个性化标准结合的策略，通用标准的复用可以大大节约新客户接入的成本，个性化标准则进一步贴合客户定制需求，从而实现更加灵活、高效的内容风控服务。

为实现产品形态上的策略定制，网易易盾设计了多层级的标签组合。层级粒度越细，不仅有利于策略方案上灵活组合，实现客户定制需求，而且不断沉淀为坚实的知识库，借助知识图谱的能力，可以实现更强的信息检索和关联分析。

在算法层级上，我们设计了基于领域泛化的算法优化流程，在数据、特征学习、模型设计、训练技巧等方面分别进行优化。通过提高数据多样性和模型鲁棒性，领域差异的影响将越来越小，通用知识的积累使得模型在零样本、少样本迁移方面更有优势。这个思想也是大模型的基本思想，通过优化模型结构和算法流程，提高模型的泛化能力和适应性，以实现更加精准和高效的内容风控服务。

我们来看实际遇到的案例，首先是人脸相关的。AIGC 的人脸和真实人脸相比，细节丢失非常多，强行与真实人脸匹配难度较大。我们基于扩散模型实现了各类风格和人物的生成，多样化的大数据强化了人脸识别能力，同时新增形态识别、风格识别等辅助能力。最终，基于人脸、风格、人体形态、背景等联合特征进行综合决策与识别，我们实现了过度篡改条件下对于人脸识别、人脸属性、以及篡改方法等内容的精准识别，问题解决率在 80% 以上。

在色情性感方面，AIGC 可以低成本、快速生成大量色情性感内容，因此色情、性感的擦边球数据占比越来越多，随之而来的是不同客户对这些数据的拦截标准不一，此时采用一套统一的色情性感标准难以准确满足不同客户的需求。我们构建了基于色情性感大模型的定向学习能力，可实现快速迁移，最终实现面向每个客户的能力定制。定制成本相比之前减少一半以上，且效果普遍提升 30% 左右。

此外，还有一些新型的风险，如未成年人孕肚、男男孕肚等均是不良价值导向，这些新型风险的识别需要模型具备更强的语义能力。我们构建了图文多模态大模型，提供基础且强大的通用图像语义能力，借助高效的迁移学习能力，更准确识别指定风险数据。目前我们已支持十余项新型风险识别能力，定制成本减少 80%。

抓住 AI 跨越式发展的机遇之窗

洞察内容风控技术趋势，捕捉机遇，应对未来挑战。

AIGC 带来的全行业变化，可谓是改天换地，即使是过去看似稳固的方案和成熟的经验，在当今或已经不再适用。

为了适应新风险的挑战，互联网平台企业要求变，看清现在、洞察未来，以便选择正确的方向并制定有效的战略。以易盾为例，我们不断基于 AIGC 内容风险特点变革“数字内容风控”服务，以满足行业不断变化的需求。

如图所示，未来的内容风控需要解决的问题很多，但留给我们解决这些问题的时间却很短，这对我们的快速响应能力提出了极大的考验。

行业里有种说法，叫“技术是把双刃剑”。面对AIGC，我们除了防范它的负面效果外，也要充分利用它的正面能力。举个例子，在《复仇者联盟》这部电影里，人类创造的智能体奥创要启动核弹密码意图毁灭人类，最后是另外一个人工智能体贾维斯一直在变更密码保护人类。那回到现实中，我们也要充分利用大模型的技术，进一步提升我们的内容识别能力。比如我们对AIGC技术的研究，提前预演了大量潜在的内容风险，帮助易盾的“贾维斯”提前学习到了更多类型的有害信息，它便有了更好更快的防御能力。这也验证了网络上的一个梗，叫“用魔法打败魔法”。

从技术层面来看，AIGC 也确实可以赋能到内容风控能力，实现从定制到通用、从后知后觉到提前预判、从感知到认知的跨越。这种跨越使得内容风控能力更加全面、深入、稳定，从而显著提升了内容风控的效果和响应速度。通过借力 AIGC 技术本身，我们可以更快速、更准确地检测和识别涉嫌违规的内容，从而有效地保护用户和平台的合法权益。

未来的内容风控会朝着更加智能、灵活、互动的方向发展。在标准的自适应、边界的自界定、模态的自对齐等方面不断突破。我们可以像跟 ChatGPT 聊天一样，说出我们的标准和诉求，从更加主观化、更加个性化、更加多元化的视角来更好的完成内容风控任务，以实现更安全、更优质的内容风控任务，提供更好的用户体验。

最后我想说，技术的进步不可逆转，为了更好享受技术带来的便利，我真心希望数字内容风控技术，会像空气之于物理世界一样，在虚拟世界中无处不在，却又不宜感知。毕竟历史经验告诉我们，绝对的自由带来的是毁灭，放任网络内容混乱必然会影响到现实世界秩序。但我也有一些美好的愿望，希望安全能更加温暖、更加人性化，对于违规用户不再是粗暴的管理，而是更好地引导人们去使用技术，创造美好的内容。用魔法打败魔法，用最强的矛来打造最强的盾，网易易盾将一直坚持下去，为行业可信安全发展贡献自己的力量。谢谢大家！

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com