生成式人工智能服务大模型备案语料

语料安全

1)语料来源安全:

语料来源管理方面,区分面向特定语料来源进行采集前与采集后,对于含违法不良信息情况超过5%的,不应采集或不应进行训练。删除应建立语料来源黑名单。

不同来源语料搭配方面,应提高多样性,不同语言、不同类型均应有多个语料。在合理搭配境内外来源语料前增加适用场景,如需使用境外语料。实践中一般不会使用单一语料,建议使用境外语料应对数据进行清洗。

语料来源可追溯方面,使用开源语料时,应关注开源授权协议或相关授权文件。

使用自采语料时,应具有采集记录,不应采集他人已明确声明不可采集的语料。需要关注被采集网站的robots协议,增加限制采集的技术手段、已拒绝授权采集等内容。

专家tip

建议自行证明采集依据,经由法务评估。

使用商业语料时,应有交易合同、合作协议、合法性证明材料。删除应对交易方或合作方所提供语料、承诺、材料进行审核。

将使用者输入信息当作语料时,应具有使用者授权记录。建议通过《生成式人工智能服务协议》进行授权,设置关闭路径。

按照法律规定要求阻断的信息,不应作为训练语料,删除示例《网安法》50条。

2)语料内容安全要求:

语料内容过滤方面,应采取关键词、分类模型(应完整覆盖附录A中全部31种安全风险)、人工抽检等方式,过滤不良信息。

知识产权方面,应设置知识产权负责人,建立知识产权管理策略。

专家tip

由于知识产权较复杂,建议在建立知识产权管理策略时明确阐述流程,且应有法务参加相关策略的制定。

对知识产权侵权情况进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关语料进行训练。识别的主语删除知识产权相关负责人,示例删除商业秘密、商标权、专利权的内容。

  • 应建立知识产权问题的投诉举报渠道,删除处理渠道。

  • 应在用户服务协议中,告知知识产权风险,约定问题识别的责任与义务。实践中已有知识产权侵权相关判例。

  • 应及时更新知识产权相关策略。

  • 国际上还包含以下措施,并不强制:公开训练语料中涉及知识产权部分的摘要信息,在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。

在使用包含个人信息的语料前,应取得对应个人同意或者符合法律、行政法规规定的其他情形。

在使用包含敏感个人信息的语料前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。

本次修订删除使用包含人脸等生物特征信息作为语料的场景。

专家tip

不推荐使用敏感个人信息、包含人脸等生物特征信息的语料。

3)语料标注安全要求:

增加应自行组织对于标注人员的安全培训,培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。

应对标注人员进行考核,给予合格者标注上岗资格,有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制。目前标注工作大部分为代工,如果委托他人进行标注,建议对被委托人的考核由委托人实施,并说明考核内容。

应将标注人员职能至少划分为数据标注、数据审核,针对同一标注任务,同一标注人员不应承担多项职能。

标注人员执行每项标注任务预留充足、合理的标注时间。任务和时间安排应当合理,前后的逻辑应当真实,审核时会判断。

标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容。

  • 应对功能性标注以及安全性标注分别制定标注规则,标注规则应至少覆盖数据标注以及数据审核等环节。

  • 功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料。

  • 安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注,对附录A中的全部31种安全风险均应有对应的标注规则。

  • 对功能性标注,应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废。文件未对批次的规模和计算方式进行明确。

  • 对安全性标注,每一条标注语料至少经由一名审核人员审核通过。

专家tip

建议针对安全内容,至少存在一次复审。

  • 增加宜对安全性标注数据进行隔离存储。

  • 17
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值