openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型

huggingface.co openai/privacy-filter · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open...
openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型
openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型
huggingface.co

openai/privacy-filter · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

[!quote]+
OpenAI隐私过滤器是一种双向令牌分类模型,用于文本中的个人身份信息(PII)检测和掩蔽。它面向高吞吐量的数据净化工作流程,团队需要一个能够在本地运行、快速、上下文感知且可调的模型。

OpenAI隐私过滤器通过预训练自回归,能够到达一个结构类似于GPT-OSS但体积更小的检查点。然后我们将该检查点转换为基于隐私标签分类法的双向令牌分类器,并用监督式分类丢失进行后期训练。(有关 gpt-oss 的架构细节,请参见 gpt-oss 模型卡。)该模型不逐个生成文本符号,而是在一次前向传递中标记输入序列,然后通过约束维特比程序解码相干张成。对于每个输入词,模型预测标签分类法上的概率分布,该分类法包含8个输出类别,如下所述。

  • 宽松的Apache 2.0许可:非常适合实验、定制和商业部署。

  • 小尺寸:可在网页浏览器或笔记本电脑上运行------总参数为1.5亿,活动参数为5000万。

  • 可微调:通过简单且高效的微调,调整模型以适应特定数据分布。

  • 长上下文:128,000令牌上下文窗口支持高吞吐量且无分块处理长文本。

  • 运行时控制:通过预设操作点配置精度/回忆权衡和检测到的跨度长度。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文