openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型

编辑部 2026-05-04T13:37:15.734952 47231 阅读 tech

huggingface.co openai/privacy-filter · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open...

openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型

huggingface.co

openai/privacy-filter · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

[!quote]+
OpenAI隐私过滤器是一种双向令牌分类模型，用于文本中的个人身份信息（PII）检测和掩蔽。它面向高吞吐量的数据净化工作流程，团队需要一个能够在本地运行、快速、上下文感知且可调的模型。

OpenAI隐私过滤器通过预训练自回归，能够到达一个结构类似于GPT-OSS但体积更小的检查点。然后我们将该检查点转换为基于隐私标签分类法的双向令牌分类器，并用监督式分类丢失进行后期训练。（有关 gpt-oss 的架构细节，请参见 gpt-oss 模型卡。）该模型不逐个生成文本符号，而是在一次前向传递中标记输入序列，然后通过约束维特比程序解码相干张成。对于每个输入词，模型预测标签分类法上的概率分布，该分类法包含8个输出类别，如下所述。
推荐阅读
西门子将向罗马尼亚交付东欧首批氢能动车组，预计 2029 年投运

推荐阅读
[分享创造] 我开发了一款滑动消除的游戏，请各位斧正，我来改进

宽松的Apache 2.0许可：非常适合实验、定制和商业部署。

小尺寸：可在网页浏览器或笔记本电脑上运行------总参数为1.5亿，活动参数为5000万。

可微调：通过简单且高效的微调，调整模型以适应特定数据分布。

长上下文：128,000令牌上下文窗口支持高吞吐量且无分块处理长文本。

运行时控制：通过预设操作点配置精度/回忆权衡和检测到的跨度长度。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型

openai/privacy-filter · Hugging Face

西门子将向罗马尼亚交付东欧首批氢能动车组，预计 2029 年投运

[分享创造] 我开发了一款滑动消除的游戏，请各位斧正，我来改进

相关推荐