openai/privacy-filter · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
[!quote]+
OpenAI隐私过滤器是一种双向令牌分类模型,用于文本中的个人身份信息(PII)检测和掩蔽。它面向高吞吐量的数据净化工作流程,团队需要一个能够在本地运行、快速、上下文感知且可调的模型。OpenAI隐私过滤器通过预训练自回归,能够到达一个结构类似于GPT-OSS但体积更小的检查点。然后我们将该检查点转换为基于隐私标签分类法的双向令牌分类器,并用监督式分类丢失进行后期训练。(有关 gpt-oss 的架构细节,请参见 gpt-oss 模型卡。)该模型不逐个生成文本符号,而是在一次前向传递中标记输入序列,然后通过约束维特比程序解码相干张成。对于每个输入词,模型预测标签分类法上的概率分布,该分类法包含8个输出类别,如下所述。
宽松的Apache 2.0许可:非常适合实验、定制和商业部署。
小尺寸:可在网页浏览器或笔记本电脑上运行------总参数为1.5亿,活动参数为5000万。
可微调:通过简单且高效的微调,调整模型以适应特定数据分布。
长上下文:128,000令牌上下文窗口支持高吞吐量且无分块处理长文本。
运行时控制:通过预设操作点配置精度/回忆权衡和检测到的跨度长度。
1 个帖子 - 1 位参与者