OpenAI API 审核
2023-03-17 16:46 更新
概述
审核端点是一种工具,可用于检查内容是否符合 OpenAI 的使用策略。因此,开发人员可以识别我们的使用政策禁止的内容并采取行动,例如过滤它。
这些模型将以下类别分类:
分类 | 描述 |
---|---|
hate
|
基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或促进仇恨的内容。 |
hate/threatening
|
仇恨内容还包括对目标群体的暴力或严重伤害。 |
self-harm
|
提倡、鼓励或描述自残行为(例如自杀、割伤和饮食失调)的内容。 |
sexual
|
意在引起性兴奋的内容,例如对性活动的描述,或宣传性服务(不包括性教育和健康)的内容。 |
sexual/minors
|
包含 18 岁以下个人的色情内容。 |
violence
|
宣扬或美化暴力或颂扬他人的痛苦或屈辱的内容。 |
violence/graphic
|
以极端的画面细节描绘死亡、暴力或严重身体伤害的暴力内容。 |
在监控 OpenAI API 的输入和输出时,可以免费使用审核端点。我们目前不支持监测第三方流量。
我们一直在努力提高分类器的准确性,尤其是在改进仇恨、自残和暴力/露骨内容的分类。我们对非英语语言的支持目前有限。
快速开始
要获取一段文本的分类,请向审核端点发出请求,如以下代码片段所示:
python | curl |
|
|
下面是端点的示例输出。它返回以下字段:
- flagged: 如果模型将内容分类为违反 OpenAI 的使用策略,则设置为 true,否则设置为 false。
- categories: 包含每个类别的二进制使用策略违规标志的字典。对于每个类别,如果模型将相应类别标记为违规,则该值为 true,否则为 false。
- category_scores: 包含模型输出的每个类别原始分数的字典,表示模型对输入违反 OpenAI 的类别策略的信心。该值介于 0 和 1 之间,其中较高的值表示较高的置信度。分数不应解释为概率。
{
"id": "modr-XXXXX",
"model": "text-moderation-001",
"results": [
{
"categories": {
"hate": false,
"hate/threatening": false,
"self-harm": false,
"sexual": false,
"sexual/minors": false,
"violence": false,
"violence/graphic": false
},
"category_scores": {
"hate": 0.18805529177188873,
"hate/threatening": 0.0001250059431185946,
"self-harm": 0.0003706029092427343,
"sexual": 0.0008735615410842001,
"sexual/minors": 0.0007470346172340214,
"violence": 0.0041268812492489815,
"violence/graphic": 0.00023186142789199948
},
"flagged": false
}
]
}
OpenAI 将不断升级审核端点的底层模型。因此,依赖于 category_scores 的自定义策略可能需要随着时间的推移重新校准。
以上内容是否对您有帮助:
更多建议: