Anthropic 表示,部分 Claude 模型现在可以结束“有害或辱骂性”对话 

17次阅读
没有评论

Anthropic 宣布了新功能 ,允许其一些最新、最大的模型在公司称之为“罕见、极端的持续有害或辱骂性用户互动情况”时结束对话。引人注目的是,Anthropic 表示,这样做并非为了保护人类用户,而是为了保护 AI 模型本身。

Anthropic 表示,部分 Claude 模型现在可以结束“有害或辱骂性”对话

需要明确的是,该公司并未声称其 Claude AI 模型具有感知能力,也未声称其与用户的对话会对其造成伤害。用 Anthropic 自己的话说,该公司“对 Claude 和其他 LLM 模型现在或将来的潜在道德地位高度不确定”。

然而,其声明指出最近设立了一个旨在研究其所谓“模范福利”的项目,并表示 Anthropic 本质上采取了一种以防万一的做法,“致力于确定和实施低成本的干预措施,以减轻模范福利的风险,以防这种福利有可能实现。”

这项最新变更目前仅限于 Claude Opus 4 和 4.1 版本。再次强调,该变更仅在“极端情况”下才会发生,例如“用户请求提供涉及未成年人的性内容,以及试图索取可能引发大规模暴力或恐怖行为的信息”。

虽然这些类型的请求可能会给 Anthropic 本身带来法律或宣传问题(看看最近关于 ChatGPT 如何潜在地强化或助长其用户的妄想思维的报道),但该公司表示,在部署前的测试中,Claude Opus 4 表现出“强烈的反对”回应这些请求,并且在回应时表现出“明显的痛苦模式”。

至于这些新的对话结束功能,该公司表示,“在所有情况下,Claude 只会在多次重定向尝试失败、对有效互动的希望已经耗尽,或者当用户明确要求 Claude 结束聊天时,才使用其对话结束功能作为最后的手段。”

Anthropic 还表示,Claude 已被指示“在用户可能面临伤害自己或他人的迫在眉睫的风险的情况下不要使用此能力”。

当 Claude 结束对话时,Anthropic 表示用户仍然可以从同一帐户开始新的对话,并通过编辑他们的回复来创建有问题的对话的新分支。

该公司表示:“我们将这一功能视为一项持续的实验,并将继续改进我们的方法。”

正文完
 0
评论(没有评论)