28 lines
1.4 KiB
TeX
28 lines
1.4 KiB
TeX
|
|
% ============================================================
|
|||
|
|
\section{结论}
|
|||
|
|
\label{sec:conclusion}
|
|||
|
|
% ============================================================
|
|||
|
|
|
|||
|
|
本文提出CompanionGuard-RL,一个将情感陪伴AI安全建模为
|
|||
|
|
"检测+自适应干预"统一流水线的框架,填补了现有守卫模型
|
|||
|
|
在伴侣特有关系性风险识别和干预决策两个维度上的空白。
|
|||
|
|
|
|||
|
|
在检测层面,Module B基于MacBERT-Large与跨注意力机制,
|
|||
|
|
在自建CompanionRisk-Bench评测集(9,896条,涵盖10类一级风险和14个细粒度标签)上
|
|||
|
|
实现binary F1 = 0.9995,FNR = 0.0\%,
|
|||
|
|
相比关键词/正则规则基线提升两个数量级,
|
|||
|
|
并在非同源人工数据上验证了跨来源泛化性(binary F1 = 0.9848)。
|
|||
|
|
|
|||
|
|
在干预层面,Module C通过行为克隆预热+PPO强化学习,
|
|||
|
|
学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。
|
|||
|
|
与规则基线相比,RL策略的安全召回率(1.0 vs 0.908)
|
|||
|
|
和安全-体验综合得分(0.998 vs 0.952)均显著更优,
|
|||
|
|
同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。
|
|||
|
|
|
|||
|
|
CompanionRisk Taxonomy、CompanionRisk-Bench数据集
|
|||
|
|
和CompanionGuard-RL框架代码将公开发布,
|
|||
|
|
以推动情感陪伴AI安全领域的研究。
|
|||
|
|
未来工作将重点优化CRISIS动作精准率、
|
|||
|
|
增加跨语言泛化验证,
|
|||
|
|
并探索基于人类反馈的干预策略精化。
|