Files
CompanionGuard-RL/paper/sections/09_conclusion.tex

28 lines
1.4 KiB
TeX
Raw Normal View History

% ============================================================
\section{结论}
\label{sec:conclusion}
% ============================================================
本文提出CompanionGuard-RL一个将情感陪伴AI安全建模为
"检测+自适应干预"统一流水线的框架,填补了现有守卫模型
在伴侣特有关系性风险识别和干预决策两个维度上的空白。
在检测层面Module B基于MacBERT-Large与跨注意力机制
在自建CompanionRisk-Bench评测集9,896条涵盖10类一级风险和14个细粒度标签
实现binary F1 = 0.9995FNR = 0.0\%
相比关键词/正则规则基线提升两个数量级,
并在非同源人工数据上验证了跨来源泛化性binary F1 = 0.9848)。
在干预层面Module C通过行为克隆预热+PPO强化学习
学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。
与规则基线相比RL策略的安全召回率1.0 vs 0.908
和安全-体验综合得分0.998 vs 0.952)均显著更优,
同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。
CompanionRisk Taxonomy、CompanionRisk-Bench数据集
和CompanionGuard-RL框架代码将公开发布
以推动情感陪伴AI安全领域的研究。
未来工作将重点优化CRISIS动作精准率、
增加跨语言泛化验证,
并探索基于人类反馈的干预策略精化。