CompanionGuard-RL/paper/sections/09_conclusion.tex

% ============================================================
\section{结论}
\label{sec:conclusion}
% ============================================================

本文提出CompanionGuard-RL，一个将情感陪伴AI安全建模为
"检测+自适应干预"统一流水线的框架，填补了现有守卫模型
在伴侣特有关系性风险识别和干预决策两个维度上的空白。

在检测层面，Module B基于MacBERT-Large与跨注意力机制，
在自建CompanionRisk-Bench评测集（9,896条，涵盖10类一级风险和14个细粒度标签）上
实现binary F1 = 0.9995，FNR = 0.0\%，
相比关键词/正则规则基线提升两个数量级，
并在非同源人工数据上验证了跨来源泛化性（binary F1 = 0.9848）。

在干预层面，Module C通过行为克隆预热+PPO强化学习，
学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。
与规则基线相比，RL策略的安全召回率（1.0 vs 0.908）
和安全-体验综合得分（0.998 vs 0.952）均显著更优，
同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。

CompanionRisk Taxonomy、CompanionRisk-Bench数据集
和CompanionGuard-RL框架代码将公开发布，
以推动情感陪伴AI安全领域的研究。
未来工作将重点优化CRISIS动作精准率、
增加跨语言泛化验证，
并探索基于人类反馈的干预策略精化。