% ============================================================ \section{结论} \label{sec:conclusion} % ============================================================ 本文提出CompanionGuard-RL,一个将情感陪伴AI安全建模为 "检测+自适应干预"统一流水线的框架,填补了现有守卫模型 在伴侣特有关系性风险识别和干预决策两个维度上的空白。 在检测层面,Module B基于MacBERT-Large与跨注意力机制, 在自建CompanionRisk-Bench评测集(9,896条,涵盖10类一级风险和14个细粒度标签)上 实现binary F1 = 0.9995,FNR = 0.0\%, 相比关键词/正则规则基线提升两个数量级, 并在非同源人工数据上验证了跨来源泛化性(binary F1 = 0.9848)。 在干预层面,Module C通过行为克隆预热+PPO强化学习, 学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。 与规则基线相比,RL策略的安全召回率(1.0 vs 0.908) 和安全-体验综合得分(0.998 vs 0.952)均显著更优, 同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。 CompanionRisk Taxonomy、CompanionRisk-Bench数据集 和CompanionGuard-RL框架代码将公开发布, 以推动情感陪伴AI安全领域的研究。 未来工作将重点优化CRISIS动作精准率、 增加跨语言泛化验证, 并探索基于人类反馈的干预策略精化。