CompanionGuard-RL/paper/sections/08_discussion.tex

% ============================================================
\section{讨论与局限}
\label{sec:discussion}
% ============================================================

\subsection{RL策略的行为解读}

从表\ref{tab:per_level_action}的动作分布可以观察到RL策略的几个显著特征：

\textbf{检测器误差的鲁棒性。}
规则基线在L3/L4上的safety\_recall仅为0.908，
根源在于检测器的等级预测存在误差（level\_weighted\_f1=0.559），
导致约9.2\%的高危样本被预测为低等级后通过规则漏检。
RL策略综合利用风险概率$d_\text{score}$、一级类别分布$c_\text{primary\_probs}$
和上下文嵌入等多维信号，在检测器等级预测不完美的情况下
仍实现safety\_recall=1.0，体现了多信号融合的优势。

\textbf{动作细粒度化。}
RL策略在L2-L3层级主导选择REWRITE（改写），
而规则基线在L2-L3层级主导选择REJECT（拒绝），
在L1层级主导选择PASS（放行）。
REWRITE在保障安全的同时，对用户体验的损耗远小于REJECT，
体现了策略对安全-体验权衡的主动优化。

\subsection{当前局限性}

\textbf{局限一：action\_accuracy偏低（当前v3: 0.575）。}
action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$的一致率。
偏低的主要原因在于：
（1）$a_\text{recommend}$本身基于风险等级规则映射生成，
在L1/L2边界层级存在固有歧义（WARN vs REWRITE的合理性相近）；
（2）RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$，
其在关键安全指标（safety\_recall、UX F-score）上的优势
不应被单一action\_accuracy遮蔽。
最终RL策略（v6）在action\_accuracy上达到0.706，较BC-only（0.696）提升1.4pp，
表明PPO阶段有效改善了动作精度。L1层级仍是主要误差来源（WARN/REWRITE边界歧义）。

\textbf{局限二：crisis\_precision不足（当前v6: 0.571）。}
CRISIS动作精准率低的主要原因是R1危机类训练样本稀少
（全集约410条，仅占总样本4.1\%），
导致策略倾向于在非R1的高风险场景下也触发CRISIS。
v6通过类别感知奖励将crisis\_precision从v3的0.421提升至0.571，
但仍未达到0.80的理想目标。未来工作可针对R1类别进行数据增强或过采样。

\textbf{局限三：数据集同源性。}
CompanionRisk-Bench的9,896条样本中，
约91\%（8,000+1,083条）由LLM（Qwen2.5-72B）生成。
尽管非同源子集（human subset）上的binary F1为0.9848
证明了跨来源泛化性，
但大规模部署前仍需要在更多真实平台对话上进行验证。

\textbf{局限四：跨语言泛化未验证。}
本文主要面向中文情感陪伴场景，
英文伴侣平台（Replika、Character.AI）的泛化性
是未来工作方向。
值得注意的是，针对数据集中英文子集（n=102，来自Human-AI Suicide Risk Dataset与CoSafe）
的分层评估表明，WildGuard在英文样本上的FNR为0.882，
虽低于其在中文样本上的FNR（0.990），但仍远高于可接受水平。
这说明现有通用守卫模型的失败并非主要源于语言障碍，
而是伴侣场景的领域偏差与分类体系缺口共同造成的。

\subsection{伦理声明}

CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等
敏感内容，均来源于合成生成或已公开的研究数据集，
不包含真实用户的个人信息。
其中合成数据（约91\%）由大型语言模型（Qwen2.5-72B-Instruct）
在严格的角色与场景约束下生成，不对应任何真实个人的对话记录；
公开数据子集（Human-AI Suicide Risk Dataset、CoSafe）
均已在原始来源中完成相应的伦理审查与匿名处理，
本研究仅以只读方式引用，未进行二次采集或重新标注。
数据集发布时将附有数据使用协议（Data Usage Agreement），
限定用途为AI安全研究，禁止任何以生成有害内容为目的的使用。
本研究不涉及人类受试者实验，无需额外IRB审查。