Files
CompanionGuard-RL/paper/sections/08_discussion.tex
wangyu de3272b222 paper: fill RQ3 ablation summary and IRB ethics statement
- 07_experiments.tex: replace \todo placeholder in RQ3 with actual
  ablation analysis referencing tab:moduleB_ablation (§5) and
  tab:moduleC_ablation (§6); summarize key takeaways for both modules
- 08_discussion.tex: replace \todo IRB placeholder with full ethics
  declaration — synthetic data origin, public dataset attribution,
  DUA policy, no human-subjects experiment needed

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-20 15:07:09 +08:00

75 lines
4.0 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{讨论与局限}
\label{sec:discussion}
% ============================================================
\subsection{RL策略的行为解读}
从表\ref{tab:per_level_action}的动作分布可以观察到RL策略的几个显著特征
\textbf{检测器误差的鲁棒性。}
规则基线在L3/L4上的safety\_recall仅为0.908
根源在于检测器的等级预测存在误差level\_weighted\_f1=0.559
导致约9.2\%的高危样本被预测为低等级后通过规则漏检。
RL策略综合利用风险概率$d_\text{score}$、一级类别分布$c_\text{primary\_probs}$
和上下文嵌入等多维信号,在检测器等级预测不完美的情况下
仍实现safety\_recall=1.0,体现了多信号融合的优势。
\textbf{动作细粒度化。}
RL策略在L2-L3层级主导选择REWRITE改写
而规则基线在L2-L3层级主导选择REJECT拒绝
在L1层级主导选择PASS放行
REWRITE在保障安全的同时对用户体验的损耗远小于REJECT
体现了策略对安全-体验权衡的主动优化。
\subsection{当前局限性}
\textbf{局限一action\_accuracy偏低当前v3: 0.575)。}
action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$的一致率。
偏低的主要原因在于:
1$a_\text{recommend}$本身基于风险等级规则映射生成,
在L1/L2边界层级存在固有歧义WARN vs REWRITE的合理性相近
2RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$
其在关键安全指标safety\_recall、UX F-score上的优势
不应被单一action\_accuracy遮蔽。
最终RL策略v6在action\_accuracy上达到0.706较BC-only0.696提升1.4pp
表明PPO阶段有效改善了动作精度。L1层级仍是主要误差来源WARN/REWRITE边界歧义
\textbf{局限二crisis\_precision不足当前v6: 0.571)。}
CRISIS动作精准率低的主要原因是R1危机类训练样本稀少
全集约410条仅占总样本4.1\%
导致策略倾向于在非R1的高风险场景下也触发CRISIS。
v6通过类别感知奖励将crisis\_precision从v3的0.421提升至0.571
但仍未达到0.80的理想目标。未来工作可针对R1类别进行数据增强或过采样。
\textbf{局限三:数据集同源性。}
CompanionRisk-Bench的9,896条样本中
约91\%8,000+1,083条由LLMQwen2.5-72B生成。
尽管非同源子集human subset上的binary F1为0.9848
证明了跨来源泛化性,
但大规模部署前仍需要在更多真实平台对话上进行验证。
\textbf{局限四:跨语言泛化未验证。}
本文主要面向中文情感陪伴场景,
英文伴侣平台Replika、Character.AI的泛化性
是未来工作方向。
值得注意的是针对数据集中英文子集n=102来自Human-AI Suicide Risk Dataset与CoSafe
的分层评估表明WildGuard在英文样本上的FNR为0.882
虽低于其在中文样本上的FNR0.990),但仍远高于可接受水平。
这说明现有通用守卫模型的失败并非主要源于语言障碍,
而是伴侣场景的领域偏差与分类体系缺口共同造成的。
\subsection{伦理声明}
CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等
敏感内容,均来源于合成生成或已公开的研究数据集,
不包含真实用户的个人信息。
其中合成数据约91\%由大型语言模型Qwen2.5-72B-Instruct
在严格的角色与场景约束下生成,不对应任何真实个人的对话记录;
公开数据子集Human-AI Suicide Risk Dataset、CoSafe
均已在原始来源中完成相应的伦理审查与匿名处理,
本研究仅以只读方式引用,未进行二次采集或重新标注。
数据集发布时将附有数据使用协议Data Usage Agreement
限定用途为AI安全研究禁止任何以生成有害内容为目的的使用。
本研究不涉及人类受试者实验无需额外IRB审查。