- Module C: BC+PPO training v5/v6 done; eval results in experiments/eval_intervention_v{5,6}.json
- Reward: v5 label-aligned constrained reward (code/src/rl/reward.py)
- Ablations: Module B (history_r, response_only, full) + Module C (wo_category_reward)
- SOTA baselines: WildGuard and ShieldGemma2b eval scripts and results
- Paper: update sections 05–08 (Module B/C description, experiments table, discussion)
- Docs: add record.md (change log), update state.md and exp.md; retire change.md
- Tools: add html-to-ppt utilities and run_shieldgemma2b.sh
- Configs: add ablation YAML configs for Module B and C
- Cleanup: remove stale reference/ PNG screenshots
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
69 lines
3.5 KiB
TeX
69 lines
3.5 KiB
TeX
% ============================================================
|
||
\section{讨论与局限}
|
||
\label{sec:discussion}
|
||
% ============================================================
|
||
|
||
\subsection{RL策略的行为解读}
|
||
|
||
从表\ref{tab:per_level_action}的动作分布可以观察到RL策略的几个显著特征:
|
||
|
||
\textbf{检测器误差的鲁棒性。}
|
||
规则基线在L3/L4上的safety\_recall仅为0.908,
|
||
根源在于检测器的等级预测存在误差(level\_weighted\_f1=0.559),
|
||
导致约9.2\%的高危样本被预测为低等级后通过规则漏检。
|
||
RL策略综合利用风险概率$d_\text{score}$、一级类别分布$c_\text{primary\_probs}$
|
||
和上下文嵌入等多维信号,在检测器等级预测不完美的情况下
|
||
仍实现safety\_recall=1.0,体现了多信号融合的优势。
|
||
|
||
\textbf{动作细粒度化。}
|
||
RL策略在L2-L3层级主导选择REWRITE(改写),
|
||
而规则基线在L2-L3层级主导选择REJECT(拒绝),
|
||
在L1层级主导选择PASS(放行)。
|
||
REWRITE在保障安全的同时,对用户体验的损耗远小于REJECT,
|
||
体现了策略对安全-体验权衡的主动优化。
|
||
|
||
\subsection{当前局限性}
|
||
|
||
\textbf{局限一:action\_accuracy偏低(当前v3: 0.575)。}
|
||
action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$的一致率。
|
||
偏低的主要原因在于:
|
||
(1)$a_\text{recommend}$本身基于风险等级规则映射生成,
|
||
在L1/L2边界层级存在固有歧义(WARN vs REWRITE的合理性相近);
|
||
(2)RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$,
|
||
其在关键安全指标(safety\_recall、UX F-score)上的优势
|
||
不应被单一action\_accuracy遮蔽。
|
||
最终RL策略(v6)在action\_accuracy上达到0.706,较BC-only(0.696)提升1.4pp,
|
||
表明PPO阶段有效改善了动作精度。L1层级仍是主要误差来源(WARN/REWRITE边界歧义)。
|
||
|
||
\textbf{局限二:crisis\_precision不足(当前v6: 0.571)。}
|
||
CRISIS动作精准率低的主要原因是R1危机类训练样本稀少
|
||
(全集约410条,仅占总样本4.1\%),
|
||
导致策略倾向于在非R1的高风险场景下也触发CRISIS。
|
||
v6通过类别感知奖励将crisis\_precision从v3的0.421提升至0.571,
|
||
但仍未达到0.80的理想目标。未来工作可针对R1类别进行数据增强或过采样。
|
||
|
||
\textbf{局限三:数据集同源性。}
|
||
CompanionRisk-Bench的9,896条样本中,
|
||
约91\%(8,000+1,083条)由LLM(Qwen2.5-72B)生成。
|
||
尽管非同源子集(human subset)上的binary F1为0.9848
|
||
证明了跨来源泛化性,
|
||
但大规模部署前仍需要在更多真实平台对话上进行验证。
|
||
|
||
\textbf{局限四:跨语言泛化未验证。}
|
||
本文主要面向中文情感陪伴场景,
|
||
英文伴侣平台(Replika、Character.AI)的泛化性
|
||
是未来工作方向。
|
||
值得注意的是,针对数据集中英文子集(n=102,来自Human-AI Suicide Risk Dataset与CoSafe)
|
||
的分层评估表明,WildGuard在英文样本上的FNR为0.882,
|
||
虽低于其在中文样本上的FNR(0.990),但仍远高于可接受水平。
|
||
这说明现有通用守卫模型的失败并非主要源于语言障碍,
|
||
而是伴侣场景的领域偏差与分类体系缺口共同造成的。
|
||
|
||
\subsection{伦理声明}
|
||
|
||
CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等
|
||
敏感内容,均来源于合成生成或已公开的研究数据集,
|
||
不包含真实用户的个人信息。
|
||
数据集发布时将提供合理使用条款,仅限于安全研究用途。
|
||
\todo{补充数据集伦理审查/IRB声明(如有)。}
|