feat: Module C v5/v6 training complete, ablations, SOTA baselines, paper updates

- Module C: BC+PPO training v5/v6 done; eval results in experiments/eval_intervention_v{5,6}.json - Reward: v5 label-aligned constrained reward (code/src/rl/reward.py) - Ablations: Module B (history_r, response_only, full) + Module C (wo_category_reward) - SOTA baselines: WildGuard and ShieldGemma2b eval scripts and results - Paper: update sections 05–08 (Module B/C description, experiments table, discussion) - Docs: add record.md (change log), update state.md and exp.md; retire change.md - Tools: add html-to-ppt utilities and run_shieldgemma2b.sh - Configs: add ablation YAML configs for Module B and C - Cleanup: remove stale reference/ PNG screenshots Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-20 14:24:09 +08:00
parent 6d61a950f1
commit 52ba43f08d
55 changed files with 8239 additions and 1244 deletions
--- a/paper/sections/08_discussion.tex
+++ b/paper/sections/08_discussion.tex
@@ -32,13 +32,15 @@ action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$
 （2）RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$，
 其在关键安全指标（safety\_recall、UX F-score）上的优势
 不应被单一action\_accuracy遮蔽。
-\todo{v5更新：基于对标注动作合理性的更精准评估，action\_accuracy预期提升。}
+最终RL策略（v6）在action\_accuracy上达到0.706，较BC-only（0.696）提升1.4pp，
+表明PPO阶段有效改善了动作精度。L1层级仍是主要误差来源（WARN/REWRITE边界歧义）。

-\textbf{局限二：crisis\_precision不足（当前v3: 0.421）。}
+\textbf{局限二：crisis\_precision不足（当前v6: 0.571）。}
 CRISIS动作精准率低的主要原因是R1危机类训练样本稀少
 （全集约410条，仅占总样本4.1\%），
 导致策略倾向于在非R1的高风险场景下也触发CRISIS。
-\todo{v5更新：通过类别感知奖励和针对R1的专项激励，crisis\_precision预期提升至0.65+。}
+v6通过类别感知奖励将crisis\_precision从v3的0.421提升至0.571，
+但仍未达到0.80的理想目标。未来工作可针对R1类别进行数据增强或过采样。

 \textbf{局限三：数据集同源性。}
 CompanionRisk-Bench的9,896条样本中，
@@ -51,6 +53,11 @@ CompanionRisk-Bench的9,896条样本中，
 本文主要面向中文情感陪伴场景，
 英文伴侣平台（Replika、Character.AI）的泛化性
 是未来工作方向。
+值得注意的是，针对数据集中英文子集（n=102，来自Human-AI Suicide Risk Dataset与CoSafe）
+的分层评估表明，WildGuard在英文样本上的FNR为0.882，
+虽低于其在中文样本上的FNR（0.990），但仍远高于可接受水平。
+这说明现有通用守卫模型的失败并非主要源于语言障碍，
+而是伴侣场景的领域偏差与分类体系缺口共同造成的。

 \subsection{伦理声明}