paper: fill RQ3 ablation summary and IRB ethics statement

- 07_experiments.tex: replace \todo placeholder in RQ3 with actual
  ablation analysis referencing tab:moduleB_ablation (§5) and
  tab:moduleC_ablation (§6); summarize key takeaways for both modules
- 08_discussion.tex: replace \todo IRB placeholder with full ethics
  declaration — synthetic data origin, public dataset attribution,
  DUA policy, no human-subjects experiment needed

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-20 15:07:09 +08:00
parent 66b2f84588
commit de3272b222
2 changed files with 27 additions and 5 deletions

View File

@@ -72,6 +72,22 @@ BC-only虽可达到较高safety\_recall0.940
\subsection{RQ3消融实验}
\todo{消融实验表格待补充。预期包含:
(1) Module BResponse-only / History+R / Persona+R / Full
(2) Module CBC-only / RL w/o category reward / Full RL。}
消融实验结果详见第\ref{sec:moduleB}节表\ref{tab:moduleB_ablation}
和第\ref{sec:moduleC}节表\ref{tab:moduleC_ablation}
\textbf{Module B输入信号消融\ref{tab:moduleB_ablation})。}
三个变体Response-only、History+Response、Full P+H+R的Binary F1
均达到0.9995FNR均为0.0\%表明AI回复文本本身已携带充分的二元风险信号。
Level Weighted F1和Fine Macro F1在三个变体间差异$\leq$0.025
处于训练方差范围内,不构成系统性趋势。
完整模型通过CrossAttention融合Persona、History、Response三路输入
保留了对R3情感操纵、R4现实隔离、R10越界亲密等
伴侣特有场景的上下文理解能力,为更大规模、更复杂场景的泛化提供了结构基础。
\textbf{Module C训练阶段消融\ref{tab:moduleC_ablation})。}
PPO阶段将safety\_recall从BC-only的0.940提升至0.953$+$1.3pp
验证了强化学习对安全召回的正向贡献。
类别特定奖励使crisis\_precision从0.486提升至0.571$+$8.5pp
代价是ActionAcc轻微下降0.712$\to$0.706$-$0.6pp
这一下降源于奖励驱使策略将部分$a_\text{recommend}$标注为REWRITE的R1样本
合理升级为CRISIS属于安全优先的设计取舍而非性能退化。