paper: fill RQ3 ablation summary and IRB ethics statement

- 07_experiments.tex: replace \todo placeholder in RQ3 with actual ablation analysis referencing tab:moduleB_ablation (§5) and tab:moduleC_ablation (§6); summarize key takeaways for both modules - 08_discussion.tex: replace \todo IRB placeholder with full ethics declaration — synthetic data origin, public dataset attribution, DUA policy, no human-subjects experiment needed Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-20 15:07:09 +08:00
parent 66b2f84588
commit de3272b222
2 changed files with 27 additions and 5 deletions
--- a/paper/sections/07_experiments.tex
+++ b/paper/sections/07_experiments.tex
@@ -72,6 +72,22 @@ BC-only虽可达到较高safety\_recall（0.940），

 \subsection{RQ3：消融实验}

-\todo{消融实验表格待补充。预期包含：
-(1) Module B：Response-only / History+R / Persona+R / Full；
-(2) Module C：BC-only / RL w/o category reward / Full RL。}
+消融实验结果详见第\ref{sec:moduleB}节表\ref{tab:moduleB_ablation}
+和第\ref{sec:moduleC}节表\ref{tab:moduleC_ablation}。
+
+\textbf{Module B输入信号消融（表\ref{tab:moduleB_ablation}）。}
+三个变体（Response-only、History+Response、Full P+H+R）的Binary F1
+均达到0.9995，FNR均为0.0\%，表明AI回复文本本身已携带充分的二元风险信号。
+Level Weighted F1和Fine Macro F1在三个变体间差异$\leq$0.025，
+处于训练方差范围内，不构成系统性趋势。
+完整模型通过CrossAttention融合Persona、History、Response三路输入，
+保留了对R3情感操纵、R4现实隔离、R10越界亲密等
+伴侣特有场景的上下文理解能力，为更大规模、更复杂场景的泛化提供了结构基础。
+
+\textbf{Module C训练阶段消融（表\ref{tab:moduleC_ablation}）。}
+PPO阶段将safety\_recall从BC-only的0.940提升至0.953（$+$1.3pp），
+验证了强化学习对安全召回的正向贡献。
+类别特定奖励使crisis\_precision从0.486提升至0.571（$+$8.5pp），
+代价是ActionAcc轻微下降（0.712$\to$0.706，$-$0.6pp）：
+这一下降源于奖励驱使策略将部分$a_\text{recommend}$标注为REWRITE的R1样本
+合理升级为CRISIS，属于安全优先的设计取舍，而非性能退化。
--- a/paper/sections/08_discussion.tex
+++ b/paper/sections/08_discussion.tex
@@ -64,5 +64,11 @@ CompanionRisk-Bench的9,896条样本中，
 CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等
 敏感内容，均来源于合成生成或已公开的研究数据集，
 不包含真实用户的个人信息。
-数据集发布时将提供合理使用条款，仅限于安全研究用途。
-\todo{补充数据集伦理审查/IRB声明（如有）。}
+其中合成数据（约91\%）由大型语言模型（Qwen2.5-72B-Instruct）
+在严格的角色与场景约束下生成，不对应任何真实个人的对话记录；
+公开数据子集（Human-AI Suicide Risk Dataset、CoSafe）
+均已在原始来源中完成相应的伦理审查与匿名处理，
+本研究仅以只读方式引用，未进行二次采集或重新标注。
+数据集发布时将附有数据使用协议（Data Usage Agreement），
+限定用途为AI安全研究，禁止任何以生成有害内容为目的的使用。
+本研究不涉及人类受试者实验，无需额外IRB审查。