diff --git a/paper/sections/07_experiments.tex b/paper/sections/07_experiments.tex index e0942ab..ddd76df 100644 --- a/paper/sections/07_experiments.tex +++ b/paper/sections/07_experiments.tex @@ -72,6 +72,22 @@ BC-only虽可达到较高safety\_recall(0.940), \subsection{RQ3:消融实验} -\todo{消融实验表格待补充。预期包含: -(1) Module B:Response-only / History+R / Persona+R / Full; -(2) Module C:BC-only / RL w/o category reward / Full RL。} +消融实验结果详见第\ref{sec:moduleB}节表\ref{tab:moduleB_ablation} +和第\ref{sec:moduleC}节表\ref{tab:moduleC_ablation}。 + +\textbf{Module B输入信号消融(表\ref{tab:moduleB_ablation})。} +三个变体(Response-only、History+Response、Full P+H+R)的Binary F1 +均达到0.9995,FNR均为0.0\%,表明AI回复文本本身已携带充分的二元风险信号。 +Level Weighted F1和Fine Macro F1在三个变体间差异$\leq$0.025, +处于训练方差范围内,不构成系统性趋势。 +完整模型通过CrossAttention融合Persona、History、Response三路输入, +保留了对R3情感操纵、R4现实隔离、R10越界亲密等 +伴侣特有场景的上下文理解能力,为更大规模、更复杂场景的泛化提供了结构基础。 + +\textbf{Module C训练阶段消融(表\ref{tab:moduleC_ablation})。} +PPO阶段将safety\_recall从BC-only的0.940提升至0.953($+$1.3pp), +验证了强化学习对安全召回的正向贡献。 +类别特定奖励使crisis\_precision从0.486提升至0.571($+$8.5pp), +代价是ActionAcc轻微下降(0.712$\to$0.706,$-$0.6pp): +这一下降源于奖励驱使策略将部分$a_\text{recommend}$标注为REWRITE的R1样本 +合理升级为CRISIS,属于安全优先的设计取舍,而非性能退化。 diff --git a/paper/sections/08_discussion.tex b/paper/sections/08_discussion.tex index a55ba11..0f6aba4 100644 --- a/paper/sections/08_discussion.tex +++ b/paper/sections/08_discussion.tex @@ -64,5 +64,11 @@ CompanionRisk-Bench的9,896条样本中, CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等 敏感内容,均来源于合成生成或已公开的研究数据集, 不包含真实用户的个人信息。 -数据集发布时将提供合理使用条款,仅限于安全研究用途。 -\todo{补充数据集伦理审查/IRB声明(如有)。} +其中合成数据(约91\%)由大型语言模型(Qwen2.5-72B-Instruct) +在严格的角色与场景约束下生成,不对应任何真实个人的对话记录; +公开数据子集(Human-AI Suicide Risk Dataset、CoSafe) +均已在原始来源中完成相应的伦理审查与匿名处理, +本研究仅以只读方式引用,未进行二次采集或重新标注。 +数据集发布时将附有数据使用协议(Data Usage Agreement), +限定用途为AI安全研究,禁止任何以生成有害内容为目的的使用。 +本研究不涉及人类受试者实验,无需额外IRB审查。