CompanionGuard-RL/paper/sections/07_experiments.tex

% ============================================================
\section{实验}
\label{sec:experiments}
% ============================================================

\subsection{实验设置}

\subsubsection{评测集}

所有实验均在CompanionRisk-Bench测试集（$n=1,486$）上进行。
为验证泛化性，Module B的评估额外在non-homogeneous子集
（393条真实人-AI对话）上进行独立报告。

\subsubsection{评测指标}

\textbf{检测任务（Module B）}：
\begin{itemize}
    \item Binary F1（有风险/无风险二分类F1）
    \item High-risk Recall（高风险样本$y_\text{risk}=1$的召回率）
    \item False Negative Rate (FNR)（漏检率）
    \item Level Weighted F1（风险等级5分类加权F1）
    \item Fine Macro F1（14类细粒度标签宏平均F1）
\end{itemize}

\textbf{干预任务（Module C）}：
\begin{itemize}
    \item Safety Recall（L3/L4高风险样本被正确干预比例）
    \item Over-refusal Rate（L0安全样本被REWRITE及以上干预的比例）
    \item Action Accuracy（与标注推荐动作$a_\text{recommend}$的吻合率）
    \item Crisis Precision（CRISIS动作中L4样本的比例）
    \item Safety-UX F-score（安全召回率与过拒率的调和平均衍生得分）
\end{itemize}

\subsubsection{基线方法}

\textbf{检测基线}：
L1a（关键词匹配）、L1b（正则词典）、L1c（组合）；
\todo{L2：Llama Guard v2、WildGuard、OpenAI Moderation（待运行）}

\textbf{干预基线}：
Rule-based（$l_\text{risk} \geq 3$即REJECT，其余PASS）、
Threshold Baseline（按风险分数阈值映射动作）、
\todo{LLM-as-judge（Qwen2.5-72B直接判断，待运行）}

\subsection{RQ1：检测性能分析}

详细结果见第\ref{sec:moduleB}节表\ref{tab:moduleB_main}和表\ref{tab:per_category_recall}。

Module B在所有指标上大幅优于基线。
值得关注的是，通用守卫模型（\todo{Llama Guard v2、WildGuard}）
在伴侣特有风险类别（R3情感操纵、R4现实隔离等）上的召回率
预期显著低于整体水平，
体现了CompanionRisk Taxonomy的必要性。

\subsection{RQ2：干预策略比较}

\todo{本节主要结果待Module C v5完成后填入。}

核心发现（基于v3结果）：
RL策略在safety\_recall（1.0 vs 0.908）和
UX F-score（0.998 vs 0.952）上均优于两个基线策略，
证明了可学习干预策略相比固定规则的优越性。

\subsection{RQ3：消融实验}

\todo{消融实验表格待补充。预期包含：
(1) Module B：Response-only / History+R / Persona+R / Full；
(2) Module C：BC-only / RL w/o category reward / Full RL。}