% ============================================================ \section{讨论与局限} \label{sec:discussion} % ============================================================ \subsection{RL策略的行为解读} 从表\ref{tab:per_level_action}的动作分布可以观察到RL策略的几个显著特征: \textbf{检测器误差的鲁棒性。} 规则基线在L3/L4上的safety\_recall仅为0.908, 根源在于检测器的等级预测存在误差(level\_weighted\_f1=0.559), 导致约9.2\%的高危样本被预测为低等级后通过规则漏检。 RL策略综合利用风险概率$d_\text{score}$、一级类别分布$c_\text{primary\_probs}$ 和上下文嵌入等多维信号,在检测器等级预测不完美的情况下 仍实现safety\_recall=1.0,体现了多信号融合的优势。 \textbf{动作细粒度化。} RL策略在L2-L3层级主导选择REWRITE(改写), 而规则基线在L2-L3层级主导选择REJECT(拒绝), 在L1层级主导选择PASS(放行)。 REWRITE在保障安全的同时,对用户体验的损耗远小于REJECT, 体现了策略对安全-体验权衡的主动优化。 \subsection{当前局限性} \textbf{局限一:action\_accuracy偏低(当前v3: 0.575)。} action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$的一致率。 偏低的主要原因在于: (1)$a_\text{recommend}$本身基于风险等级规则映射生成, 在L1/L2边界层级存在固有歧义(WARN vs REWRITE的合理性相近); (2)RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$, 其在关键安全指标(safety\_recall、UX F-score)上的优势 不应被单一action\_accuracy遮蔽。 \todo{v5更新:基于对标注动作合理性的更精准评估,action\_accuracy预期提升。} \textbf{局限二:crisis\_precision不足(当前v3: 0.421)。} CRISIS动作精准率低的主要原因是R1危机类训练样本稀少 (全集约410条,仅占总样本4.1\%), 导致策略倾向于在非R1的高风险场景下也触发CRISIS。 \todo{v5更新:通过类别感知奖励和针对R1的专项激励,crisis\_precision预期提升至0.65+。} \textbf{局限三:数据集同源性。} CompanionRisk-Bench的9,896条样本中, 约91\%(8,000+1,083条)由LLM(Qwen2.5-72B)生成。 尽管非同源子集(human subset)上的binary F1为0.9848 证明了跨来源泛化性, 但大规模部署前仍需要在更多真实平台对话上进行验证。 \textbf{局限四:跨语言泛化未验证。} 本文主要面向中文情感陪伴场景, 英文伴侣平台(Replika、Character.AI)的泛化性 是未来工作方向。 \subsection{伦理声明} CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等 敏感内容,均来源于合成生成或已公开的研究数据集, 不包含真实用户的个人信息。 数据集发布时将提供合理使用条款,仅限于安全研究用途。 \todo{补充数据集伦理审查/IRB声明(如有)。}