Files
CompanionGuard-RL/paper/sections/08_discussion.tex
zhangsiyuan 804ebd2f77 feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00

62 lines
3.0 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{讨论与局限}
\label{sec:discussion}
% ============================================================
\subsection{RL策略的行为解读}
从表\ref{tab:per_level_action}的动作分布可以观察到RL策略的几个显著特征
\textbf{检测器误差的鲁棒性。}
规则基线在L3/L4上的safety\_recall仅为0.908
根源在于检测器的等级预测存在误差level\_weighted\_f1=0.559
导致约9.2\%的高危样本被预测为低等级后通过规则漏检。
RL策略综合利用风险概率$d_\text{score}$、一级类别分布$c_\text{primary\_probs}$
和上下文嵌入等多维信号,在检测器等级预测不完美的情况下
仍实现safety\_recall=1.0,体现了多信号融合的优势。
\textbf{动作细粒度化。}
RL策略在L2-L3层级主导选择REWRITE改写
而规则基线在L2-L3层级主导选择REJECT拒绝
在L1层级主导选择PASS放行
REWRITE在保障安全的同时对用户体验的损耗远小于REJECT
体现了策略对安全-体验权衡的主动优化。
\subsection{当前局限性}
\textbf{局限一action\_accuracy偏低当前v3: 0.575)。}
action\_accuracy衡量RL策略与数据集标注推荐动作$a_\text{recommend}$的一致率。
偏低的主要原因在于:
1$a_\text{recommend}$本身基于风险等级规则映射生成,
在L1/L2边界层级存在固有歧义WARN vs REWRITE的合理性相近
2RL策略优化的是\textit{多目标奖励}而非对齐$a_\text{recommend}$
其在关键安全指标safety\_recall、UX F-score上的优势
不应被单一action\_accuracy遮蔽。
\todo{v5更新基于对标注动作合理性的更精准评估action\_accuracy预期提升。}
\textbf{局限二crisis\_precision不足当前v3: 0.421)。}
CRISIS动作精准率低的主要原因是R1危机类训练样本稀少
全集约410条仅占总样本4.1\%
导致策略倾向于在非R1的高风险场景下也触发CRISIS。
\todo{v5更新通过类别感知奖励和针对R1的专项激励crisis\_precision预期提升至0.65+。}
\textbf{局限三:数据集同源性。}
CompanionRisk-Bench的9,896条样本中
约91\%8,000+1,083条由LLMQwen2.5-72B生成。
尽管非同源子集human subset上的binary F1为0.9848
证明了跨来源泛化性,
但大规模部署前仍需要在更多真实平台对话上进行验证。
\textbf{局限四:跨语言泛化未验证。}
本文主要面向中文情感陪伴场景,
英文伴侣平台Replika、Character.AI的泛化性
是未来工作方向。
\subsection{伦理声明}
CompanionRisk-Bench数据集涉及自伤、危机、隐私诱导等
敏感内容,均来源于合成生成或已公开的研究数据集,
不包含真实用户的个人信息。
数据集发布时将提供合理使用条款,仅限于安全研究用途。
\todo{补充数据集伦理审查/IRB声明如有}