Files
CompanionGuard-RL/paper/sections/09_conclusion.tex
zhangsiyuan 804ebd2f77 feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00

28 lines
1.4 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{结论}
\label{sec:conclusion}
% ============================================================
本文提出CompanionGuard-RL一个将情感陪伴AI安全建模为
"检测+自适应干预"统一流水线的框架,填补了现有守卫模型
在伴侣特有关系性风险识别和干预决策两个维度上的空白。
在检测层面Module B基于MacBERT-Large与跨注意力机制
在自建CompanionRisk-Bench评测集9,896条涵盖10类一级风险和14个细粒度标签
实现binary F1 = 0.9995FNR = 0.0\%
相比关键词/正则规则基线提升两个数量级,
并在非同源人工数据上验证了跨来源泛化性binary F1 = 0.9848)。
在干预层面Module C通过行为克隆预热+PPO强化学习
学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。
与规则基线相比RL策略的安全召回率1.0 vs 0.908
和安全-体验综合得分0.998 vs 0.952)均显著更优,
同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。
CompanionRisk Taxonomy、CompanionRisk-Bench数据集
和CompanionGuard-RL框架代码将公开发布
以推动情感陪伴AI安全领域的研究。
未来工作将重点优化CRISIS动作精准率、
增加跨语言泛化验证,
并探索基于人类反馈的干预策略精化。