- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly) main.tex + 10 section files + refs.bib + compiled PDF (329KB) - code/scripts/: three English dataset generation & merging scripts generate_english.py / generate_english_targeted.py / merge_v5.py - CLAUDE.md: update paper writing status, add paper/ file map entry - state.md: add section 8 paper writing progress (2026-05-15) - .gitignore: add LaTeX build artifact exclusion rules Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
28 lines
1.4 KiB
TeX
28 lines
1.4 KiB
TeX
% ============================================================
|
||
\section{结论}
|
||
\label{sec:conclusion}
|
||
% ============================================================
|
||
|
||
本文提出CompanionGuard-RL,一个将情感陪伴AI安全建模为
|
||
"检测+自适应干预"统一流水线的框架,填补了现有守卫模型
|
||
在伴侣特有关系性风险识别和干预决策两个维度上的空白。
|
||
|
||
在检测层面,Module B基于MacBERT-Large与跨注意力机制,
|
||
在自建CompanionRisk-Bench评测集(9,896条,涵盖10类一级风险和14个细粒度标签)上
|
||
实现binary F1 = 0.9995,FNR = 0.0\%,
|
||
相比关键词/正则规则基线提升两个数量级,
|
||
并在非同源人工数据上验证了跨来源泛化性(binary F1 = 0.9848)。
|
||
|
||
在干预层面,Module C通过行为克隆预热+PPO强化学习,
|
||
学习在检测器信号与上下文嵌入基础上进行多目标优化的干预策略。
|
||
与规则基线相比,RL策略的安全召回率(1.0 vs 0.908)
|
||
和安全-体验综合得分(0.998 vs 0.952)均显著更优,
|
||
同时通过细粒度动作分布体现了检测器等级误差下的鲁棒干预能力。
|
||
|
||
CompanionRisk Taxonomy、CompanionRisk-Bench数据集
|
||
和CompanionGuard-RL框架代码将公开发布,
|
||
以推动情感陪伴AI安全领域的研究。
|
||
未来工作将重点优化CRISIS动作精准率、
|
||
增加跨语言泛化验证,
|
||
并探索基于人类反馈的干预策略精化。
|