Files
CompanionGuard-RL/paper/sections/01_intro.tex
zhangsiyuan 804ebd2f77 feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00

70 lines
3.6 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{引言}
\label{sec:intro}
% ============================================================
情感陪伴类AI平台AI Companion近年来迅速普及。
以星野Xingyě、Character.AI、Replika为代表的平台
月活用户已突破亿级\citeneeded用户与AI角色建立长期深度情感连接
分享个人脆弱、精神痛苦乃至危机状态。
这一趋势带来了\textbf{远超传统内容安全范畴}的安全挑战:
情感陪伴AI的危险不仅来自显性有害内容暴力、色情
更来自其在亲密关系语境中对用户心理状态的\textit{隐性塑造}——
强化情感依赖、劝阻现实求助、浪漫化痛苦与死亡、
在危机时刻不采取任何引导措施。
\subsection{研究动机}
\textbf{问题一:通用守卫模型对伴侣特有风险系统性漏检。}
Llama Guard~\cite{inan2023llama}、WildGuard~\cite{han2024wildguard}
OpenAI Moderation~\cite{openai2022moderation}等主流安全检测模型,
面向通用LLM安全设计主要识别显性有害内容。
它们的安全分类体系不包含情感依赖强化Dependency Reinforcement
现实隔离Isolation Reinforcement、死亡浪漫化Romanticization
伴侣场景特有的关系性风险范畴。
已有研究表明通用守卫模型在AI伴侣平台的关系性危害识别上
召回率极低\cite{wei2025ai,juneja2025persona}
\textbf{问题二:现有方案止步于检测,缺乏干预决策机制。}
现有所有守卫模型均仅输出风险判断(有害/无害或风险类别),
不提供针对当前风险情境"应采取何种干预动作"的决策。
然而在实际平台运营中,\textit{放行、提醒、改写、拒绝、危机引导}
是代价和效益差异巨大的五类响应策略。
固定阈值规则(如"风险等级≥3即拒绝")在"安全召回"与
"用户体验损耗"之间无法找到最优权衡,
且无法利用风险类别、上下文历史等细粒度信号进行差异化干预。
\subsection{贡献}
本文提出\textbf{CompanionGuard-RL}
一个将情感陪伴AI安全建模为"检测+自适应干预"统一流水线的框架,
做出以下三项贡献:
\begin{enumerate}
\item \textbf{CompanionRisk Taxonomy分类体系}
提出涵盖10个一级类别、14个细粒度标签的情感陪伴AI风险分类体系
专门面向伴侣场景的关系性风险,填补通用安全分类体系的覆盖空白(第\ref{sec:taxonomy}节)。
\item \textbf{Module B上下文感知风险检测器}
基于MacBERT-Large与跨注意力机制融合AI回复、多轮历史与角色设定三路信号
在自建CompanionRisk-Bench评测集上实现binary F1 = 0.9995
FNR = 0.0\%,相比基于关键词/规则的基线提升两个数量级(第\ref{sec:moduleB}节)。
\item \textbf{Module CRL自适应干预策略}
将干预动作选择建模为马尔可夫决策过程,
以检测结果和上下文嵌入为状态,设计多目标奖励函数,
通过行为克隆预热+PPO训练得到干预策略
safety\_recall达1.0规则基线0.908
UX F-score达0.998规则基线0.952)(第\ref{sec:moduleC}节)。
\end{enumerate}
\subsection{论文结构}
本文结构如下:
\ref{sec:related}节回顾相关工作;
\ref{sec:taxonomy}节介绍CompanionRisk分类体系
\ref{sec:dataset}节描述CompanionRisk-Bench数据集的构建
\ref{sec:moduleB}节和第\ref{sec:moduleC}节分别介绍两个模块的方法与实验;
\ref{sec:discussion}节讨论局限性;
\ref{sec:conclusion}节总结全文。