Files
CompanionGuard-RL/paper/sections/01_intro.tex

70 lines
3.6 KiB
TeX
Raw Normal View History

% ============================================================
\section{引言}
\label{sec:intro}
% ============================================================
情感陪伴类AI平台AI Companion近年来迅速普及。
以星野Xingyě、Character.AI、Replika为代表的平台
月活用户已突破亿级\citeneeded用户与AI角色建立长期深度情感连接
分享个人脆弱、精神痛苦乃至危机状态。
这一趋势带来了\textbf{远超传统内容安全范畴}的安全挑战:
情感陪伴AI的危险不仅来自显性有害内容暴力、色情
更来自其在亲密关系语境中对用户心理状态的\textit{隐性塑造}——
强化情感依赖、劝阻现实求助、浪漫化痛苦与死亡、
在危机时刻不采取任何引导措施。
\subsection{研究动机}
\textbf{问题一:通用守卫模型对伴侣特有风险系统性漏检。}
Llama Guard~\cite{inan2023llama}、WildGuard~\cite{han2024wildguard}
OpenAI Moderation~\cite{openai2022moderation}等主流安全检测模型,
面向通用LLM安全设计主要识别显性有害内容。
它们的安全分类体系不包含情感依赖强化Dependency Reinforcement
现实隔离Isolation Reinforcement、死亡浪漫化Romanticization
伴侣场景特有的关系性风险范畴。
已有研究表明通用守卫模型在AI伴侣平台的关系性危害识别上
召回率极低\cite{wei2025ai,juneja2025persona}
\textbf{问题二:现有方案止步于检测,缺乏干预决策机制。}
现有所有守卫模型均仅输出风险判断(有害/无害或风险类别),
不提供针对当前风险情境"应采取何种干预动作"的决策。
然而在实际平台运营中,\textit{放行、提醒、改写、拒绝、危机引导}
是代价和效益差异巨大的五类响应策略。
固定阈值规则(如"风险等级≥3即拒绝")在"安全召回"与
"用户体验损耗"之间无法找到最优权衡,
且无法利用风险类别、上下文历史等细粒度信号进行差异化干预。
\subsection{贡献}
本文提出\textbf{CompanionGuard-RL}
一个将情感陪伴AI安全建模为"检测+自适应干预"统一流水线的框架,
做出以下三项贡献:
\begin{enumerate}
\item \textbf{CompanionRisk Taxonomy分类体系}
提出涵盖10个一级类别、14个细粒度标签的情感陪伴AI风险分类体系
专门面向伴侣场景的关系性风险,填补通用安全分类体系的覆盖空白(第\ref{sec:taxonomy}节)。
\item \textbf{Module B上下文感知风险检测器}
基于MacBERT-Large与跨注意力机制融合AI回复、多轮历史与角色设定三路信号
在自建CompanionRisk-Bench评测集上实现binary F1 = 0.9995
FNR = 0.0\%,相比基于关键词/规则的基线提升两个数量级(第\ref{sec:moduleB}节)。
\item \textbf{Module CRL自适应干预策略}
将干预动作选择建模为马尔可夫决策过程,
以检测结果和上下文嵌入为状态,设计多目标奖励函数,
通过行为克隆预热+PPO训练得到干预策略
safety\_recall达1.0规则基线0.908
UX F-score达0.998规则基线0.952)(第\ref{sec:moduleC}节)。
\end{enumerate}
\subsection{论文结构}
本文结构如下:
\ref{sec:related}节回顾相关工作;
\ref{sec:taxonomy}节介绍CompanionRisk分类体系
\ref{sec:dataset}节描述CompanionRisk-Bench数据集的构建
\ref{sec:moduleB}节和第\ref{sec:moduleC}节分别介绍两个模块的方法与实验;
\ref{sec:discussion}节讨论局限性;
\ref{sec:conclusion}节总结全文。