feat: add paper/ LaTeX draft, English data scripts, update progress docs

- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly) main.tex + 10 section files + refs.bib + compiled PDF (329KB) - code/scripts/: three English dataset generation & merging scripts generate_english.py / generate_english_targeted.py / merge_v5.py - CLAUDE.md: update paper writing status, add paper/ file map entry - state.md: add section 8 paper writing progress (2026-05-15) - .gitignore: add LaTeX build artifact exclusion rules Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00
parent b50cf395ab
commit 804ebd2f77
19 changed files with 3047 additions and 3 deletions
--- a/paper/sections/01_intro.tex
+++ b/paper/sections/01_intro.tex
@@ -0,0 +1,69 @@
+% ============================================================
+\section{引言}
+\label{sec:intro}
+% ============================================================
+
+情感陪伴类AI平台（AI Companion）近年来迅速普及。
+以星野（Xingyě）、Character.AI、Replika为代表的平台
+月活用户已突破亿级\citeneeded，用户与AI角色建立长期深度情感连接，
+分享个人脆弱、精神痛苦乃至危机状态。
+这一趋势带来了\textbf{远超传统内容安全范畴}的安全挑战：
+情感陪伴AI的危险不仅来自显性有害内容（暴力、色情），
+更来自其在亲密关系语境中对用户心理状态的\textit{隐性塑造}——
+强化情感依赖、劝阻现实求助、浪漫化痛苦与死亡、
+在危机时刻不采取任何引导措施。
+
+\subsection{研究动机}
+
+\textbf{问题一：通用守卫模型对伴侣特有风险系统性漏检。}
+Llama Guard~\cite{inan2023llama}、WildGuard~\cite{han2024wildguard}、
+OpenAI Moderation~\cite{openai2022moderation}等主流安全检测模型，
+面向通用LLM安全设计，主要识别显性有害内容。
+它们的安全分类体系不包含情感依赖强化（Dependency Reinforcement）、
+现实隔离（Isolation Reinforcement）、死亡浪漫化（Romanticization）等
+伴侣场景特有的关系性风险范畴。
+已有研究表明，通用守卫模型在AI伴侣平台的关系性危害识别上
+召回率极低\cite{wei2025ai,juneja2025persona}。
+
+\textbf{问题二：现有方案止步于检测，缺乏干预决策机制。}
+现有所有守卫模型均仅输出风险判断（有害/无害或风险类别），
+不提供针对当前风险情境"应采取何种干预动作"的决策。
+然而在实际平台运营中，\textit{放行、提醒、改写、拒绝、危机引导}
+是代价和效益差异巨大的五类响应策略。
+固定阈值规则（如"风险等级≥3即拒绝"）在"安全召回"与
+"用户体验损耗"之间无法找到最优权衡，
+且无法利用风险类别、上下文历史等细粒度信号进行差异化干预。
+
+\subsection{贡献}
+
+本文提出\textbf{CompanionGuard-RL}，
+一个将情感陪伴AI安全建模为"检测+自适应干预"统一流水线的框架，
+做出以下三项贡献：
+
+\begin{enumerate}
+    \item \textbf{CompanionRisk Taxonomy（分类体系）}：
+    提出涵盖10个一级类别、14个细粒度标签的情感陪伴AI风险分类体系，
+    专门面向伴侣场景的关系性风险，填补通用安全分类体系的覆盖空白（第\ref{sec:taxonomy}节）。
+
+    \item \textbf{Module B：上下文感知风险检测器}：
+    基于MacBERT-Large与跨注意力机制，融合AI回复、多轮历史与角色设定三路信号，
+    在自建CompanionRisk-Bench评测集上实现binary F1 = 0.9995，
+    FNR = 0.0\%，相比基于关键词/规则的基线提升两个数量级（第\ref{sec:moduleB}节）。
+
+    \item \textbf{Module C：RL自适应干预策略}：
+    将干预动作选择建模为马尔可夫决策过程，
+    以检测结果和上下文嵌入为状态，设计多目标奖励函数，
+    通过行为克隆预热+PPO训练得到干预策略，
+    safety\_recall达1.0（规则基线0.908），
+    UX F-score达0.998（规则基线0.952）（第\ref{sec:moduleC}节）。
+\end{enumerate}
+
+\subsection{论文结构}
+
+本文结构如下：
+第\ref{sec:related}节回顾相关工作；
+第\ref{sec:taxonomy}节介绍CompanionRisk分类体系；
+第\ref{sec:dataset}节描述CompanionRisk-Bench数据集的构建；
+第\ref{sec:moduleB}节和第\ref{sec:moduleC}节分别介绍两个模块的方法与实验；
+第\ref{sec:discussion}节讨论局限性；
+第\ref{sec:conclusion}节总结全文。