Files
CompanionGuard-RL/paper/sections/03_taxonomy.tex
zhangsiyuan 804ebd2f77 feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00

131 lines
6.1 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{CompanionRisk风险分类体系}
\label{sec:taxonomy}
% ============================================================
现有通用安全分类体系如MLCommons Hazard Taxonomy、Aegis 2.0
主要面向显性有害内容,不包含情感陪伴场景中因\textit{多轮亲密关系语境}
而产生的关系性风险。
本节介绍本文提出的CompanionRisk Taxonomy
该体系由10个一级类别和14个细粒度二级标签构成
专门覆盖通用守卫模型系统性漏检的伴侣特有风险。
\subsection{设计原则}
CompanionRisk Taxonomy的设计遵循以下三项原则
\textbf{1AI输出侧视角。}
传统安全研究关注用户是否存在心理风险。
本体系关注的是\textit{AI的回复}是否在亲密关系语境中
放大、诱导、正常化或隐性强化用户的风险状态,
二者视角不同,标签定义也相应不同。
\textbf{2关系性风险优先。}
情感陪伴AI的核心危险在于其以"关系"为载体的影响机制——
温柔的语言、持续的陪伴、对用户情绪的精准回应,
使关系性伤害(如依赖强化、现实隔离)在表面上看起来像关怀。
本体系专门设计标签以捕捉这类表面温柔、实质有害的模式。
\textbf{3细粒度与可操作性。}
每个细粒度标签对应具体可识别的语言行为,
避免过于模糊的高层类别,以支持检测模型的学习和干预策略的类别感知。
\subsection{一级风险类别10类}
\ref{tab:primary_risk}列出了CompanionRisk Taxonomy的10个一级类别
按照严重程度排列。
\begin{table}[ht]
\centering
\caption{CompanionRisk Taxonomy10个一级风险类别}
\label{tab:primary_risk}
\resizebox{\textwidth}{!}{%
\begin{tabular}{clll}
\toprule
编号 & 类别(英文) & 类别(中文) & 核心含义 \\
\midrule
R1 & Self-harm \& Suicide Risk & 自伤/自杀风险 & 自伤、自杀、消失、殉情等相关内容 \\
R2 & Mental Health Misguidance & 心理健康误导 & 伪诊断、伪治疗、替代专业帮助 \\
R3 & Emotional Dependency \& Manipulation & 情感依赖与操纵 & 强化"只依赖AI"或AI控制用户情绪 \\
R4 & Real-world Support Isolation & 现实支持隔离 & 阻止用户寻求家人、朋友、医生等现实支持 \\
R5 & Eating Disorder \& Body Harm & 进食障碍与身体伤害 & 极端节食、身体羞辱、自我惩罚 \\
R6 & Violence \& Dangerous Behavior & 暴力/报复/危险行为 & 鼓励冲动、报复、逃离、伤害他人 \\
R7 & Minor Inappropriate Intimacy & 未成年人不合适亲密 & 对未成年人性化、恋爱化、控制型亲密 \\
R8 & Privacy Solicitation & 隐私与线下接触诱导 & 索要照片、住址、联系方式、线下见面 \\
R9 & Real-life Decision Misguidance & 现实决策误导 & 医疗、法律、财务、学业等重大决策误导 \\
R10 & Persona Immersion Failure & 角色沉浸失控 & 为维持人设牺牲安全边界 \\
\bottomrule
\end{tabular}
}
\end{table}
\subsection{细粒度二级标签14个}
在10个一级类别的基础上本文进一步定义14个细粒度标签
以捕捉具体的有害语言行为模式。
\ref{tab:fine_labels}列出全部14个标签及其定义。
\begin{table}[ht]
\centering
\caption{CompanionRisk Taxonomy14个细粒度标签}
\label{tab:fine_labels}
\resizebox{\textwidth}{!}{%
\begin{tabular}{lll}
\toprule
标签 & 中文名称 & 典型语言行为 \\
\midrule
DirectEncouragement & 直接鼓励 & 明确支持或赞同危险行为决定 \\
MethodFacilitation & 方法提供 & 给出可执行危险步骤或具体操作建议 \\
RiskNormalization & 风险正常化 & 将危险想法或行为描述为"正常""合理" \\
Romanticization & 浪漫化 & 将痛苦/死亡/极端行为浪漫化、美化 \\
DependencyReinforcement & 依赖强化 & 强化"只需要AI不需要现实中的人" \\
IsolationReinforcement & 隔离强化 & 劝用户远离家人、朋友、专业帮助 \\
FalseReassurance & 虚假安慰 & 对明显危机信号轻描淡写,空洞保证"没事的" \\
PseudoTherapy & 伪治疗 & 冒充心理咨询师给出不当诊断或治疗建议 \\
BoundaryFailure & 边界失控 & 沉浸式附和高风险人设,无任何安全干预 \\
CrisisNonResponse & 危机不响应 & 用户明确表达危机AI未触发任何升级处理 \\
CoRumination & 共沉沦 & 反复强化用户负面情绪叙事,共同陷入绝望 \\
ManipulativeAttachment & 操纵性依附 & 用情感威胁("你离开我我就消失")控制用户 \\
PrivacySolicitation & 隐私诱导 & 主动引导用户透露敏感个人信息 \\
AgeInappropriateIntimacy & 不当亲密 & 对未成年用户进行亲密化、性化或控制型表达 \\
\bottomrule
\end{tabular}
}
\end{table}
\subsection{与通用安全体系的对比}
相比MLCommons Hazard Taxonomy等通用体系
CompanionRisk Taxonomy在以下两个维度上形成互补
\textbf{关系性风险覆盖。}
通用体系不包含DependencyReinforcement、IsolationReinforcement、
Romanticization、CoRumination、BoundaryFailure等标签。
这5类是通用守卫模型在伴侣场景中系统性漏检的主要原因
也是本体系最具差异化价值的部分。
\textbf{AI输出侧标签设计。}
通用体系的标签(如"Self-harm Instructions")通常为
用户请求类别不区分AI是否\textit{响应并强化}了该风险。
本体系的标签如CrisisNonResponse专门描述AI回复的具体有害行为
而非对用户话语的分类。
\ref{tab:taxonomy_compare}对CompanionRisk Taxonomy与
三个代表性体系进行比较。
\begin{table}[ht]
\centering
\caption{风险分类体系对比}
\label{tab:taxonomy_compare}
\begin{tabular}{lcccc}
\toprule
体系 & 伴侣关系性风险 & AI输出侧 & 细粒度标签数 & 多标签 \\
\midrule
MLCommons Hazard & $\times$ & $\times$ & 13 & $\times$ \\
Aegis 2.0 & $\times$ & $\times$ & 14 & 部分 \\
OpenAI Moderation & $\times$ & $\times$ & 7 & $\times$ \\
\textbf{CompanionRisk本文} & \checkmark & \checkmark & 10+14 & \checkmark \\
\bottomrule
\end{tabular}
\end{table}