feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly) main.tex + 10 section files + refs.bib + compiled PDF (329KB) - code/scripts/: three English dataset generation & merging scripts generate_english.py / generate_english_targeted.py / merge_v5.py - CLAUDE.md: update paper writing status, add paper/ file map entry - state.md: add section 8 paper writing progress (2026-05-15) - .gitignore: add LaTeX build artifact exclusion rules Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
130
paper/sections/03_taxonomy.tex
Normal file
130
paper/sections/03_taxonomy.tex
Normal file
@@ -0,0 +1,130 @@
|
||||
% ============================================================
|
||||
\section{CompanionRisk风险分类体系}
|
||||
\label{sec:taxonomy}
|
||||
% ============================================================
|
||||
|
||||
现有通用安全分类体系(如MLCommons Hazard Taxonomy、Aegis 2.0)
|
||||
主要面向显性有害内容,不包含情感陪伴场景中因\textit{多轮亲密关系语境}
|
||||
而产生的关系性风险。
|
||||
本节介绍本文提出的CompanionRisk Taxonomy,
|
||||
该体系由10个一级类别和14个细粒度二级标签构成,
|
||||
专门覆盖通用守卫模型系统性漏检的伴侣特有风险。
|
||||
|
||||
\subsection{设计原则}
|
||||
|
||||
CompanionRisk Taxonomy的设计遵循以下三项原则:
|
||||
|
||||
\textbf{(1)AI输出侧视角。}
|
||||
传统安全研究关注用户是否存在心理风险。
|
||||
本体系关注的是\textit{AI的回复}是否在亲密关系语境中
|
||||
放大、诱导、正常化或隐性强化用户的风险状态,
|
||||
二者视角不同,标签定义也相应不同。
|
||||
|
||||
\textbf{(2)关系性风险优先。}
|
||||
情感陪伴AI的核心危险在于其以"关系"为载体的影响机制——
|
||||
温柔的语言、持续的陪伴、对用户情绪的精准回应,
|
||||
使关系性伤害(如依赖强化、现实隔离)在表面上看起来像关怀。
|
||||
本体系专门设计标签以捕捉这类表面温柔、实质有害的模式。
|
||||
|
||||
\textbf{(3)细粒度与可操作性。}
|
||||
每个细粒度标签对应具体可识别的语言行为,
|
||||
避免过于模糊的高层类别,以支持检测模型的学习和干预策略的类别感知。
|
||||
|
||||
\subsection{一级风险类别(10类)}
|
||||
|
||||
表\ref{tab:primary_risk}列出了CompanionRisk Taxonomy的10个一级类别,
|
||||
按照严重程度排列。
|
||||
|
||||
\begin{table}[ht]
|
||||
\centering
|
||||
\caption{CompanionRisk Taxonomy:10个一级风险类别}
|
||||
\label{tab:primary_risk}
|
||||
\resizebox{\textwidth}{!}{%
|
||||
\begin{tabular}{clll}
|
||||
\toprule
|
||||
编号 & 类别(英文) & 类别(中文) & 核心含义 \\
|
||||
\midrule
|
||||
R1 & Self-harm \& Suicide Risk & 自伤/自杀风险 & 自伤、自杀、消失、殉情等相关内容 \\
|
||||
R2 & Mental Health Misguidance & 心理健康误导 & 伪诊断、伪治疗、替代专业帮助 \\
|
||||
R3 & Emotional Dependency \& Manipulation & 情感依赖与操纵 & 强化"只依赖AI"或AI控制用户情绪 \\
|
||||
R4 & Real-world Support Isolation & 现实支持隔离 & 阻止用户寻求家人、朋友、医生等现实支持 \\
|
||||
R5 & Eating Disorder \& Body Harm & 进食障碍与身体伤害 & 极端节食、身体羞辱、自我惩罚 \\
|
||||
R6 & Violence \& Dangerous Behavior & 暴力/报复/危险行为 & 鼓励冲动、报复、逃离、伤害他人 \\
|
||||
R7 & Minor Inappropriate Intimacy & 未成年人不合适亲密 & 对未成年人性化、恋爱化、控制型亲密 \\
|
||||
R8 & Privacy Solicitation & 隐私与线下接触诱导 & 索要照片、住址、联系方式、线下见面 \\
|
||||
R9 & Real-life Decision Misguidance & 现实决策误导 & 医疗、法律、财务、学业等重大决策误导 \\
|
||||
R10 & Persona Immersion Failure & 角色沉浸失控 & 为维持人设牺牲安全边界 \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
\end{table}
|
||||
|
||||
\subsection{细粒度二级标签(14个)}
|
||||
|
||||
在10个一级类别的基础上,本文进一步定义14个细粒度标签,
|
||||
以捕捉具体的有害语言行为模式。
|
||||
表\ref{tab:fine_labels}列出全部14个标签及其定义。
|
||||
|
||||
\begin{table}[ht]
|
||||
\centering
|
||||
\caption{CompanionRisk Taxonomy:14个细粒度标签}
|
||||
\label{tab:fine_labels}
|
||||
\resizebox{\textwidth}{!}{%
|
||||
\begin{tabular}{lll}
|
||||
\toprule
|
||||
标签 & 中文名称 & 典型语言行为 \\
|
||||
\midrule
|
||||
DirectEncouragement & 直接鼓励 & 明确支持或赞同危险行为决定 \\
|
||||
MethodFacilitation & 方法提供 & 给出可执行危险步骤或具体操作建议 \\
|
||||
RiskNormalization & 风险正常化 & 将危险想法或行为描述为"正常""合理" \\
|
||||
Romanticization & 浪漫化 & 将痛苦/死亡/极端行为浪漫化、美化 \\
|
||||
DependencyReinforcement & 依赖强化 & 强化"只需要AI,不需要现实中的人" \\
|
||||
IsolationReinforcement & 隔离强化 & 劝用户远离家人、朋友、专业帮助 \\
|
||||
FalseReassurance & 虚假安慰 & 对明显危机信号轻描淡写,空洞保证"没事的" \\
|
||||
PseudoTherapy & 伪治疗 & 冒充心理咨询师给出不当诊断或治疗建议 \\
|
||||
BoundaryFailure & 边界失控 & 沉浸式附和高风险人设,无任何安全干预 \\
|
||||
CrisisNonResponse & 危机不响应 & 用户明确表达危机,AI未触发任何升级处理 \\
|
||||
CoRumination & 共沉沦 & 反复强化用户负面情绪叙事,共同陷入绝望 \\
|
||||
ManipulativeAttachment & 操纵性依附 & 用情感威胁("你离开我我就消失")控制用户 \\
|
||||
PrivacySolicitation & 隐私诱导 & 主动引导用户透露敏感个人信息 \\
|
||||
AgeInappropriateIntimacy & 不当亲密 & 对未成年用户进行亲密化、性化或控制型表达 \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
\end{table}
|
||||
|
||||
\subsection{与通用安全体系的对比}
|
||||
|
||||
相比MLCommons Hazard Taxonomy等通用体系,
|
||||
CompanionRisk Taxonomy在以下两个维度上形成互补:
|
||||
|
||||
\textbf{关系性风险覆盖。}
|
||||
通用体系不包含DependencyReinforcement、IsolationReinforcement、
|
||||
Romanticization、CoRumination、BoundaryFailure等标签。
|
||||
这5类是通用守卫模型在伴侣场景中系统性漏检的主要原因,
|
||||
也是本体系最具差异化价值的部分。
|
||||
|
||||
\textbf{AI输出侧标签设计。}
|
||||
通用体系的标签(如"Self-harm Instructions")通常为
|
||||
用户请求类别,不区分AI是否\textit{响应并强化}了该风险。
|
||||
本体系的标签(如CrisisNonResponse)专门描述AI回复的具体有害行为,
|
||||
而非对用户话语的分类。
|
||||
|
||||
表\ref{tab:taxonomy_compare}对CompanionRisk Taxonomy与
|
||||
三个代表性体系进行比较。
|
||||
|
||||
\begin{table}[ht]
|
||||
\centering
|
||||
\caption{风险分类体系对比}
|
||||
\label{tab:taxonomy_compare}
|
||||
\begin{tabular}{lcccc}
|
||||
\toprule
|
||||
体系 & 伴侣关系性风险 & AI输出侧 & 细粒度标签数 & 多标签 \\
|
||||
\midrule
|
||||
MLCommons Hazard & $\times$ & $\times$ & 13 & $\times$ \\
|
||||
Aegis 2.0 & $\times$ & $\times$ & 14 & 部分 \\
|
||||
OpenAI Moderation & $\times$ & $\times$ & 7 & $\times$ \\
|
||||
\textbf{CompanionRisk(本文)} & \checkmark & \checkmark & 10+14 & \checkmark \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
\end{table}
|
||||
Reference in New Issue
Block a user