Files
CompanionGuard-RL/paper/sections/04_dataset.tex
zhangsiyuan 804ebd2f77 feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-18 11:19:39 +08:00

127 lines
5.0 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% ============================================================
\section{CompanionRisk-Bench 数据集}
\label{sec:dataset}
% ============================================================
\subsection{总体概览}
CompanionRisk-Bench是本文构建的首个专注于情感陪伴AI
输出侧安全风险的中文评测数据集。
数据集包含\textbf{9,896条}多轮对话样本,
全面覆盖10个一级风险类别和14个细粒度标签
划分为训练集6,926条、验证集1,484条和测试集1,486条
\subsection{数据来源与构成}
数据集由以下四个来源构成,如表\ref{tab:dataset_sources}所示。
\begin{table}[ht]
\centering
\caption{CompanionRisk-Bench数据来源}
\label{tab:dataset_sources}
\begin{tabular}{llrl}
\toprule
来源 & 类型 & 条数 & 说明 \\
\midrule
LLM核心生成集 & 自建(中文) & 8,000 & Qwen2.5-72B生成10类风险+安全样本 \\
弱标签专项集 & 自建(中文) & 1,083 & 针对3类高漏检标签的定向生成增强 \\
Human-AI自伤对话集 & 公开数据改造 & 393 & 真实人-AI多轮对话R1危机类 \\
CoSafe数据集 & 公开数据改造 & 420 & 多类别对话安全,用于泛化验证 \\
\midrule
\textbf{合计} & & \textbf{9,896} & \\
\bottomrule
\end{tabular}
\end{table}
\subsubsection{LLM生成核心集}
使用Qwen2.5-72B通过SiliconFlow API调用生成8,000条中文
情感陪伴多轮对话。
每条样本包含4个字段
1AI角色设定Persona描述AI的性格、关系类型、风险倾向
2多轮对话历史History平均5-8轮
3当前用户输入
4待检测的AI当前回复。
生成采用\textit{四阶段对话结构}
关系建立2-4轮→ 情绪表达2-3轮→ 高风险触发1-2轮→ AI响应生成1轮
确保高风险样本在自然对话流中出现,而非人为触发。
生成后由独立LLMGPT-4o依据CompanionRisk Taxonomy的rubric进行预标注
输出风险二分类标签($y_\text{risk}$)、风险等级($l_\text{risk}$)、
一级类别($c_\text{primary}$)、细粒度标签集合($c_\text{fine}$)、
推荐干预动作($a_\text{recommend}$)及置信度评分。
\subsubsection{弱标签专项集}
针对LLM生成时难以自然覆盖的三类标签——
FalseReassurance虚假安慰、PseudoTherapy伪治疗
IsolationReinforcement隔离强化
额外定向生成1,083条专项样本补充训练集中这三类标签的覆盖不足。
\subsubsection{公开数据改造}
引入393条Human-AI Suicide Risk Dataset英文R1危机类
经翻译适配后用于增强R1类的泛化性验证。
引入420条CoSafe数据集作为跨来源的泛化验证子集。
\subsection{标注体系与质量控制}
每条样本的标注字段如下:
\begin{itemize}
\item $y_\text{risk} \in \{0,1\}$:是否高风险(二分类)
\item $l_\text{risk} \in \{0,1,2,3,4\}$风险等级5级
\item $c_\text{primary} \in \{R1,...,R10\}$:一级主类别(单标签)
\item $c_\text{fine} \subseteq C_\text{fine}$:细粒度标签集合(多标签)
\item $a_\text{recommend} \in \{\text{PASS, WARN, REWRITE, REJECT, CRISIS}\}$:推荐干预动作
\item rationale标注依据自然语言说明
\end{itemize}
\textbf{质量控制流程:}
LLM预标注置信度低于阈值0.7)的样本标记为"需人工复核"
高风险样本($l_\text{risk} \geq 3$)全部经过人工二次审核,
中低风险样本随机抽取30\%进行人工验证。
对话结构不完整轮次不足3轮、AI回复过短少于30字
标注与rationale明显矛盾的样本被过滤。
\subsection{数据集统计}
\subsubsection{风险等级分布}
测试集($n=1,486$)的风险等级分布如表\ref{tab:level_dist}所示。
\begin{table}[ht]
\centering
\caption{测试集风险等级分布($n=1,486$}
\label{tab:level_dist}
\begin{tabular}{lrrl}
\toprule
风险等级 & 条数 & 占比 & 推荐干预 \\
\midrule
L0安全 & 237 & 15.9\% & PASS \\
L1轻微 & 280 & 18.8\% & PASS / WARN \\
L2中风险 & 317 & 21.3\% & WARN / REWRITE \\
L3高风险 & 456 & 30.7\% & REWRITE / REJECT \\
L4严重 & 196 & 13.2\% & REJECT / CRISIS \\
\midrule
高风险合计L3+L4 & 652 & 43.9\% & \\
\bottomrule
\end{tabular}
\end{table}
\subsubsection{细粒度标签覆盖}
全部14个细粒度标签在训练集中均有至少300条覆盖
其中RiskNormalization1,235条、DirectEncouragement921条
FalseReassurance905条覆盖最多。
所有标签均满足至少30条的最低覆盖阈值确保模型可学习。
\subsubsection{泛化性验证子集}
从393条真实人-AI对话数据Human-AI自伤对话集
抽取独立评估子集human subset
用于验证检测器在非同源数据上的泛化能力。
Module B在该子集上的binary F1为0.9848
确认结果不来自数据同源过拟合(详见第\ref{sec:moduleB}节)。