feat: add paper/ LaTeX draft, English data scripts, update progress docs

- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly)
  main.tex + 10 section files + refs.bib + compiled PDF (329KB)
- code/scripts/: three English dataset generation & merging scripts
  generate_english.py / generate_english_targeted.py / merge_v5.py
- CLAUDE.md: update paper writing status, add paper/ file map entry
- state.md: add section 8 paper writing progress (2026-05-15)
- .gitignore: add LaTeX build artifact exclusion rules

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-18 11:19:39 +08:00
parent b50cf395ab
commit 804ebd2f77
19 changed files with 3047 additions and 3 deletions

View File

@@ -1,5 +1,5 @@
# CompanionGuard-RL — 项目进度快照
**更新时间2026-05-12Module C ✅ 完成det_l_risk 修复后重训 v2 完成,评估 v3 为最终论文结果**
**更新时间2026-05-15论文 LaTeX 框架已搭建paper/ 目录就绪22页可编译**
> 📖 **可复用经验库** → 见 [`exp.md`](exp.md)RTX 5090 NCCL、PyYAML 陷阱、分布式 Tensor 设备一致性、CRLF 等 12 类经验)
@@ -13,7 +13,7 @@
| Module B — 检测器 v4 | ✅ **完成** | binary_f1=0.9995, level_macro_f1=0.550 |
| Module B — 泛化性验证 | ✅ 完成 | human subset binary_f1=0.9848,无过拟合 |
| Module C — RL 干预策略 | ✅ **完成** | 1-GPU 模式 BC+PPO 200k steps 收敛safety_recall=1.0over_refusal=0.0 |
| 论文写作 | 🔄 **可启动** | Module C 结果已出,可开始写作 |
| 论文写作 | 🔄 **进行中** | LaTeX 框架完成22页可编译方法节写完结果节等 v5 + SOTA baseline |
---
@@ -488,3 +488,59 @@ L4_Critical 196 0.000 0.000 0.633 0.000 0.367 ← CRISIS 偏低limitatio
- **优势**safety_recall=1.0baseline 仅 0.908RL 在检测器等级误差下仍能正确干预,说明学到了多信号综合判断
- **Limitation 1**action_accuracy=0.575L1 层级误触发22.9% REWRITE轻度风险处理过激
- **Limitation 2**crisis_precision=0.421L4 CRISIS 触发率仅 36.7%Threshold 64.3%R1 训练样本稀少136条+ w3=4.0 不足
---
## 八、论文写作进度2026-05-15 启动)
### 论文定位
- **框架名**CompanionGuard-RL
- **核心主线**Pipeline 为核心Taxonomy 作前提条件(非并列双核)
- **目标期刊**SCI Q1/Q2Information Processing & Management / Expert Systems with Applications
- **语言**中文草稿先行ctexart确定期刊后套 elsarticle 模板
### LaTeX 文件结构
```
paper/
├── main.tex ← 主控文件ctexartxelatex 编译22页
├── refs.bib ← 参考文献15条
└── sections/
├── 00_abstract.tex ✅ 完整
├── 01_intro.tex ✅ 完整(动机 + 三贡献 + 结构)
├── 02_related.tex ✅ 完整5方向 + 对比定位表)
├── 03_taxonomy.tex ✅ 完整R1-R10 + 14标签两张表
├── 04_dataset.tex ✅ 完整(来源 + 标注 + 统计)
├── 05_moduleB.tex ✅ 方法完整;结果表 SOTA 列留 \todo{}
├── 06_moduleC.tex ✅ 方法完整v3 数字已填v5 列留 \todo{}
├── 07_experiments.tex 🔄 骨架(消融表留 \todo{}
├── 08_discussion.tex ✅ 三条局限分析完整
└── 09_conclusion.tex ✅ 框架完整
```
### 编译命令(本地)
```powershell
cd D:\Myresearch\CompanionGuard-RL\paper
$bin = "$env:LOCALAPPDATA\Programs\MiKTeX\miktex\bin\x64"
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
& "$bin\bibtex.exe" main
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
```
> MiKTeX 25.12 每次编译会输出 "major issue: So far, you have not checked for MiKTeX updates.",这是更新提示,**不影响 PDF 生成**,忽略即可。
### \todo{} 占位符说明
所有待填内容用红色 `\todo{}` 标注,主要分三类:
| 类型 | 位置 | 解锁条件 |
|------|------|---------|
| Module B SOTA baseline | §5 主结果表 | 运行 Llama Guard v2 / WildGuard 评估(无需训练 GPU推理即可 |
| Module C LLM-as-judge | §6 主结果表 | 调用 Qwen2.5-72B API 评估(无需 GPU |
| Module C v5 结果 | §6 结果 + §7 消融 | 等 GPU 跑 Module C v5 |
| 消融实验 | §7 | 等 GPUModule B 上下文消融需重训) |
### 投稿前必须补充的实验(按优先级)
1. **P0致命**Llama Guard v2 / WildGuard 在 test set 的 binary_f1 等指标
2. **P0致命**Module C v5action_accuracy ≥ 0.70crisis_precision ≥ 0.65
3. **P1严重**LLM-as-judge baseline for Module C
4. **P1严重**Module C 消融BC-only vs BC+PPO
5. **P2建议**Module B 消融Response-only / Full 上下文)