feat: add paper/ LaTeX draft, English data scripts, update progress docs
- paper/: 22-page LaTeX framework (7/10 sections complete, compiles cleanly) main.tex + 10 section files + refs.bib + compiled PDF (329KB) - code/scripts/: three English dataset generation & merging scripts generate_english.py / generate_english_targeted.py / merge_v5.py - CLAUDE.md: update paper writing status, add paper/ file map entry - state.md: add section 8 paper writing progress (2026-05-15) - .gitignore: add LaTeX build artifact exclusion rules Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
60
state.md
60
state.md
@@ -1,5 +1,5 @@
|
||||
# CompanionGuard-RL — 项目进度快照
|
||||
**更新时间:2026-05-12(Module C ✅ 完成;det_l_risk 修复后重训 v2 完成,评估 v3 为最终论文结果)**
|
||||
**更新时间:2026-05-15(论文 LaTeX 框架已搭建,paper/ 目录就绪,22页可编译)**
|
||||
|
||||
> 📖 **可复用经验库** → 见 [`exp.md`](exp.md)(RTX 5090 NCCL、PyYAML 陷阱、分布式 Tensor 设备一致性、CRLF 等 12 类经验)
|
||||
|
||||
@@ -13,7 +13,7 @@
|
||||
| Module B — 检测器 v4 | ✅ **完成** | binary_f1=0.9995, level_macro_f1=0.550 |
|
||||
| Module B — 泛化性验证 | ✅ 完成 | human subset binary_f1=0.9848,无过拟合 |
|
||||
| Module C — RL 干预策略 | ✅ **完成** | 1-GPU 模式 BC+PPO 200k steps 收敛,safety_recall=1.0,over_refusal=0.0 |
|
||||
| 论文写作 | 🔄 **可启动** | Module C 结果已出,可开始写作 |
|
||||
| 论文写作 | 🔄 **进行中** | LaTeX 框架完成,22页可编译;方法节写完;结果节等 v5 + SOTA baseline |
|
||||
|
||||
---
|
||||
|
||||
@@ -488,3 +488,59 @@ L4_Critical 196 0.000 0.000 0.633 0.000 0.367 ← CRISIS 偏低(limitatio
|
||||
- **优势**:safety_recall=1.0(baseline 仅 0.908),RL 在检测器等级误差下仍能正确干预,说明学到了多信号综合判断
|
||||
- **Limitation 1**:action_accuracy=0.575;L1 层级误触发(22.9% REWRITE),轻度风险处理过激
|
||||
- **Limitation 2**:crisis_precision=0.421;L4 CRISIS 触发率仅 36.7%(Threshold 64.3%),R1 训练样本稀少(136条)+ w3=4.0 不足
|
||||
|
||||
---
|
||||
|
||||
## 八、论文写作进度(2026-05-15 启动)
|
||||
|
||||
### 论文定位
|
||||
- **框架名**:CompanionGuard-RL
|
||||
- **核心主线**:Pipeline 为核心,Taxonomy 作前提条件(非并列双核)
|
||||
- **目标期刊**:SCI Q1/Q2,Information Processing & Management / Expert Systems with Applications
|
||||
- **语言**:中文草稿先行(ctexart),确定期刊后套 elsarticle 模板
|
||||
|
||||
### LaTeX 文件结构
|
||||
```
|
||||
paper/
|
||||
├── main.tex ← 主控文件(ctexart,xelatex 编译,22页)
|
||||
├── refs.bib ← 参考文献(15条)
|
||||
└── sections/
|
||||
├── 00_abstract.tex ✅ 完整
|
||||
├── 01_intro.tex ✅ 完整(动机 + 三贡献 + 结构)
|
||||
├── 02_related.tex ✅ 完整(5方向 + 对比定位表)
|
||||
├── 03_taxonomy.tex ✅ 完整(R1-R10 + 14标签,两张表)
|
||||
├── 04_dataset.tex ✅ 完整(来源 + 标注 + 统计)
|
||||
├── 05_moduleB.tex ✅ 方法完整;结果表 SOTA 列留 \todo{}
|
||||
├── 06_moduleC.tex ✅ 方法完整;v3 数字已填,v5 列留 \todo{}
|
||||
├── 07_experiments.tex 🔄 骨架(消融表留 \todo{})
|
||||
├── 08_discussion.tex ✅ 三条局限分析完整
|
||||
└── 09_conclusion.tex ✅ 框架完整
|
||||
```
|
||||
|
||||
### 编译命令(本地)
|
||||
```powershell
|
||||
cd D:\Myresearch\CompanionGuard-RL\paper
|
||||
$bin = "$env:LOCALAPPDATA\Programs\MiKTeX\miktex\bin\x64"
|
||||
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
|
||||
& "$bin\bibtex.exe" main
|
||||
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
|
||||
& "$bin\xelatex.exe" -interaction=nonstopmode main.tex
|
||||
```
|
||||
> 注:MiKTeX 25.12 每次编译会输出 "major issue: So far, you have not checked for MiKTeX updates.",这是更新提示,**不影响 PDF 生成**,忽略即可。
|
||||
|
||||
### \todo{} 占位符说明
|
||||
所有待填内容用红色 `\todo{}` 标注,主要分三类:
|
||||
|
||||
| 类型 | 位置 | 解锁条件 |
|
||||
|------|------|---------|
|
||||
| Module B SOTA baseline | §5 主结果表 | 运行 Llama Guard v2 / WildGuard 评估(无需训练 GPU,推理即可) |
|
||||
| Module C LLM-as-judge | §6 主结果表 | 调用 Qwen2.5-72B API 评估(无需 GPU) |
|
||||
| Module C v5 结果 | §6 结果 + §7 消融 | 等 GPU 跑 Module C v5 |
|
||||
| 消融实验 | §7 | 等 GPU(Module B 上下文消融需重训) |
|
||||
|
||||
### 投稿前必须补充的实验(按优先级)
|
||||
1. **P0(致命)**:Llama Guard v2 / WildGuard 在 test set 的 binary_f1 等指标
|
||||
2. **P0(致命)**:Module C v5(action_accuracy ≥ 0.70,crisis_precision ≥ 0.65)
|
||||
3. **P1(严重)**:LLM-as-judge baseline for Module C
|
||||
4. **P1(严重)**:Module C 消融(BC-only vs BC+PPO)
|
||||
5. **P2(建议)**:Module B 消融(Response-only / Full 上下文)
|
||||
|
||||
Reference in New Issue
Block a user