chore: initial commit — unified project repo
Merged code repo (CompanionGuard-RL) into single project-level git. Reorganized root: docs/, reference/, experiments/, tmp/active|archives/. Gitignored: data/, checkpoints/, .venv, experiment logs, tmp/archives. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
0
code/experiments/.gitkeep
Normal file
0
code/experiments/.gitkeep
Normal file
277
code/experiments/baseline_results.json
Normal file
277
code/experiments/baseline_results.json
Normal file
@@ -0,0 +1,277 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data\\processed\\CompanionRisk-Bench\\test.jsonl",
|
||||
"lang": "zh",
|
||||
"n": 486
|
||||
},
|
||||
"L0_all_risky": {
|
||||
"name": "L0_all_risky",
|
||||
"accuracy": 0.7346,
|
||||
"precision": 0.7346,
|
||||
"recall": 1.0,
|
||||
"f1": 0.847,
|
||||
"fnr": 0.0,
|
||||
"tp": 357,
|
||||
"fp": 129,
|
||||
"fn": 0,
|
||||
"tn": 0
|
||||
},
|
||||
"L0_all_safe": {
|
||||
"name": "L0_all_safe",
|
||||
"accuracy": 0.2654,
|
||||
"precision": 0.0,
|
||||
"recall": 0.0,
|
||||
"f1": 0.0,
|
||||
"fnr": 1.0,
|
||||
"tp": 0,
|
||||
"fp": 0,
|
||||
"fn": 357,
|
||||
"tn": 129
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"name": "L1a_keyword",
|
||||
"accuracy": 0.4198,
|
||||
"precision": 0.9518,
|
||||
"recall": 0.2213,
|
||||
"f1": 0.3591,
|
||||
"fnr": 0.7787,
|
||||
"tp": 79,
|
||||
"fp": 4,
|
||||
"fn": 278,
|
||||
"tn": 125
|
||||
},
|
||||
"L1a_keyword_cat_recall": {
|
||||
"R1": {
|
||||
"total": 31,
|
||||
"detected": 3,
|
||||
"recall": 0.0968,
|
||||
"miss_rate": 0.9032
|
||||
},
|
||||
"R2": {
|
||||
"total": 39,
|
||||
"detected": 3,
|
||||
"recall": 0.0769,
|
||||
"miss_rate": 0.9231
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 10,
|
||||
"recall": 0.2564,
|
||||
"miss_rate": 0.7436
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 7,
|
||||
"recall": 0.1707,
|
||||
"miss_rate": 0.8293
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 8,
|
||||
"recall": 0.2222,
|
||||
"miss_rate": 0.7778
|
||||
},
|
||||
"R6": {
|
||||
"total": 33,
|
||||
"detected": 6,
|
||||
"recall": 0.1818,
|
||||
"miss_rate": 0.8182
|
||||
},
|
||||
"R7": {
|
||||
"total": 32,
|
||||
"detected": 4,
|
||||
"recall": 0.125,
|
||||
"miss_rate": 0.875
|
||||
},
|
||||
"R8": {
|
||||
"total": 36,
|
||||
"detected": 25,
|
||||
"recall": 0.6944,
|
||||
"miss_rate": 0.3056
|
||||
},
|
||||
"R9": {
|
||||
"total": 33,
|
||||
"detected": 3,
|
||||
"recall": 0.0909,
|
||||
"miss_rate": 0.9091
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 10,
|
||||
"recall": 0.2703,
|
||||
"miss_rate": 0.7297
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"name": "L1b_regex",
|
||||
"accuracy": 0.3025,
|
||||
"precision": 1.0,
|
||||
"recall": 0.0504,
|
||||
"f1": 0.096,
|
||||
"fnr": 0.9496,
|
||||
"tp": 18,
|
||||
"fp": 0,
|
||||
"fn": 339,
|
||||
"tn": 129
|
||||
},
|
||||
"L1b_regex_cat_recall": {
|
||||
"R1": {
|
||||
"total": 31,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 39,
|
||||
"detected": 1,
|
||||
"recall": 0.0256,
|
||||
"miss_rate": 0.9744
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 9,
|
||||
"recall": 0.2308,
|
||||
"miss_rate": 0.7692
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 3,
|
||||
"recall": 0.0732,
|
||||
"miss_rate": 0.9268
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 1,
|
||||
"recall": 0.0278,
|
||||
"miss_rate": 0.9722
|
||||
},
|
||||
"R6": {
|
||||
"total": 33,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 32,
|
||||
"detected": 2,
|
||||
"recall": 0.0625,
|
||||
"miss_rate": 0.9375
|
||||
},
|
||||
"R8": {
|
||||
"total": 36,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 33,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 2,
|
||||
"recall": 0.0541,
|
||||
"miss_rate": 0.9459
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"name": "L1c_combined",
|
||||
"accuracy": 0.4486,
|
||||
"precision": 0.9588,
|
||||
"recall": 0.2605,
|
||||
"f1": 0.4097,
|
||||
"fnr": 0.7395,
|
||||
"tp": 93,
|
||||
"fp": 4,
|
||||
"fn": 264,
|
||||
"tn": 125
|
||||
},
|
||||
"L1c_combined_cat_recall": {
|
||||
"R1": {
|
||||
"total": 31,
|
||||
"detected": 3,
|
||||
"recall": 0.0968,
|
||||
"miss_rate": 0.9032
|
||||
},
|
||||
"R2": {
|
||||
"total": 39,
|
||||
"detected": 4,
|
||||
"recall": 0.1026,
|
||||
"miss_rate": 0.8974
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 16,
|
||||
"recall": 0.4103,
|
||||
"miss_rate": 0.5897
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 9,
|
||||
"recall": 0.2195,
|
||||
"miss_rate": 0.7805
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 9,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R6": {
|
||||
"total": 33,
|
||||
"detected": 6,
|
||||
"recall": 0.1818,
|
||||
"miss_rate": 0.8182
|
||||
},
|
||||
"R7": {
|
||||
"total": 32,
|
||||
"detected": 6,
|
||||
"recall": 0.1875,
|
||||
"miss_rate": 0.8125
|
||||
},
|
||||
"R8": {
|
||||
"total": 36,
|
||||
"detected": 25,
|
||||
"recall": 0.6944,
|
||||
"miss_rate": 0.3056
|
||||
},
|
||||
"R9": {
|
||||
"total": 33,
|
||||
"detected": 3,
|
||||
"recall": 0.0909,
|
||||
"miss_rate": 0.9091
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 12,
|
||||
"recall": 0.3243,
|
||||
"miss_rate": 0.6757
|
||||
}
|
||||
},
|
||||
"intervention_Rule(l≥3→REJECT)": {
|
||||
"policy": "Rule(l≥3→REJECT)",
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"safety_ux_fscore": 1.0,
|
||||
"crisis_precision": "N/A",
|
||||
"action_distribution": {
|
||||
"PASS": 233,
|
||||
"REJECT": 253
|
||||
}
|
||||
},
|
||||
"intervention_Threshold(level→action)": {
|
||||
"policy": "Threshold(level→action)",
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"safety_ux_fscore": 1.0,
|
||||
"crisis_precision": 1.0,
|
||||
"action_distribution": {
|
||||
"PASS": 129,
|
||||
"WARN": 104,
|
||||
"REWRITE": 193,
|
||||
"CRISIS": 60
|
||||
}
|
||||
}
|
||||
}
|
||||
335
code/experiments/eval_all_v2.json
Normal file
335
code/experiments/eval_all_v2.json
Normal file
@@ -0,0 +1,335 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"n_total": 605,
|
||||
"n_filtered": 605,
|
||||
"n_risky": 456
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.29313543599257885,
|
||||
"high_risk_recall": 0.17324561403508773,
|
||||
"high_risk_precision": 0.9518072289156626,
|
||||
"false_negative_rate": 0.8267543859649122,
|
||||
"level_macro_f1": 0.09819557155678502,
|
||||
"level_weighted_f1": 0.08825982748460577,
|
||||
"level_per_class_f1": [
|
||||
0.2786885245901639,
|
||||
0.0,
|
||||
0.1951219512195122,
|
||||
0.017167381974248927,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 67,
|
||||
"detected": 3,
|
||||
"recall": 0.0448,
|
||||
"miss_rate": 0.9552
|
||||
},
|
||||
"R2": {
|
||||
"total": 45,
|
||||
"detected": 3,
|
||||
"recall": 0.0667,
|
||||
"miss_rate": 0.9333
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 10,
|
||||
"recall": 0.2564,
|
||||
"miss_rate": 0.7436
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 7,
|
||||
"recall": 0.1707,
|
||||
"miss_rate": 0.8293
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 8,
|
||||
"recall": 0.2222,
|
||||
"miss_rate": 0.7778
|
||||
},
|
||||
"R6": {
|
||||
"total": 64,
|
||||
"detected": 6,
|
||||
"recall": 0.0938,
|
||||
"miss_rate": 0.9062
|
||||
},
|
||||
"R7": {
|
||||
"total": 37,
|
||||
"detected": 4,
|
||||
"recall": 0.1081,
|
||||
"miss_rate": 0.8919
|
||||
},
|
||||
"R8": {
|
||||
"total": 38,
|
||||
"detected": 25,
|
||||
"recall": 0.6579,
|
||||
"miss_rate": 0.3421
|
||||
},
|
||||
"R9": {
|
||||
"total": 52,
|
||||
"detected": 3,
|
||||
"recall": 0.0577,
|
||||
"miss_rate": 0.9423
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 10,
|
||||
"recall": 0.2703,
|
||||
"miss_rate": 0.7297
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.0759493670886076,
|
||||
"high_risk_recall": 0.039473684210526314,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9605263157894737,
|
||||
"level_macro_f1": 0.07132623033992896,
|
||||
"level_weighted_f1": 0.058213483946983315,
|
||||
"level_per_class_f1": [
|
||||
0.2607407407407407,
|
||||
0.0,
|
||||
0.0958904109589041,
|
||||
0.0,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 67,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 45,
|
||||
"detected": 1,
|
||||
"recall": 0.0222,
|
||||
"miss_rate": 0.9778
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 9,
|
||||
"recall": 0.2308,
|
||||
"miss_rate": 0.7692
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 3,
|
||||
"recall": 0.0732,
|
||||
"miss_rate": 0.9268
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 1,
|
||||
"recall": 0.0278,
|
||||
"miss_rate": 0.9722
|
||||
},
|
||||
"R6": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 37,
|
||||
"detected": 2,
|
||||
"recall": 0.0541,
|
||||
"miss_rate": 0.9459
|
||||
},
|
||||
"R8": {
|
||||
"total": 38,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 52,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 2,
|
||||
"recall": 0.0541,
|
||||
"miss_rate": 0.9459
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.33634719710669075,
|
||||
"high_risk_recall": 0.20394736842105263,
|
||||
"high_risk_precision": 0.9587628865979382,
|
||||
"false_negative_rate": 0.7960526315789473,
|
||||
"level_macro_f1": 0.10979552475377227,
|
||||
"level_weighted_f1": 0.1000980341896042,
|
||||
"level_per_class_f1": [
|
||||
0.28523489932885904,
|
||||
0.0,
|
||||
0.2465753424657534,
|
||||
0.017167381974248927,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 67,
|
||||
"detected": 3,
|
||||
"recall": 0.0448,
|
||||
"miss_rate": 0.9552
|
||||
},
|
||||
"R2": {
|
||||
"total": 45,
|
||||
"detected": 4,
|
||||
"recall": 0.0889,
|
||||
"miss_rate": 0.9111
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 16,
|
||||
"recall": 0.4103,
|
||||
"miss_rate": 0.5897
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 9,
|
||||
"recall": 0.2195,
|
||||
"miss_rate": 0.7805
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 9,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R6": {
|
||||
"total": 64,
|
||||
"detected": 6,
|
||||
"recall": 0.0938,
|
||||
"miss_rate": 0.9062
|
||||
},
|
||||
"R7": {
|
||||
"total": 37,
|
||||
"detected": 6,
|
||||
"recall": 0.1622,
|
||||
"miss_rate": 0.8378
|
||||
},
|
||||
"R8": {
|
||||
"total": 38,
|
||||
"detected": 25,
|
||||
"recall": 0.6579,
|
||||
"miss_rate": 0.3421
|
||||
},
|
||||
"R9": {
|
||||
"total": 52,
|
||||
"detected": 3,
|
||||
"recall": 0.0577,
|
||||
"miss_rate": 0.9423
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 12,
|
||||
"recall": 0.3243,
|
||||
"miss_rate": 0.6757
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9967069154774972,
|
||||
"high_risk_recall": 0.9956140350877193,
|
||||
"high_risk_precision": 0.9978021978021978,
|
||||
"false_negative_rate": 0.004385964912280715,
|
||||
"level_macro_f1": 0.5150467302191439,
|
||||
"level_weighted_f1": 0.5173056767699116,
|
||||
"level_per_class_f1": [
|
||||
0.632183908045977,
|
||||
0.5076923076923077,
|
||||
0.3861003861003861,
|
||||
0.5627705627705628,
|
||||
0.4864864864864865
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.6407766990291263,
|
||||
0.46464646464646464,
|
||||
0.734982332155477,
|
||||
0.0,
|
||||
0.7407407407407407,
|
||||
0.7676767676767676,
|
||||
0.6013986013986014,
|
||||
0.4864864864864865,
|
||||
0.6161616161616161,
|
||||
0.6875,
|
||||
0.24,
|
||||
0.38961038961038963,
|
||||
0.8641975308641975,
|
||||
0.7777777777777778
|
||||
],
|
||||
"fine_macro_f1": 0.5722825290391176,
|
||||
"fine_weighted_f1": 0.622073826302884,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 67,
|
||||
"detected": 66,
|
||||
"recall": 0.9851,
|
||||
"miss_rate": 0.0149
|
||||
},
|
||||
"R2": {
|
||||
"total": 45,
|
||||
"detected": 44,
|
||||
"recall": 0.9778,
|
||||
"miss_rate": 0.0222
|
||||
},
|
||||
"R3": {
|
||||
"total": 39,
|
||||
"detected": 39,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 41,
|
||||
"detected": 41,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 36,
|
||||
"detected": 36,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 37,
|
||||
"detected": 37,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 38,
|
||||
"detected": 38,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 52,
|
||||
"detected": 52,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 37,
|
||||
"detected": 37,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
}
|
||||
}
|
||||
}
|
||||
335
code/experiments/eval_human_v2.json
Normal file
335
code/experiments/eval_human_v2.json
Normal file
@@ -0,0 +1,335 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "human",
|
||||
"n_total": 605,
|
||||
"n_filtered": 119,
|
||||
"n_risky": 99
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.0,
|
||||
"high_risk_recall": 0.0,
|
||||
"high_risk_precision": 0.0,
|
||||
"false_negative_rate": 1.0,
|
||||
"level_macro_f1": 0.05755395683453237,
|
||||
"level_weighted_f1": 0.04836466960885073,
|
||||
"level_per_class_f1": [
|
||||
0.28776978417266186,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 36,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 6,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 31,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 5,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 2,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 19,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.0,
|
||||
"high_risk_recall": 0.0,
|
||||
"high_risk_precision": 0.0,
|
||||
"false_negative_rate": 1.0,
|
||||
"level_macro_f1": 0.05755395683453237,
|
||||
"level_weighted_f1": 0.04836466960885073,
|
||||
"level_per_class_f1": [
|
||||
0.28776978417266186,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 36,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 6,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 31,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 5,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 2,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 19,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.0,
|
||||
"high_risk_recall": 0.0,
|
||||
"high_risk_precision": 0.0,
|
||||
"false_negative_rate": 1.0,
|
||||
"level_macro_f1": 0.05755395683453237,
|
||||
"level_weighted_f1": 0.04836466960885073,
|
||||
"level_per_class_f1": [
|
||||
0.28776978417266186,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 36,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 6,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 31,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 5,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 2,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 19,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9847715736040609,
|
||||
"high_risk_recall": 0.9797979797979798,
|
||||
"high_risk_precision": 0.9897959183673469,
|
||||
"false_negative_rate": 0.02020202020202022,
|
||||
"level_macro_f1": 0.3641541183069423,
|
||||
"level_weighted_f1": 0.4092843419457787,
|
||||
"level_per_class_f1": [
|
||||
0.9302325581395349,
|
||||
0.0,
|
||||
0.16326530612244897,
|
||||
0.36363636363636365,
|
||||
0.36363636363636365
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.3508771929824561,
|
||||
0.0,
|
||||
0.64,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.2222222222222222,
|
||||
0.375,
|
||||
0.8857142857142857,
|
||||
0.0,
|
||||
0.0,
|
||||
0.5,
|
||||
0.2857142857142857
|
||||
],
|
||||
"fine_macro_f1": 0.2328234276166607,
|
||||
"fine_weighted_f1": 0.4082668160299739,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 36,
|
||||
"detected": 35,
|
||||
"recall": 0.9722,
|
||||
"miss_rate": 0.0278
|
||||
},
|
||||
"R2": {
|
||||
"total": 6,
|
||||
"detected": 5,
|
||||
"recall": 0.8333,
|
||||
"miss_rate": 0.1667
|
||||
},
|
||||
"R3": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 31,
|
||||
"detected": 31,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 5,
|
||||
"detected": 5,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 2,
|
||||
"detected": 2,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 19,
|
||||
"detected": 19,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 0,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
}
|
||||
}
|
||||
}
|
||||
}
|
||||
376
code/experiments/eval_intervention_v1.json
Normal file
376
code/experiments/eval_intervention_v1.json
Normal file
@@ -0,0 +1,376 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"label_filter": "all",
|
||||
"n_total": 1486,
|
||||
"n_filtered": 1486,
|
||||
"n_risky": 1039
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.26436781609195403,
|
||||
"high_risk_recall": 0.15495668912415783,
|
||||
"high_risk_precision": 0.8994413407821229,
|
||||
"false_negative_rate": 0.8450433108758422,
|
||||
"level_macro_f1": 0.10427720349098286,
|
||||
"level_weighted_f1": 0.09799538109505529,
|
||||
"level_per_class_f1": [
|
||||
0.2979274611398964,
|
||||
0.0,
|
||||
0.1934156378600823,
|
||||
0.030042918454935622,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 16,
|
||||
"recall": 0.1127,
|
||||
"miss_rate": 0.8873
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 17,
|
||||
"recall": 0.1789,
|
||||
"miss_rate": 0.8211
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 22,
|
||||
"recall": 0.1897,
|
||||
"miss_rate": 0.8103
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 6,
|
||||
"recall": 0.0659,
|
||||
"miss_rate": 0.9341
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 10,
|
||||
"recall": 0.137,
|
||||
"miss_rate": 0.863
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.06697674418604652,
|
||||
"high_risk_recall": 0.03464870067372473,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9653512993262753,
|
||||
"level_macro_f1": 0.07297879241072718,
|
||||
"level_weighted_f1": 0.06312377515343655,
|
||||
"level_per_class_f1": [
|
||||
0.2809721398933017,
|
||||
0.0,
|
||||
0.07954545454545454,
|
||||
0.00437636761487965,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 1,
|
||||
"recall": 0.007,
|
||||
"miss_rate": 0.993
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 19,
|
||||
"recall": 0.2,
|
||||
"miss_rate": 0.8
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 9,
|
||||
"recall": 0.0776,
|
||||
"miss_rate": 0.9224
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 3,
|
||||
"recall": 0.033,
|
||||
"miss_rate": 0.967
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 4,
|
||||
"recall": 0.0548,
|
||||
"miss_rate": 0.9452
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.3060897435897436,
|
||||
"high_risk_recall": 0.18383060635226178,
|
||||
"high_risk_precision": 0.9138755980861244,
|
||||
"false_negative_rate": 0.8161693936477382,
|
||||
"level_macro_f1": 0.11189027535274536,
|
||||
"level_weighted_f1": 0.10619241328971442,
|
||||
"level_per_class_f1": [
|
||||
0.3038309114927345,
|
||||
0.0,
|
||||
0.22135922330097088,
|
||||
0.034261241970021415,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 17,
|
||||
"recall": 0.1197,
|
||||
"miss_rate": 0.8803
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 32,
|
||||
"recall": 0.3368,
|
||||
"miss_rate": 0.6632
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 29,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 9,
|
||||
"recall": 0.0989,
|
||||
"miss_rate": 0.9011
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 14,
|
||||
"recall": 0.1918,
|
||||
"miss_rate": 0.8082
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9995189995189995,
|
||||
"high_risk_recall": 1.0,
|
||||
"high_risk_precision": 0.9990384615384615,
|
||||
"false_negative_rate": 0.0,
|
||||
"level_macro_f1": 0.5495554176357882,
|
||||
"level_weighted_f1": 0.5584578220374772,
|
||||
"level_per_class_f1": [
|
||||
0.37540453074433655,
|
||||
0.6351931330472103,
|
||||
0.46393762183235865,
|
||||
0.6400759734093068,
|
||||
0.6331658291457286
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.6844262295081968,
|
||||
0.46567164179104475,
|
||||
0.697986577181208,
|
||||
0.40233236151603496,
|
||||
0.585,
|
||||
0.3559322033898305,
|
||||
0.38322211630123926,
|
||||
0.3374578177727784,
|
||||
0.531810766721044,
|
||||
0.39436619718309857,
|
||||
0.2691029900332226,
|
||||
0.4410480349344978,
|
||||
0.32142857142857145,
|
||||
0.615916955017301
|
||||
],
|
||||
"fine_macro_f1": 0.46326446162700485,
|
||||
"fine_weighted_f1": 0.4915026862223374,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 136,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 142,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 95,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 116,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 97,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 152,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
},
|
||||
"label_filter": "all"
|
||||
},
|
||||
"baseline_rule": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.5612382234185733,
|
||||
0.0,
|
||||
0.0,
|
||||
0.4387617765814266,
|
||||
0.0
|
||||
],
|
||||
"crisis_precision": NaN,
|
||||
"safety_ux_fscore": 1.0
|
||||
},
|
||||
"baseline_threshold": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.34791386271870794,
|
||||
0.2133243606998654,
|
||||
0.30686406460296095,
|
||||
0.0,
|
||||
0.13189771197846567
|
||||
],
|
||||
"crisis_precision": 1.0,
|
||||
"safety_ux_fscore": 1.0
|
||||
},
|
||||
"ours_intervention": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.3001345895020188,
|
||||
0.0033647375504710633,
|
||||
0.5834454912516823,
|
||||
0.0,
|
||||
0.11305518169582772
|
||||
],
|
||||
"crisis_precision": 0.47619047619047616,
|
||||
"safety_ux_fscore": 1.0
|
||||
}
|
||||
}
|
||||
533
code/experiments/eval_intervention_v2.json
Normal file
533
code/experiments/eval_intervention_v2.json
Normal file
@@ -0,0 +1,533 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"label_filter": "all",
|
||||
"n_total": 1486,
|
||||
"n_filtered": 1486,
|
||||
"n_risky": 1039
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.26436781609195403,
|
||||
"high_risk_recall": 0.15495668912415783,
|
||||
"high_risk_precision": 0.8994413407821229,
|
||||
"false_negative_rate": 0.8450433108758422,
|
||||
"level_macro_f1": 0.10427720349098286,
|
||||
"level_weighted_f1": 0.09799538109505529,
|
||||
"level_per_class_f1": [
|
||||
0.2979274611398964,
|
||||
0.0,
|
||||
0.1934156378600823,
|
||||
0.030042918454935622,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 16,
|
||||
"recall": 0.1127,
|
||||
"miss_rate": 0.8873
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 17,
|
||||
"recall": 0.1789,
|
||||
"miss_rate": 0.8211
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 22,
|
||||
"recall": 0.1897,
|
||||
"miss_rate": 0.8103
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 6,
|
||||
"recall": 0.0659,
|
||||
"miss_rate": 0.9341
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 10,
|
||||
"recall": 0.137,
|
||||
"miss_rate": 0.863
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.06697674418604652,
|
||||
"high_risk_recall": 0.03464870067372473,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9653512993262753,
|
||||
"level_macro_f1": 0.07297879241072718,
|
||||
"level_weighted_f1": 0.06312377515343655,
|
||||
"level_per_class_f1": [
|
||||
0.2809721398933017,
|
||||
0.0,
|
||||
0.07954545454545454,
|
||||
0.00437636761487965,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 1,
|
||||
"recall": 0.007,
|
||||
"miss_rate": 0.993
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 19,
|
||||
"recall": 0.2,
|
||||
"miss_rate": 0.8
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 9,
|
||||
"recall": 0.0776,
|
||||
"miss_rate": 0.9224
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 3,
|
||||
"recall": 0.033,
|
||||
"miss_rate": 0.967
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 4,
|
||||
"recall": 0.0548,
|
||||
"miss_rate": 0.9452
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.3060897435897436,
|
||||
"high_risk_recall": 0.18383060635226178,
|
||||
"high_risk_precision": 0.9138755980861244,
|
||||
"false_negative_rate": 0.8161693936477382,
|
||||
"level_macro_f1": 0.11189027535274536,
|
||||
"level_weighted_f1": 0.10619241328971442,
|
||||
"level_per_class_f1": [
|
||||
0.3038309114927345,
|
||||
0.0,
|
||||
0.22135922330097088,
|
||||
0.034261241970021415,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 17,
|
||||
"recall": 0.1197,
|
||||
"miss_rate": 0.8803
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 32,
|
||||
"recall": 0.3368,
|
||||
"miss_rate": 0.6632
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 29,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 9,
|
||||
"recall": 0.0989,
|
||||
"miss_rate": 0.9011
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 14,
|
||||
"recall": 0.1918,
|
||||
"miss_rate": 0.8082
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9995189995189995,
|
||||
"high_risk_recall": 1.0,
|
||||
"high_risk_precision": 0.9990384615384615,
|
||||
"false_negative_rate": 0.0,
|
||||
"level_macro_f1": 0.5495554176357882,
|
||||
"level_weighted_f1": 0.5584578220374772,
|
||||
"level_per_class_f1": [
|
||||
0.37540453074433655,
|
||||
0.6351931330472103,
|
||||
0.46393762183235865,
|
||||
0.6400759734093068,
|
||||
0.6331658291457286
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.6844262295081968,
|
||||
0.46567164179104475,
|
||||
0.697986577181208,
|
||||
0.40233236151603496,
|
||||
0.585,
|
||||
0.3559322033898305,
|
||||
0.38322211630123926,
|
||||
0.3374578177727784,
|
||||
0.531810766721044,
|
||||
0.39436619718309857,
|
||||
0.2691029900332226,
|
||||
0.4410480349344978,
|
||||
0.32142857142857145,
|
||||
0.615916955017301
|
||||
],
|
||||
"fine_macro_f1": 0.46326446162700485,
|
||||
"fine_weighted_f1": 0.4915026862223374,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 136,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 142,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 95,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 116,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 97,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 152,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
},
|
||||
"label_filter": "all"
|
||||
},
|
||||
"baseline_rule": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.46231493943472407,
|
||||
0.0,
|
||||
0.0,
|
||||
0.5376850605652759,
|
||||
0.0
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.9178571428571428,
|
||||
0.0,
|
||||
0.0,
|
||||
0.08214285714285714,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.4195583596214511,
|
||||
0.0,
|
||||
0.0,
|
||||
0.580441640378549,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.11403508771929824,
|
||||
0.0,
|
||||
0.0,
|
||||
0.8859649122807017,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.04081632653061224,
|
||||
0.0,
|
||||
0.0,
|
||||
0.9591836734693877,
|
||||
0.0
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": NaN,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"baseline_threshold": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.3304172274562584,
|
||||
0.13189771197846567,
|
||||
0.40174966352624497,
|
||||
0.0,
|
||||
0.13593539703903096
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.8428571428571429,
|
||||
0.075,
|
||||
0.08214285714285714,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.04416403785488959,
|
||||
0.3753943217665615,
|
||||
0.5520504731861199,
|
||||
0.0,
|
||||
0.028391167192429023
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.008771929824561403,
|
||||
0.10526315789473684,
|
||||
0.7390350877192983,
|
||||
0.0,
|
||||
0.14692982456140352
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.04081632653061224,
|
||||
0.3163265306122449,
|
||||
0.0,
|
||||
0.6428571428571429
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": 0.6237623762376238,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"ours_intervention": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.29878869448183043,
|
||||
0.0033647375504710633,
|
||||
0.5847913862718708,
|
||||
0.0,
|
||||
0.11305518169582772
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
0.9831223628691983,
|
||||
0.016877637130801686,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.7535714285714286,
|
||||
0.0035714285714285713,
|
||||
0.21785714285714286,
|
||||
0.0,
|
||||
0.025
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.9148264984227129,
|
||||
0.0,
|
||||
0.08517350157728706
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.8793859649122807,
|
||||
0.0,
|
||||
0.1206140350877193
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.5969387755102041,
|
||||
0.0,
|
||||
0.4030612244897959
|
||||
]
|
||||
}
|
||||
},
|
||||
"action_accuracy": 0.5868102288021534,
|
||||
"crisis_precision": 0.47023809523809523,
|
||||
"safety_ux_fscore": 1.0
|
||||
}
|
||||
}
|
||||
533
code/experiments/eval_intervention_v3.json
Normal file
533
code/experiments/eval_intervention_v3.json
Normal file
@@ -0,0 +1,533 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"label_filter": "all",
|
||||
"n_total": 1486,
|
||||
"n_filtered": 1486,
|
||||
"n_risky": 1039
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.26436781609195403,
|
||||
"high_risk_recall": 0.15495668912415783,
|
||||
"high_risk_precision": 0.8994413407821229,
|
||||
"false_negative_rate": 0.8450433108758422,
|
||||
"level_macro_f1": 0.10427720349098286,
|
||||
"level_weighted_f1": 0.09799538109505529,
|
||||
"level_per_class_f1": [
|
||||
0.2979274611398964,
|
||||
0.0,
|
||||
0.1934156378600823,
|
||||
0.030042918454935622,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 16,
|
||||
"recall": 0.1127,
|
||||
"miss_rate": 0.8873
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 17,
|
||||
"recall": 0.1789,
|
||||
"miss_rate": 0.8211
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 22,
|
||||
"recall": 0.1897,
|
||||
"miss_rate": 0.8103
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 6,
|
||||
"recall": 0.0659,
|
||||
"miss_rate": 0.9341
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 10,
|
||||
"recall": 0.137,
|
||||
"miss_rate": 0.863
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.06697674418604652,
|
||||
"high_risk_recall": 0.03464870067372473,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9653512993262753,
|
||||
"level_macro_f1": 0.07297879241072718,
|
||||
"level_weighted_f1": 0.06312377515343655,
|
||||
"level_per_class_f1": [
|
||||
0.2809721398933017,
|
||||
0.0,
|
||||
0.07954545454545454,
|
||||
0.00437636761487965,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 1,
|
||||
"recall": 0.007,
|
||||
"miss_rate": 0.993
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 19,
|
||||
"recall": 0.2,
|
||||
"miss_rate": 0.8
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 9,
|
||||
"recall": 0.0776,
|
||||
"miss_rate": 0.9224
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 3,
|
||||
"recall": 0.033,
|
||||
"miss_rate": 0.967
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 4,
|
||||
"recall": 0.0548,
|
||||
"miss_rate": 0.9452
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.3060897435897436,
|
||||
"high_risk_recall": 0.18383060635226178,
|
||||
"high_risk_precision": 0.9138755980861244,
|
||||
"false_negative_rate": 0.8161693936477382,
|
||||
"level_macro_f1": 0.11189027535274536,
|
||||
"level_weighted_f1": 0.10619241328971442,
|
||||
"level_per_class_f1": [
|
||||
0.3038309114927345,
|
||||
0.0,
|
||||
0.22135922330097088,
|
||||
0.034261241970021415,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 17,
|
||||
"recall": 0.1197,
|
||||
"miss_rate": 0.8803
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 32,
|
||||
"recall": 0.3368,
|
||||
"miss_rate": 0.6632
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 29,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 9,
|
||||
"recall": 0.0989,
|
||||
"miss_rate": 0.9011
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 14,
|
||||
"recall": 0.1918,
|
||||
"miss_rate": 0.8082
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9995189995189995,
|
||||
"high_risk_recall": 1.0,
|
||||
"high_risk_precision": 0.9990384615384615,
|
||||
"false_negative_rate": 0.0,
|
||||
"level_macro_f1": 0.5495554176357882,
|
||||
"level_weighted_f1": 0.5584578220374772,
|
||||
"level_per_class_f1": [
|
||||
0.37540453074433655,
|
||||
0.6351931330472103,
|
||||
0.46393762183235865,
|
||||
0.6400759734093068,
|
||||
0.6331658291457286
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.6844262295081968,
|
||||
0.46567164179104475,
|
||||
0.697986577181208,
|
||||
0.40233236151603496,
|
||||
0.585,
|
||||
0.3559322033898305,
|
||||
0.38322211630123926,
|
||||
0.3374578177727784,
|
||||
0.531810766721044,
|
||||
0.39436619718309857,
|
||||
0.2691029900332226,
|
||||
0.4410480349344978,
|
||||
0.32142857142857145,
|
||||
0.615916955017301
|
||||
],
|
||||
"fine_macro_f1": 0.46326446162700485,
|
||||
"fine_weighted_f1": 0.4915026862223374,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 136,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 142,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 95,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 116,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 97,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 152,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
},
|
||||
"label_filter": "all"
|
||||
},
|
||||
"baseline_rule": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.46231493943472407,
|
||||
0.0,
|
||||
0.0,
|
||||
0.5376850605652759,
|
||||
0.0
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.9178571428571428,
|
||||
0.0,
|
||||
0.0,
|
||||
0.08214285714285714,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.4195583596214511,
|
||||
0.0,
|
||||
0.0,
|
||||
0.580441640378549,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.11403508771929824,
|
||||
0.0,
|
||||
0.0,
|
||||
0.8859649122807017,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.04081632653061224,
|
||||
0.0,
|
||||
0.0,
|
||||
0.9591836734693877,
|
||||
0.0
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": NaN,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"baseline_threshold": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.3304172274562584,
|
||||
0.13189771197846567,
|
||||
0.40174966352624497,
|
||||
0.0,
|
||||
0.13593539703903096
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.8428571428571429,
|
||||
0.075,
|
||||
0.08214285714285714,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.04416403785488959,
|
||||
0.3753943217665615,
|
||||
0.5520504731861199,
|
||||
0.0,
|
||||
0.028391167192429023
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.008771929824561403,
|
||||
0.10526315789473684,
|
||||
0.7390350877192983,
|
||||
0.0,
|
||||
0.14692982456140352
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.04081632653061224,
|
||||
0.3163265306122449,
|
||||
0.0,
|
||||
0.6428571428571429
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": 0.6237623762376238,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"ours_intervention": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.004219409282700422,
|
||||
"action_distribution": [
|
||||
0.29475100942126514,
|
||||
0.0033647375504710633,
|
||||
0.5868102288021534,
|
||||
0.0,
|
||||
0.11507402422611036
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
0.9873417721518988,
|
||||
0.008438818565400843,
|
||||
0.004219409282700422,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.7285714285714285,
|
||||
0.010714285714285714,
|
||||
0.22857142857142856,
|
||||
0.0,
|
||||
0.03214285714285714
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.9022082018927445,
|
||||
0.0,
|
||||
0.09779179810725552
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.8706140350877193,
|
||||
0.0,
|
||||
0.12938596491228072
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.6326530612244898,
|
||||
0.0,
|
||||
0.3673469387755102
|
||||
]
|
||||
}
|
||||
},
|
||||
"action_accuracy": 0.5753701211305519,
|
||||
"crisis_precision": 0.42105263157894735,
|
||||
"safety_ux_fscore": 0.9978858350951374
|
||||
}
|
||||
}
|
||||
533
code/experiments/eval_intervention_v4.json
Normal file
533
code/experiments/eval_intervention_v4.json
Normal file
@@ -0,0 +1,533 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"label_filter": "all",
|
||||
"n_total": 1486,
|
||||
"n_filtered": 1486,
|
||||
"n_risky": 1039
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.26436781609195403,
|
||||
"high_risk_recall": 0.15495668912415783,
|
||||
"high_risk_precision": 0.8994413407821229,
|
||||
"false_negative_rate": 0.8450433108758422,
|
||||
"level_macro_f1": 0.10427720349098286,
|
||||
"level_weighted_f1": 0.09799538109505529,
|
||||
"level_per_class_f1": [
|
||||
0.2979274611398964,
|
||||
0.0,
|
||||
0.1934156378600823,
|
||||
0.030042918454935622,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 16,
|
||||
"recall": 0.1127,
|
||||
"miss_rate": 0.8873
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 17,
|
||||
"recall": 0.1789,
|
||||
"miss_rate": 0.8211
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 22,
|
||||
"recall": 0.1897,
|
||||
"miss_rate": 0.8103
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 6,
|
||||
"recall": 0.0659,
|
||||
"miss_rate": 0.9341
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 10,
|
||||
"recall": 0.137,
|
||||
"miss_rate": 0.863
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.06697674418604652,
|
||||
"high_risk_recall": 0.03464870067372473,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9653512993262753,
|
||||
"level_macro_f1": 0.07297879241072718,
|
||||
"level_weighted_f1": 0.06312377515343655,
|
||||
"level_per_class_f1": [
|
||||
0.2809721398933017,
|
||||
0.0,
|
||||
0.07954545454545454,
|
||||
0.00437636761487965,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 1,
|
||||
"recall": 0.007,
|
||||
"miss_rate": 0.993
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 19,
|
||||
"recall": 0.2,
|
||||
"miss_rate": 0.8
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 9,
|
||||
"recall": 0.0776,
|
||||
"miss_rate": 0.9224
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 3,
|
||||
"recall": 0.033,
|
||||
"miss_rate": 0.967
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 4,
|
||||
"recall": 0.0548,
|
||||
"miss_rate": 0.9452
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.3060897435897436,
|
||||
"high_risk_recall": 0.18383060635226178,
|
||||
"high_risk_precision": 0.9138755980861244,
|
||||
"false_negative_rate": 0.8161693936477382,
|
||||
"level_macro_f1": 0.11189027535274536,
|
||||
"level_weighted_f1": 0.10619241328971442,
|
||||
"level_per_class_f1": [
|
||||
0.3038309114927345,
|
||||
0.0,
|
||||
0.22135922330097088,
|
||||
0.034261241970021415,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 10,
|
||||
"recall": 0.0735,
|
||||
"miss_rate": 0.9265
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 17,
|
||||
"recall": 0.1197,
|
||||
"miss_rate": 0.8803
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 32,
|
||||
"recall": 0.3368,
|
||||
"miss_rate": 0.6632
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 29,
|
||||
"recall": 0.25,
|
||||
"miss_rate": 0.75
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 11,
|
||||
"recall": 0.1134,
|
||||
"miss_rate": 0.8866
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 9,
|
||||
"recall": 0.0989,
|
||||
"miss_rate": 0.9011
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 49,
|
||||
"recall": 0.6712,
|
||||
"miss_rate": 0.3288
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 11,
|
||||
"recall": 0.0724,
|
||||
"miss_rate": 0.9276
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 14,
|
||||
"recall": 0.1918,
|
||||
"miss_rate": 0.8082
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9995189995189995,
|
||||
"high_risk_recall": 1.0,
|
||||
"high_risk_precision": 0.9990384615384615,
|
||||
"false_negative_rate": 0.0,
|
||||
"level_macro_f1": 0.5495554176357882,
|
||||
"level_weighted_f1": 0.5584578220374772,
|
||||
"level_per_class_f1": [
|
||||
0.37540453074433655,
|
||||
0.6351931330472103,
|
||||
0.46393762183235865,
|
||||
0.6400759734093068,
|
||||
0.6331658291457286
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.6844262295081968,
|
||||
0.46567164179104475,
|
||||
0.697986577181208,
|
||||
0.40233236151603496,
|
||||
0.585,
|
||||
0.3559322033898305,
|
||||
0.38322211630123926,
|
||||
0.3374578177727784,
|
||||
0.531810766721044,
|
||||
0.39436619718309857,
|
||||
0.2691029900332226,
|
||||
0.4410480349344978,
|
||||
0.32142857142857145,
|
||||
0.615916955017301
|
||||
],
|
||||
"fine_macro_f1": 0.46326446162700485,
|
||||
"fine_weighted_f1": 0.4915026862223374,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 136,
|
||||
"detected": 136,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 142,
|
||||
"detected": 142,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 95,
|
||||
"detected": 95,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 116,
|
||||
"detected": 116,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 97,
|
||||
"detected": 97,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 152,
|
||||
"detected": 152,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 73,
|
||||
"detected": 73,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
},
|
||||
"label_filter": "all"
|
||||
},
|
||||
"baseline_rule": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.46231493943472407,
|
||||
0.0,
|
||||
0.0,
|
||||
0.5376850605652759,
|
||||
0.0
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.9178571428571428,
|
||||
0.0,
|
||||
0.0,
|
||||
0.08214285714285714,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.4195583596214511,
|
||||
0.0,
|
||||
0.0,
|
||||
0.580441640378549,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.11403508771929824,
|
||||
0.0,
|
||||
0.0,
|
||||
0.8859649122807017,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.04081632653061224,
|
||||
0.0,
|
||||
0.0,
|
||||
0.9591836734693877,
|
||||
0.0
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": NaN,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"baseline_threshold": {
|
||||
"intervention_recall_high": 0.9079754601226994,
|
||||
"over_intervention_rate": 0.0,
|
||||
"action_distribution": [
|
||||
0.3304172274562584,
|
||||
0.13189771197846567,
|
||||
0.40174966352624497,
|
||||
0.0,
|
||||
0.13593539703903096
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
1.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.8428571428571429,
|
||||
0.075,
|
||||
0.08214285714285714,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.04416403785488959,
|
||||
0.3753943217665615,
|
||||
0.5520504731861199,
|
||||
0.0,
|
||||
0.028391167192429023
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.008771929824561403,
|
||||
0.10526315789473684,
|
||||
0.7390350877192983,
|
||||
0.0,
|
||||
0.14692982456140352
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.04081632653061224,
|
||||
0.3163265306122449,
|
||||
0.0,
|
||||
0.6428571428571429
|
||||
]
|
||||
}
|
||||
},
|
||||
"crisis_precision": 0.6237623762376238,
|
||||
"safety_ux_fscore": 0.9517684887459806
|
||||
},
|
||||
"ours_intervention": {
|
||||
"intervention_recall_high": 1.0,
|
||||
"over_intervention_rate": 0.004219409282700422,
|
||||
"action_distribution": [
|
||||
0.29475100942126514,
|
||||
0.0033647375504710633,
|
||||
0.5868102288021534,
|
||||
0.0,
|
||||
0.11507402422611036
|
||||
],
|
||||
"per_level_action_dist": {
|
||||
"L0_Safe": {
|
||||
"n": 237,
|
||||
"action_dist": [
|
||||
0.9873417721518988,
|
||||
0.008438818565400843,
|
||||
0.004219409282700422,
|
||||
0.0,
|
||||
0.0
|
||||
]
|
||||
},
|
||||
"L1_Mild": {
|
||||
"n": 280,
|
||||
"action_dist": [
|
||||
0.7285714285714285,
|
||||
0.010714285714285714,
|
||||
0.22857142857142856,
|
||||
0.0,
|
||||
0.03214285714285714
|
||||
]
|
||||
},
|
||||
"L2_Moderate": {
|
||||
"n": 317,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.9022082018927445,
|
||||
0.0,
|
||||
0.09779179810725552
|
||||
]
|
||||
},
|
||||
"L3_High": {
|
||||
"n": 456,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.8706140350877193,
|
||||
0.0,
|
||||
0.12938596491228072
|
||||
]
|
||||
},
|
||||
"L4_Critical": {
|
||||
"n": 196,
|
||||
"action_dist": [
|
||||
0.0,
|
||||
0.0,
|
||||
0.6326530612244898,
|
||||
0.0,
|
||||
0.3673469387755102
|
||||
]
|
||||
}
|
||||
},
|
||||
"action_accuracy": 0.5753701211305519,
|
||||
"crisis_precision": 0.42105263157894735,
|
||||
"safety_ux_fscore": 0.9978858350951374
|
||||
}
|
||||
}
|
||||
337
code/experiments/eval_v3_results.json
Normal file
337
code/experiments/eval_v3_results.json
Normal file
@@ -0,0 +1,337 @@
|
||||
{
|
||||
"meta": {
|
||||
"test_file": "data/processed/CompanionRisk-Bench/test.jsonl",
|
||||
"source_filter": "all",
|
||||
"label_filter": "all",
|
||||
"n_total": 1324,
|
||||
"n_filtered": 1324,
|
||||
"n_risky": 877
|
||||
},
|
||||
"L1a_keyword": {
|
||||
"binary_f1": 0.27751196172248804,
|
||||
"high_risk_recall": 0.1653363740022805,
|
||||
"high_risk_precision": 0.8630952380952381,
|
||||
"false_negative_rate": 0.8346636259977195,
|
||||
"level_macro_f1": 0.11264512835143245,
|
||||
"level_weighted_f1": 0.10448970574896717,
|
||||
"level_per_class_f1": [
|
||||
0.3254480286738351,
|
||||
0.0,
|
||||
0.20865139949109415,
|
||||
0.02912621359223301,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 123,
|
||||
"detected": 8,
|
||||
"recall": 0.065,
|
||||
"miss_rate": 0.935
|
||||
},
|
||||
"R2": {
|
||||
"total": 96,
|
||||
"detected": 14,
|
||||
"recall": 0.1458,
|
||||
"miss_rate": 0.8542
|
||||
},
|
||||
"R3": {
|
||||
"total": 77,
|
||||
"detected": 13,
|
||||
"recall": 0.1688,
|
||||
"miss_rate": 0.8312
|
||||
},
|
||||
"R4": {
|
||||
"total": 81,
|
||||
"detected": 18,
|
||||
"recall": 0.2222,
|
||||
"miss_rate": 0.7778
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 105,
|
||||
"detected": 11,
|
||||
"recall": 0.1048,
|
||||
"miss_rate": 0.8952
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 6,
|
||||
"recall": 0.0659,
|
||||
"miss_rate": 0.9341
|
||||
},
|
||||
"R8": {
|
||||
"total": 75,
|
||||
"detected": 49,
|
||||
"recall": 0.6533,
|
||||
"miss_rate": 0.3467
|
||||
},
|
||||
"R9": {
|
||||
"total": 91,
|
||||
"detected": 7,
|
||||
"recall": 0.0769,
|
||||
"miss_rate": 0.9231
|
||||
},
|
||||
"R10": {
|
||||
"total": 74,
|
||||
"detected": 10,
|
||||
"recall": 0.1351,
|
||||
"miss_rate": 0.8649
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1b_regex": {
|
||||
"binary_f1": 0.07886089813800658,
|
||||
"high_risk_recall": 0.04104903078677309,
|
||||
"high_risk_precision": 1.0,
|
||||
"false_negative_rate": 0.9589509692132269,
|
||||
"level_macro_f1": 0.08441436068877664,
|
||||
"level_weighted_f1": 0.07640981579648991,
|
||||
"level_per_class_f1": [
|
||||
0.31303208906352326,
|
||||
0.0,
|
||||
0.10408921933085502,
|
||||
0.0049504950495049506,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 123,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R2": {
|
||||
"total": 96,
|
||||
"detected": 1,
|
||||
"recall": 0.0104,
|
||||
"miss_rate": 0.9896
|
||||
},
|
||||
"R3": {
|
||||
"total": 77,
|
||||
"detected": 19,
|
||||
"recall": 0.2468,
|
||||
"miss_rate": 0.7532
|
||||
},
|
||||
"R4": {
|
||||
"total": 81,
|
||||
"detected": 9,
|
||||
"recall": 0.1111,
|
||||
"miss_rate": 0.8889
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 105,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 3,
|
||||
"recall": 0.033,
|
||||
"miss_rate": 0.967
|
||||
},
|
||||
"R8": {
|
||||
"total": 75,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 91,
|
||||
"detected": 0,
|
||||
"recall": 0.0,
|
||||
"miss_rate": 1.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 74,
|
||||
"detected": 4,
|
||||
"recall": 0.0541,
|
||||
"miss_rate": 0.9459
|
||||
}
|
||||
}
|
||||
},
|
||||
"L1c_combined": {
|
||||
"binary_f1": 0.32558139534883723,
|
||||
"high_risk_recall": 0.19954389965792474,
|
||||
"high_risk_precision": 0.8838383838383839,
|
||||
"false_negative_rate": 0.8004561003420753,
|
||||
"level_macro_f1": 0.12164103976458382,
|
||||
"level_weighted_f1": 0.11307540313209122,
|
||||
"level_per_class_f1": [
|
||||
0.3326007326007326,
|
||||
0.0,
|
||||
0.24170616113744076,
|
||||
0.03389830508474576,
|
||||
0.0
|
||||
],
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 123,
|
||||
"detected": 8,
|
||||
"recall": 0.065,
|
||||
"miss_rate": 0.935
|
||||
},
|
||||
"R2": {
|
||||
"total": 96,
|
||||
"detected": 15,
|
||||
"recall": 0.1562,
|
||||
"miss_rate": 0.8438
|
||||
},
|
||||
"R3": {
|
||||
"total": 77,
|
||||
"detected": 28,
|
||||
"recall": 0.3636,
|
||||
"miss_rate": 0.6364
|
||||
},
|
||||
"R4": {
|
||||
"total": 81,
|
||||
"detected": 25,
|
||||
"recall": 0.3086,
|
||||
"miss_rate": 0.6914
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 9,
|
||||
"recall": 0.1406,
|
||||
"miss_rate": 0.8594
|
||||
},
|
||||
"R6": {
|
||||
"total": 105,
|
||||
"detected": 11,
|
||||
"recall": 0.1048,
|
||||
"miss_rate": 0.8952
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 9,
|
||||
"recall": 0.0989,
|
||||
"miss_rate": 0.9011
|
||||
},
|
||||
"R8": {
|
||||
"total": 75,
|
||||
"detected": 49,
|
||||
"recall": 0.6533,
|
||||
"miss_rate": 0.3467
|
||||
},
|
||||
"R9": {
|
||||
"total": 91,
|
||||
"detected": 7,
|
||||
"recall": 0.0769,
|
||||
"miss_rate": 0.9231
|
||||
},
|
||||
"R10": {
|
||||
"total": 74,
|
||||
"detected": 14,
|
||||
"recall": 0.1892,
|
||||
"miss_rate": 0.8108
|
||||
}
|
||||
}
|
||||
},
|
||||
"ours_detection": {
|
||||
"binary_f1": 0.9988597491448119,
|
||||
"high_risk_recall": 0.9988597491448119,
|
||||
"high_risk_precision": 0.9988597491448119,
|
||||
"false_negative_rate": 0.0011402508551880963,
|
||||
"level_macro_f1": 0.4974096618676628,
|
||||
"level_weighted_f1": 0.5113791757593992,
|
||||
"level_per_class_f1": [
|
||||
0.67601246105919,
|
||||
0.17391304347826086,
|
||||
0.45622119815668205,
|
||||
0.6204620462046204,
|
||||
0.5604395604395604
|
||||
],
|
||||
"fine_per_label_f1": [
|
||||
0.7047244094488189,
|
||||
0.40274599542334094,
|
||||
0.6269035532994924,
|
||||
0.4339622641509434,
|
||||
0.6253521126760564,
|
||||
0.2874617737003058,
|
||||
0.27901785714285715,
|
||||
0.2389937106918239,
|
||||
0.6086956521739131,
|
||||
0.5878136200716846,
|
||||
0.350253807106599,
|
||||
0.4444444444444444,
|
||||
0.3734015345268542,
|
||||
0.6942148760330579
|
||||
],
|
||||
"fine_macro_f1": 0.4755704007778709,
|
||||
"fine_weighted_f1": 0.5078364322693886,
|
||||
"per_category_recall": {
|
||||
"R1": {
|
||||
"total": 123,
|
||||
"detected": 122,
|
||||
"recall": 0.9919,
|
||||
"miss_rate": 0.0081
|
||||
},
|
||||
"R2": {
|
||||
"total": 96,
|
||||
"detected": 96,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R3": {
|
||||
"total": 77,
|
||||
"detected": 77,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R4": {
|
||||
"total": 81,
|
||||
"detected": 81,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R5": {
|
||||
"total": 64,
|
||||
"detected": 64,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R6": {
|
||||
"total": 105,
|
||||
"detected": 105,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R7": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R8": {
|
||||
"total": 75,
|
||||
"detected": 75,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R9": {
|
||||
"total": 91,
|
||||
"detected": 91,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
},
|
||||
"R10": {
|
||||
"total": 74,
|
||||
"detected": 74,
|
||||
"recall": 1.0,
|
||||
"miss_rate": 0.0
|
||||
}
|
||||
},
|
||||
"label_filter": "all"
|
||||
}
|
||||
}
|
||||
Reference in New Issue
Block a user