**使用 Python 绘制 PR 曲线的核心做法是：先用模型给出每个样本的预测概率或决策分数，使用 scikit-learn 提供的 precision_recall_curve 计算不同阈值下的精确率与召回率，再用 PrecisionRecallDisplay 或 Matplotlib 完成可视化，并计算平均精确率（AP）。**在不平衡数据集与检索类任务中，PR 曲线比 ROC 更能反映模型对正类的区分能力，且能直接指导阈值选择。**本文给出完整代码、适配多分类/多标签的绘图策略、工程化落地与常见陷阱排查建议。**

# Python绘制PR曲线：方法、代码与评估要点

## 一、PR 曲线是什么与为什么使用 Python 绘制
在二分类与信息检索任务中，PR 曲线（Precision-Recall Curve，精确率-召回率曲线）以召回率为横轴、精确率为纵轴，展示模型在不同阈值下的检索质量。相较 ROC 曲线只关注真正率与假正率，PR 曲线更关注正类样本的识别表现，尤其是正类稀少的场景（高度不平衡数据）。在 Python 生态中，scikit-learn、Matplotlib、seaborn、Plotly 等工具链成熟，能高效绘制 PR 曲线并输出平均精确率（AP）。**对于欺诈检测、医疗筛查、推荐与搜索等任务，PR 曲线常被用作核心模型评估与阈值调优依据。**该曲线可直观反映“为提高召回率牺牲多少精确率”的代价曲线，便于团队协作讨论指标权衡。

在构建 PR 曲线时，要求模型输出连续分数：如逻辑回归的 predict_proba[:,1] 或 SVM 的 decision_function 值。随后，precision_recall_curve 会对所有可能阈值计算一系列（precision, recall, thresholds）点。**平均精确率（Average Precision, AP）可以理解为对 PR 曲线的面积估计，是一个标量指标，便于比较不同模型或不同超参数设置的整体表现。**在 Python 中，这一流程通常包含：数据集拆分、训练模型、获取分数、计算曲线、绘图与保存。与 ROC 对比，PR 曲线更强调正类比例（基线精确率约等于正类占比），因此比 ROC 更敏感于类别分布。

文献研究中，多数观点认可 PR 曲线在不平衡场景的优势。例如，Saito 与 Rehmsmeier 的研究指出 PR 曲线较 ROC 更能揭示类不平衡时的真实性能与误差倾向（Saito & Rehmsmeier, 2015）。而在工程实践层面，scikit-learn 用户指南明确提供了 precision_recall_curve、average_precision_score 与 PrecisionRecallDisplay 等 API，并给出示例与注意事项（scikit-learn, 2024）。**结合理论与工具，Python 的实现既严谨又高效，适合快速原型与生产评估。**

## 二、用 Python 快速绘制二分类 PR 曲线（scikit-learn）
在 Python 中绘制 PR 曲线的标准流程包含训练、预测与评估三个阶段。首先需要准备一个二分类数据集（真实数据或 make_classification 生成的模拟数据），利用逻辑回归、XGBoost 或随机森林等模型取得对正类的分数。随后，调用 scikit-learn 的 precision_recall_curve 得到精确率与召回率序列，再使用 Matplotlib 或 PrecisionRecallDisplay.from_predictions 绘制曲线。**务必确保使用预测概率或决策函数而非硬标签（predict），否则无法生成连续阈值下的曲线。**在保存图像时可选择 PNG、SVG 等格式以便于报告与文档复用。

示例代码如下（以逻辑回归为例）：
```python
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_recall_curve, average_precision_score, PrecisionRecallDisplay
import matplotlib.pyplot as plt

X, y = make_classification(n_samples=5000, n_features=20, n_informative=5,
                           weights=[0.9, 0.1], random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
                                                    stratify=y, random_state=42)

clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
scores = clf.predict_proba(X_test)[:, 1]  # 或者使用 decision_function

precision, recall, thresholds = precision_recall_curve(y_test, scores)
ap = average_precision_score(y_test, scores)

disp = PrecisionRecallDisplay(precision=precision, recall=recall, average_precision=ap)
disp.plot()
plt.title(f"PR Curve (AP={ap:.3f})")
plt.xlabel("Recall")
plt.ylabel("Precision")
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
```

上述流程适用于绝大多数标准二分类任务。**若模型为支持向量机（SVM）或线性模型，可以使用 decision_function 输出连续分数；若为概率模型（如逻辑回归、树模型），优先选择 predict_proba 的正类概率。**AP 值越高表示整体 PR 曲线越优，但请结合业务目标，比如可能更看重某个召回率区间内的精确率表现。在图形呈现上，可叠加基线精确率（正类比例）作为参照，帮助理解模型在不同召回率阶段的优势与不足。

在工程项目中，随着数据与模型版本迭代，持续记录 PR 曲线与 AP 的历史轨迹很有价值。团队可将上述代码封装为函数，并在训练管线结束后自动生成图像与指标文件（JSON/CSV）。在跨团队协作时，研发与数据科学人员可通过项目管理系统整理迭代记录与评审结论，**例如在研发项目全流程管理中，借助 [PingCode](https://PingCode.com?utm_source=insights&utm_medium=%E5%93%81%E7%89%8C%E8%AF%8D) 记录每次模型实验的 PR 曲线截图、AP 数值与变更说明，有助于审计与回溯。**这类做法能够让指标对齐更加透明，促进迭代效率。

## 三、进阶：多分类与多标签的 PR 曲线汇总与可视化
当任务为多分类（如 3 类及以上）或多标签（一个样本可能属于多个标签）时，PR 曲线的定义仍基于“一对多”的正负划分思路。常见做法是将每个类别当作正类、其他类别为负类，分别绘制每个类别的 PR 曲线，并计算宏平均（macro-average）与微平均（micro-average）两种汇总指标。**宏平均对每个类别求指标后取算术平均，强调各类均衡；微平均汇总所有样本层面的 TP/FP/FN 后再计算精确率与召回率，强调总体样本贡献。**在不平衡场景中，微平均往往更高权重地反映大类影响。

示例轮廓（简化版）如下：
```python
from sklearn.preprocessing import label_binarize
from sklearn.metrics import precision_recall_curve, average_precision_score
import matplotlib.pyplot as plt

# y_true: 真实多分类标签；y_score: 模型对每类的概率（n_samples x n_classes）
classes = np.unique(y_true)
Y = label_binarize(y_true, classes=classes)

# 逐类计算 PR 曲线与 AP
ap_macro = []
for i, c in enumerate(classes):
    precision_c, recall_c, _ = precision_recall_curve(Y[:, i], y_score[:, i])
    ap_c = average_precision_score(Y[:, i], y_score[:, i])
    ap_macro.append(ap_c)
    plt.plot(recall_c, precision_c, label=f"class {c} (AP={ap_c:.3f})")

# 微平均：将所有类视作共同的二分类问题
precision_micro, recall_micro, _ = precision_recall_curve(Y.ravel(), y_score.ravel())
ap_micro = average_precision_score(Y, y_score, average="micro")
plt.plot(recall_micro, precision_micro, label=f"micro-average (AP={ap_micro:.3f})", lw=2, color="black")

plt.xlabel("Recall"); plt.ylabel("Precision")
plt.title("Multiclass PR Curves")
plt.legend(); plt.grid(True, alpha=0.3); plt.show()
```

对于多标签任务（每个样本可有多个正类），处理方式与多分类类似，区别在于标签独立性与样本的标签稀疏性更强。**在此场景下，建议同时报告每个标签的 AP 以及微平均 AP，以确保对热门标签与冷门标签都有覆盖。**此外，多标签任务的评估可能需要额外关注阈值选择策略：例如不同标签设置独立阈值，以达到某一标签特定的召回目标。工程实践中，可将这些阈值与曲线共同保存，并在部署时按需加载。

绘图层面，要避免曲线拥挤与难以阅读的问题。可以按类别重要性或样本量挑选若干代表性标签进行展示，并将完整结果写入报告。**若团队希望以交互方式探索不同类别的曲线，可考虑使用 Plotly 生成可交互图，并在协作系统中嵌入链接或截图；在研发流程管理中，像 [PingCode](https://PingCode.com?utm_source=insights&utm_medium=%E5%93%81%E7%89%8C%E8%AF%8D) 这类系统也能附加可视化资源与备注，帮助评审会议高效理解模型表现与阈值决策。**对多分类与多标签项目而言，曲线图是沟通成本最低的可视化之一。

## 四、评估与对比：AP、PR-AUC 与 ROC 曲线的差异
尽管 PR 曲线与 ROC 曲线都用于评估分类器，但二者所反映的侧重点不同。**ROC 曲线以 TPR 对 FPR，更适合类分布相对平衡的任务；PR 曲线以 Precision 对 Recall，更能凸显正类识别质量，尤其对不平衡数据敏感。**平均精确率（AP）常被用作 PR 曲线的汇总指标，与“PR-AUC”在表述上接近，但实现细节可能有差异：AP 通常采用插值或阶梯积分方式计算面积，具体实现取决于库。

为便于快速选择评估方法，下表给出定性对比：

| 维度 | PR 曲线（Precision-Recall） | ROC 曲线（Receiver Operating Characteristic） |
| --- | --- | --- |
| 横纵轴 | Recall vs. Precision | TPR vs. FPR |
| 对不平衡数据的敏感度 | 高，基线受正类比例影响显著 | 低，FPR 受负类数量影响但不直观 |
| 典型指标 | AP（Average Precision） | AUC（ROC-AUC） |
| 业务解读 | 直接体现“找到更多正类时误报增多少” | 总体区分度好但难体现正类稀缺影响 |
| 阈值指导性 | 强，可从曲线读出特定召回下的精确率 | 相对弱，需结合业务成本另行转化 |

在实现层面，scikit-learn 给出了 AP 的定义与计算方式，并在用户指南中强调了不平衡场景下采用 PR 曲线的合理性（scikit-learn, 2024）。而从研究角度，Saito & Rehmsmeier（2015）指出 PR 曲线在低正类率条件下更具有解释力。**选择何种评估，应以业务目标为导向：若需要控制误报成本与召回目标，PR 曲线与 AP 更契合；若主要关心整体排序能力与区分度，则 ROC-AUC 也具有参考意义。**在报告中，常见实践是同时提供 PR 与 ROC 两张曲线，以支持多维判断。

## 五、数据不平衡与阈值策略：实践建议与陷阱
在真实数据中，不平衡分布几乎是常态：例如欺诈检测中正类比例可能低于 1%。此时，PR 曲线更能揭示模型实际捕获正类的能力，但也带来阈值选择上的挑战。**实践中应先确认业务对 Recall 与 Precision 的偏好，如医疗筛查更重召回、风控更重精确率，然后依据曲线在目标召回或精确率区间定位阈值。**可以通过 precision_recall_curve 返回的 thresholds 数组，找出满足条件的最优阈值，并对其进行稳定性验证（交叉验证或时间切分）。

数据不平衡还影响训练过程与概率校准。建议在模型训练阶段考虑类权重（class_weight）、抽样策略（如欠采样或过采样）以及集成算法的参数调优，以提升在正类上的表现。**此外，概率校准（如 Platt scaling 或 Isotonic calibration）能改善分数的可解释性与阈值迁移稳定性，使得 PR 曲线更贴近真实业务指标。**在绘图时，务必标注样本的正类比例作为基线，以免读者误将高精确率段误解为普适表现。对于极端不平衡数据，建议在评估中叠加特定召回点的精确率（如 R@50% 的 P 值）作为关键里程碑。

另一个常见陷阱是过拟合与数据泄露导致的指标虚高。若在同一数据上进行特征选择与阈值调优，PR 曲线可能误导。应采用严格的训练/验证/测试划分与交叉验证框架，在未见过的数据上报告曲线。**团队协作层面，建议将阈值与其对应的曲线片段、样本案例与误报类型一起存档，方便产品与运营讨论取舍。**在项目流程管理中，可在工具中附加评审备注与决策记录，保障后续迭代的可追踪性与合规性。

## 六、工程化：在项目中集成 PR 曲线（可视化、报告与协作）
当模型进入迭代周期，PR 曲线应成为标准化工件。首先，在训练管线结束后自动生成 PR 曲线图与 AP 指标，并保存到版本化目录，文件名包含模型版本、时间戳与数据切片标识。其次，选择合适的图形格式：**SVG 在文档中缩放更清晰，PNG 较为通用；若希望交互，Plotly HTML 是适合的形式。**再次，在报告中提供关键点标注（标出业务目标阈值），并给出曲线下某些区间的样本案例，以便跨部门理解模型行为。

在协作层面，研发与数据团队需要共享评估工件。可以通过项目管理与知识库进行归档与检索，记录每次迭代的 PR 曲线与 AP 数值变化，并关联数据版本与特征变更说明。**例如在研发项目全流程管理的场景中，考虑使用 [PingCode](https://PingCode.com?utm_source=insights&utm_medium=%E5%93%81%E7%89%8C%E8%AF%8D) 记录实验任务、评估图与阈值决策，形成闭环的迭代日志，提升跨团队沟通效率。**与此同时，建议将生成图与指标的脚本纳入 CI/CD，确保每次合并请求自动产出评估报告，从而及早发现性能回退。

在部署与监控环节，也需要关注概念漂移（数据分布变化）对 PR 曲线的影响。可以定期抽取线上预测与标注样本，重新计算 PR 曲线与 AP，观察是否出现性能漂移。**一旦发现某个召回区间的精确率明显下降，应及时复盘数据与特征，并在项目协作系统中发起变更评审。**这套工程化方法能让模型评估不仅停留在离线阶段，也能覆盖线上健康度，从而提高整体质量保障。

## 七、常见问题与性能优化（大数据集、交叉验证、可重复性）
在大数据或高维场景下，计算 PR 曲线的内存与时间成本可能显著。优化要点包括：在推断时只保留必要的分数与标签；对分数进行排序后增量计算；分批计算并合并结果；避免冗余的全量可视化。**对于超大数据集，可采用抽样近似的方式绘制示意曲线，同时在关键召回点做精确计算，以平衡性能与可读性。**此外，确保随机种子固定（random_state）与数据切分稳定，有助于可重复性与跨环境对齐。

交叉验证场景中，建议在每折（fold）上计算 PR 曲线与 AP，再进行平均与区间汇总（如标准差或置信区间）。**为便于呈现，可将每折曲线淡化显示，叠加平均曲线加粗呈现，或只展示 AP 的分布箱线图。**scikit-learn 提供了 from_estimator 与 from_predictions 两类入口，能简化多次评估的可视化流程（scikit-learn, 2024）。在报告中，阐明数据拆分策略与时间切分依据，避免数据泄露导致指标偏高。

最后，关于数值稳定性与边界情况：当模型对正类完全无区分能力时，PR 曲线可能退化为接近基线的水平线；当分数离散度不足时，曲线点数很少，AP 的估计也会不稳定。**遇到此类情况，优先检查特征工程是否充分、模型容量是否足够、概率校准是否合理。**在团队维度上，把评估脚本、图形与决策记录纳入版本管理与协作工具，形成可复用的流程。需要时，**可在 PingCode 中创建“模型评估”工作项模板，统一 PR 曲线上传、AP 填报与阈值说明，降低沟通与复盘成本。**

参考与资料来源
Saito, T., & Rehmsmeier, J. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS ONE, 10(3): e0118432.
scikit-learn (2024). User Guide — Classification metrics: Precision and recall; precision_recall_curve; average_precision_score; PrecisionRecallDisplay. https://scikit-learn.org/stable/modules/model_evaluation.html
scikit-learn (2024). API Reference — sklearn.metrics. https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics

可以使用scikit-learn库中的precision_recall_curve函数计算精确率和召回率的值，然后用matplotlib进行绘图。首先需要准备好模型预测的概率值和真实标签，调用precision_recall_curve函数得到三个数组，再利用plt.plot将精确率和召回率对应绘制成曲线图。此方法简洁方便，适用于二分类场景。

使用Python绘制PR曲线的步骤和工具

我想用Python来生成PR曲线，有哪些常用的方法和库可以实现？具体步骤是怎样的？

怎样用Python代码绘制PR曲线？

多分类任务可以采用一对多（one-vs-rest）策略，分别计算每个类别对应的PR曲线。scikit-learn同样支持这种操作，先将标签二值化，然后针对每个类别计算precision_recall_curve，最后分别绘制多条曲线。这样能够清晰展示每个类别的性能表现。

多分类情景下绘制PR曲线的方法

我的任务是多分类，不能直接用二分类的precision_recall_curve方法，Python中该怎么操作？

在绘制PR曲线时，如何处理多分类问题？

在PR曲线中，曲线下面积（Average Precision, AP）是衡量模型性能的重要指标，数值越大表示模型在精确率和召回率之间的权衡越好。scikit-learn提供average_precision_score函数计算AP值。此外，观察曲线靠近右上角部分，表示模型更优。结合业务需求，选择合适的阈值以达到最佳效果也很重要。

解读PR曲线及相关评估指标

绘制PR曲线之后，想知道它好不好，有哪些指标可以帮助判断模型效果？

如何评估PR曲线的优劣？

PingCodeDocs

本文系统阐述了在Python中绘制PR曲线的完整流程：基于模型预测概率或决策分数，使用scikit-learn的precision_recall_curve与PrecisionRecallDisplay进行计算与可视化，并以AP衡量整体表现。文章覆盖二分类、多分类与多标签的实现要点，强调不平衡数据下PR曲线的优势与阈值决策方法，提供表格对比PR与ROC的差异，并给出工程化落地建议（图形导出、版本化、CI/CD与线上监控）。同时讨论大数据与交叉验证下的性能优化与可重复性，提醒常见陷阱如数据泄露与概率未校准。文中自然引用权威来源并建议在项目协作中记录PR曲线与AP，必要时借助PingCode统一管理模型评估资产，提升团队沟通与迭代效率。

pr曲线如何绘制 python

用户关注问题