【模型显著性分析】配对样本 t 检验

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!


前言

在机器学习与数据科学领域,模型性能评估往往依赖单一指标(如mAP、准确率),但仅凭数值差异难以判断其是否具有统计意义。

例如,两个模型在测试集上的mAP分别为0.75和0.78,若直接断言后者更优,可能因样本波动或随机误差导致误判。这种“表面差异”可能掩盖真实性能差距,甚至误导决策。

显著性验证通过统计方法(如t检验)量化差异的可靠性,其核心价值在于:区分随机波动与真实效应。当样本量有限或数据存在噪声时,显著性检验能提供客观的置信度(如p值),避免主观臆断。尤其在模型迭代、算法对比或实际应用部署中,仅依赖点估计值(如均值)无法支撑科学结论,而显著性验证为模型性能的比较提供了可重复、可量化的标准。


t检验

在统计学中,t检验用于比较两组样本的均值是否存在显著差异。

配对样本 t 检验

场景:比较同一组样本在两种条件下的均值差异(如同一数据集上两个模型的重复实验)。

公式:

自由度(df):


代码

  • t分布表:根据t值和自由度,查表得到对应的p值。
  • 统计软件:如Python的scipy.stats库可以自动计算p值:
from scipy.stats import ttest_rel   # 配对t检验

# map
mAP_baseline = [27.77, 27.91, 28.20, 27.92, 27.83]     # baseline
mAP_ours     = [28.24, 28.33, 28.41, 28.57, 28.59]     # ours 

# 配对t检验(同一数据集的重复实验)
t_stat, p_val = ttest_rel(mAP_ours, mAP_baseline)
print(f"Paired t-test - t statistic: {t_stat:.3f}, p-value: {p_val:.3e}")

论文描述

为了证明所提方法的优越性,本文对所提模型与基线之间进行了差异显著性试验 。本文从同一数据集中随机选取了若干数量的样本作为测试集,共计N组,分别测试基线模型和所提模型在每个子集上的性能。

假设:本文所提方法的性能与基线相当,并且两个模型处于相同的数据分布中,并设定显著性水平设置为 α = 0.05。

本文使用了t 参数检验,所得的 p 值小于 α 值,因此原假设 不成立,表明所提方法的性能明显优于基线方法。


总结

配对样本t检验:用于比较同一组样本在两种条件下的均值差异。

t值:衡量差异的显著性,值越大差异越显著。

p值:小于显著性水平(如0.05)时,拒绝原假设,认为差异显著。

数据分布:确保数据满足t检验的假设(如正态性、方差齐性)。

样本量:较大的样本量可以提高检验的效力。


致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。


参考

[1] 文心一言

发表评论

滚动至顶部