加入收藏 | 设为首页 | 会员中心 | 我要投稿 阳江站长网 (https://www.0662zz.cn/)- 办公协同、云通信、区块链、物联平台、高性能计算!
当前位置: 首页 > 站长资讯 > 评论 > 正文

对教育追求至关重要

发布时间:2021-02-12 13:58:34 所属栏目:评论 来源:互联网
导读:10.更改算法 尽管在每个机器学习问题中,尝试各种算法都是一个很好的经验法则,但是对于不平衡的数据集而言,这尤其有利。 决策树经常在不平衡的数据上表现良好。在现代机器学习中,树集成(随机森林,梯度增强树等)几乎总是胜过单个决策树,因此我们将直接跳

10.更改算法

尽管在每个机器学习问题中,尝试各种算法都是一个很好的经验法则,但是对于不平衡的数据集而言,这尤其有利。

决策树经常在不平衡的数据上表现良好。在现代机器学习中,树集成(随机森林,梯度增强树等)几乎总是胜过单个决策树,因此我们将直接跳到:

基于树的算法通过学习 if / else 问题的层次结构来工作。这可以强制解决两个类。
 

8.更改性能指标

评估不平衡数据集时,准确性不是最佳的度量标准,因为它可能会产生误导。

可以提供更好洞察力的指标是:

  • 混淆矩阵:显示正确预测和错误预测类型的表。
  • 精度:真实阳性的数目除以所有阳性预测。精度也称为正预测值。它是分类器准确性的度量。低精度表示大量误报。
  • 召回率:真实阳性的数量除以测试数据中的阳性值的数量。召回也称为敏感度或真实阳性率。它是分类器完整性的度量。较低的召回率表示大量假阴性。
  • F1:得分:准确性和召回率的加权平均值。
  • ROC曲线下面积(AUROC):AUROC表示模型将观测值与两个类区分开来的可能性。

换句话说,如果你从每个类中随机选择一个观察值,你的模型能够正确“排序”它们的概率有多大?

9.惩罚算法(成本敏感训练)

下一个策略是使用惩罚性学习算法,该算法会增加少数类分类错误的成本。

这项技术的一种流行算法是Penalized-SVM。

在训练过程中,我们可以使用参数class_weight='balanced'来惩罚少数类的错误,惩罚量与代表性不足的程度成正比。

如果我们想为支持向量机算法启用概率估计,我们还希望包含参数probability=True。

让我们在原始不平衡数据集上使用Penalized-SVM训练模型:
 

使用不平衡学习python模块平衡数据

在科学文献中已经提出了许多更复杂的重采样技术。

例如,我们可以将多数类的记录聚类,并通过从每个聚类中删除记录来进行欠采样,从而寻求保留信息。在过采样中,我们可以为这些副本引入较小的变化,从而创建更多样的合成样本,而不是创建少数群体记录的精确副本。

让我们使用Python库 imbalanced-learn应用其中一些重采样技术。它与scikit-learn兼容,并且是scikit-learn-contrib项目的一部分。
 

.随机过采样

过采样可以定义为向少数类添加更多副本。当你没有大量数据要处理时,过采样可能是一个不错的选择。

欠采样时要考虑的一个弊端是,它可能导致过拟合并导致测试集泛化不佳。

(编辑:阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读