如何实现智能高效的建筑
|
你可以清楚地看到数据集之间存在巨大差异。9000次非欺诈性交易和492次欺诈性交易。 指标陷阱新开发人员用户在处理不平衡数据集时遇到的一个主要问题与用于评估其模型的指标有关。使用更简单的指标,比如准确度得分,可能会产生误导。在具有高度不平衡类的数据集中,分类器总是在不进行特征分析的情况下“预测”最常见的类,并且它的准确率很高,显然不是正确的。
让我们做这个实验,使用简单的XGBClassifier和无特征工程: 好吧,你猜怎么着?你的“解决方案”将具有94%的准确性! 不幸的是,这种准确性令人误解。 所有这些非欺诈性的交易,你都将拥有100%的准确性。 那些欺诈性的交易,你的准确性为0%。 仅仅因为大多数交易不是欺诈性的(不是因为你的模型很好),你的总体准确性就很高。 这显然是一个问题,因为许多机器学习算法都旨在最大程度地提高整体准确性。在本文中,我们将看到处理不平衡数据的不同技术。 数据
我们将在本文中使用信用卡欺诈检测数据集,你可以从此处找到该数据集。 类不平衡是机器学习中的常见问题,尤其是在分类问题中。不平衡数据可能会长时间妨碍我们的模型准确性。 类不平衡出现在许多领域,包括:
类失衡问题当每个类别中的样本数量大致相等时,大多数机器学习算法效果最佳。这是因为大多数算法都是为了最大化精确度和减少误差而设计的。 然而,如果数据集不平衡,那么在这种情况下,仅仅通过预测多数类就可以获得相当高的准确率,但是无法捕捉少数类,这通常是创建模型的首要目的。 信用卡欺诈检测示例假设我们有一个信用卡公司的数据集,我们必须找出信用卡交易是否是欺诈性的。 但是这里有个陷阱……欺诈交易相对罕见,只有6%的交易是欺诈行为。
现在,在你还没有开始之前,你是否能想到问题应该如何解决?想象一下,如果你根本不花时间训练模型。相反,如果你只编写了一行总是预测“没有欺诈性交易”的代码,该怎么办? (编辑:阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
