如何在Kaggle上打比赛，带你进行一次完整步骤体验

发布时间：2021-06-05 12:30:46 所属栏目：大数据来源：互联网

导读：Kaggle是一个磨练您的机器学习和数据科学技能的好地方，您可以将自己与他人进行比较，并学习新的技术。在这篇文章中，我们利用一个典型的例子，来给大家演示如何参加Kaggle竞赛: 开发一个模型来预测一条推特(tweet)内容是否与灾难有关。使用模型对Kaggle提

Kaggle是一个磨练您的机器学习和数据科学技能的好地方，您可以将自己与他人进行比较，并学习新的技术。

在这篇文章中，我们利用一个典型的例子，来给大家演示如何参加Kaggle竞赛:

开发一个模型来预测一条推特(tweet)内容是否与灾难有关。

使用模型对Kaggle提供的测试数据集进行预测。

提交你的结果，就可以进入Kaggle排行榜了。

推特数据集

Kaggle最新的一项竞赛提供了一个数据集，包含推文以及一个告诉我们这些推文是否真的是关于灾难的标签。该比赛的排行榜上有近3000名参赛者，最高奖金为1万美元。数据和比赛大纲可以在这里看到：

https://www.kaggle.com/c/nlp-getting-started

如果你还没有Kaggle账户，你可以先免费创建一个。

如果你从比赛页面选择“下载全部”，你会得到一个包含三个CSV文件的zip文件：

如何在Kaggle上打比赛，带你进行一次完整流程体验

第一个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成:

Id: tweet的数字标识符。当我们将我们的预测上传到排行榜时，这将是非常重要的。

关键字:推文中的一个关键字，可能在某些情况下没有。

位置:发送推文的位置，这也可能不存在。

文本:推文的全文。

目标:这是我们试图预测的标签。如果这条推文真的是关于一场灾难，它将是1，如果不是，它将是0。

让我们并进一步了解这个。在下面的代码中，您将注意到我使用了一个set_option 命令。这个来自Pandas库的命令允许您控制dataframe结果显示的格式。我在这里使用这个命令，以确保显示文本列的全部内容，这使我的结果和分析更容易查看:

import pandas as pdpd.set_option('display.max_colwidth',

-1)train_data = pd.read_csv('train.csv')train_data.head()

如何在Kaggle上打比赛，带你进行一次完整流程体验

第二个数据文件test.csv是测试集，只包含特征，而没有标签。对于这个数据集，我们将预测目标标签并使用结果在排行榜上获得一个位置。

test_data = pd.read_csv('test.csv')test_data.head()

如何在Kaggle上打比赛，带你进行一次完整流程体验

第三个文件sample_submission是示例，展示了提交文件的外观。这个文件将包含test.csv文件中的id列和我们用模型预测的目标。一旦我们创建了这个文件，我们将提交给网站，并获得一个位置的排行榜。

sample_submission =

pd.read_csv('sample_submission.csv')sample_submission.head()

如何在Kaggle上打比赛，带你进行一次完整流程体验

数据清理

对于任何机器学习任务，在我们可以训练一个模型之前，我们必须执行一些数据清理和预处理。这在处理文本数据时尤为重要。

为了简化我们的第一个模型，并且由于这些列中有许多缺失的数据，我们将删除位置和关键字特性，只使用来自tweet的实际文本进行训练。我们还将删除id列，因为这对训练模型没用处

（编辑：阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

火爆全网的数字人，究	一文看清楚数据指标体
为什么大热的数据可视	使用替代数据的五个隐