加入收藏 | 设为首页 | 会员中心 | 我要投稿 阳江站长网 (https://www.0662zz.cn/)- 办公协同、云通信、区块链、物联平台、高性能计算!
当前位置: 首页 > 大数据 > 正文

如何在Kaggle上打比赛,带你进行一次完整步骤体验

发布时间:2021-06-05 12:30:46 所属栏目:大数据 来源:互联网
导读:Kaggle是一个磨练您的机器学习和数据科学技能的好地方,您可以将自己与他人进行比较,并学习新的技术。 在这篇文章中,我们利用一个典型的例子,来给大家演示如何参加Kaggle竞赛: 开发一个模型来预测一条推特(tweet)内容是否与灾难有关。 使用模型对Kaggle提
Kaggle是一个磨练您的机器学习和数据科学技能的好地方,您可以将自己与他人进行比较,并学习新的技术。
在这篇文章中,我们利用一个典型的例子,来给大家演示如何参加Kaggle竞赛:
开发一个模型来预测一条推特(tweet)内容是否与灾难有关。
使用模型对Kaggle提供的测试数据集进行预测。
提交你的结果,就可以进入Kaggle排行榜了。
推特数据集
Kaggle最新的一项竞赛提供了一个数据集,包含推文以及一个告诉我们这些推文是否真的是关于灾难的标签。该比赛的排行榜上有近3000名参赛者,最高奖金为1万美元。数据和比赛大纲可以在这里看到:
https://www.kaggle.com/c/nlp-getting-started
如果你还没有Kaggle账户,你可以先免费创建一个。
如果你从比赛页面选择“下载全部”,你会得到一个包含三个CSV文件的zip文件:
如何在Kaggle上打比赛,带你进行一次完整流程体验
第一个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成:
Id: tweet的数字标识符。当我们将我们的预测上传到排行榜时,这将是非常重要的。
关键字:推文中的一个关键字,可能在某些情况下没有。
位置:发送推文的位置,这也可能不存在。
文本:推文的全文。
目标:这是我们试图预测的标签。如果这条推文真的是关于一场灾难,它将是1,如果不是,它将是0。
让我们并进一步了解这个。在下面的代码中,您将注意到我使用了一个set_option 命令。这个来自Pandas库的命令允许您控制dataframe结果显示的格式。我在这里使用这个命令,以确保显示文本列的全部内容,这使我的结果和分析更容易查看:
import pandas as pdpd.set_option('display.max_colwidth',  
-1)train_data = pd.read_csv('train.csv')train_data.head() 
如何在Kaggle上打比赛,带你进行一次完整流程体验
第二个数据文件test.csv是测试集,只包含特征,而没有标签。对于这个数据集,我们将预测目标标签并使用结果在排行榜上获得一个位置。
test_data = pd.read_csv('test.csv')test_data.head() 
如何在Kaggle上打比赛,带你进行一次完整流程体验
第三个文件sample_submission是示例,展示了提交文件的外观。这个文件将包含test.csv文件中的id列和我们用模型预测的目标。一旦我们创建了这个文件,我们将提交给网站,并获得一个位置的排行榜。
sample_submission =  
pd.read_csv('sample_submission.csv')sample_submission.head() 
如何在Kaggle上打比赛,带你进行一次完整流程体验
数据清理
对于任何机器学习任务,在我们可以训练一个模型之前,我们必须执行一些数据清理和预处理。这在处理文本数据时尤为重要。
为了简化我们的第一个模型,并且由于这些列中有许多缺失的数据,我们将删除位置和关键字特性,只使用来自tweet的实际文本进行训练。我们还将删除id列,因为这对训练模型没用处

(编辑:阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读