加入收藏 | 设为首页 | 会员中心 | 我要投稿 阳江站长网 (https://www.0662zz.cn/)- 办公协同、云通信、区块链、物联平台、高性能计算!
当前位置: 首页 > 大数据 > 正文

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你结构

发布时间:2021-06-05 13:15:25 所属栏目:大数据 来源:互联网
导读:一、获取数据 不得不说,数据肯定得是用Python来爬,找到我们想爬取的数据,简洁代码直接走天下~ 简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案 具体的代码就在文末给大家奉上。 由于简书官方对数据有所保护和限制,仅能获取单个用户的900名关
一、获取数据
不得不说,数据肯定得是用Python来爬,找到我们想爬取的数据,简洁代码直接走天下~
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
具体的代码就在文末给大家奉上。
由于简书官方对数据有所保护和限制,仅能获取单个用户的900名关注者(粉丝亦然),以及前1900篇左右的文章。在通过2-3层数据爬取后,共获得261277条用户信息,具体数据有:用户名、主页url、是否为签约作者、粉丝数、获赞数、关注数、文章数、总字数等等。
同时,但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章可能都已经获取到了(其实并没有)。
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
二、BI分析
一般来说,用Python取好数之后,就是数据可视化了。
说到数据可视化,可谓是百花齐放,一时之间前端界出现了琳琅满目的第三方库: Highcharts , Echarts , Chart.js , D3.js 等。但是,万变不离其宗:需要不错的代码知识,而且这些产品其实并不是真正的开源。
那对于我们这种不会代码的小白有什么方法呢?
这就是我今天要说的BI了,也叫商业智能。百度搜索BI,就感觉内容铺天满地而来,让人摸不着头脑。其实BI真正做的好的少之又少,但国内和国外还是有一些优秀产品的。
国外代表是Tableau,157亿美金被收购,足以说明它的强大,但是对于国内来说,它不适用:
基于数据查询的工具,实时数据分析功能还很欠缺
价格很贵(土豪绕道),都是代理商所以售后服务非常差
本身没有后端数据仓库,宣称自己是内存BI,实际用起来对硬件要求极高,对于超千万条的数据分析,必须借助于其他ETL工具处理好数据再进行前端分析
无法支持中国式复杂表样
所以我选择了国内的BI产品FineBI,一款企业级的数据分析软件,最重要的是它个人版免费(文末有链接):
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
FineBI做的数据可视化
自动建模,建模简单,模型灵活性很强
丰富的可视化和前端分析操作,能可视化地进行数据钻取,数据切片和数据旋转等多维分析操作
内置ETL,实时数据分析,同时对大数据能够做到飞速处理
三、数据可视化
上面说了,FineBI虽然是企业级的数据分析软件,但是对于个人来说是免费的。同时,FineBI支持多种形式的数据源,不同连接模式,处理数据完全无压力。
我下好并激活之后,将Python爬出来的数据插入FineBI中,就开始了愉快的分析。
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
1、签约作者分析
简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案
既然作为自媒体平台,那么里面写字人的目的就是成为签约作者。在这26w+较优质用户里,共有126人的主页上明确地挂有“签约作者”的标签。
这个比例可以说是很少了,也可以从侧面说明简书对于作者的要求有多严格。
单人贡献5篇及以上热门文章的,共有69名作者,也说明写作不容易。

(编辑:阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读