Steem 中国策 前传: 2016.07 - 2017.08 (大鹏观察 Steem's Watch Tcn0)steemCreated with Sketch.

in #cn7 years ago (edited)

前不久,我推出了“大鹏观察”的账号数据分析系列,对 Steem 的 ID 进行数据挖掘,反响不错。然而,对单一用户观察得到的视角毕竟是有限的,结论具有很大的偶然性。这次新推出一个系列,针对标签/类目/板块的整体数据进行一点研究,编号为Tcn 系列,旨在对 cn 板块的帖子进行一些数据分析和挖掘,展示一些有趣的结果,希望对社区发展具有一些纪念意义和参考价值。使用的数据来源是 steemdata.com,数据获取、分析、图表制作、报告编写全程使用人见人爱的 R 语言。计划每周一期,仅供参考,如果有数字与官方有出入,请以官方为准。

大家对活动有什么建议,欢迎提出来,毕竟现在的数据分析还很粗浅,将来可供拓展的方向很多。

正如了“大鹏观察”的账号数据系列取名为“Steem 史记”一样,“大鹏观察”的板块系列取名为“Steem 中国策”,当然是源自《战国策》。是的,以后说不定还会开发“德国策”,“韩国策”,“美国策”,"联合国策"......


Steem 中国策 前传: 2016.07 - 2017.08 (大鹏观察 Steem's Watch Tcn0)

本期是 “大鹏观察中国策”系列的首篇,对2017年8月之前的历史做个总结回顾。从下一篇开始为周刊,对前一周的数据做分析。

帖子排行榜

截至 2017-08-25 15:32:31, 以 cn 为标签的帖子共 19838 篇。其中,纳入 cn 类目(category)的有 8929 篇。

我们来看看关于帖子的几个第一名。

发布最早排行榜

字数排行榜

字符最多:

字符最少:

插图排行榜

得赞排行榜

吸金排行榜

关键词排行榜

下面是 cn 所有帖子正文里出现的字符长度超过 2 个、出现次数超过 10 次的中文关键词词云图。字符越大,在全部帖子里重复出现的次数就越多。

unnamed-chunk-8-1.png

发帖

2016.07 - 2017-08 期间,cn 每天累计发帖总数如下图所示。低谷期每天发文屈指可数,高峰期每天超过 100 篇。史上出现过三次高峰,分别是 2016 年七八月份,2016年年底,以及2017年七八月(也就是现在)。

unnamed-chunk-9-1.png

下图是个特殊的时钟,一圈是24小时,显示了一天24小时里发帖的频次,面积越大的时段,发帖数就越多。红线显示的是频次分布:每两条相邻红线之间的帖子数,占全部帖子数的 25%。哪两条红线最接近,哪两条红线之间就是发帖高峰时段。UTC 18 时到 0 时之间发帖最少,对应东八区(如北京时间)为 2 点到 8 点,这说明 cn 区发帖的作者大多数位于这一区域,包括中国大陆、港澳台、新加坡或者澳洲等。UTC 12 时到 15 时 (北京时间 20 时 到 23时)发帖最为集中。

unnamed-chunk-10-1.png

除了 cn 为首选标签外,我们看看大家还使用了那些标签以及使用频率。

unnamed-chunk-11-1.png

作者

高产排行榜

有史以来,cn 区共有 2279 位作者出没。其中,发布帖子最多的前十位是:

  1. @chinadaily, 共 755 篇。
  2. @ace108, 共 536 篇。
  3. @myfirst, 共 422 篇。
  4. @blacktranquility, 共 413 篇。
  5. @lemooljiang, 共 361 篇。
  6. @oflyhigh, 共 334 篇。
  7. @birds90, 共 279 篇。
  8. @rivalhw, 共 277 篇。
  9. @elfkitchen, 共 277 篇。
  10. @sweetsssj, 共 254 篇。

富豪排行榜

帖子收益(total payout value)最大的前十位是:

  1. @sweetsssj, 共 57349 SBD。
  2. @oflyhigh, 共 22338 SBD。
  3. @myfirst, 共 17880 SBD。
  4. @elfkitchen, 共 12468 SBD。
  5. @deanliu, 共 11206 SBD。
  6. @rivalhw, 共 10163 SBD。
  7. @chinadaily, 共 9305 SBD。
  8. @helene, 共 9151 SBD。
  9. @birds90, 共 8660 SBD。
  10. @officialfuzzy, 共 8647 SBD。

人气排行榜

获得点赞最多的前十位是:

  1. @sweetsssj, 共 121967 个赞。
  2. @chinadaily, 共 63429 个赞。
  3. @ace108, 共 45721 个赞。
  4. @myfirst, 共 35465 个赞。
  5. @elfkitchen, 共 33174 个赞。
  6. @oflyhigh, 共 31000 个赞。
  7. @birds90, 共 29557 个赞。
  8. @xiaohui, 共 19340 个赞。
  9. @helene, 共 19296 个赞。
  10. @deanliu, 共 17522 个赞。

收入

最后我们来谈钱。历史上,cn 板块的总收益为 384069.57 SBD, 单帖收入最高为 3283.44 SBD,平均每帖收入为 19.36 SBD。下图显示的是单篇帖子收入的分布。横坐标是美元,阴影面积越大,对应美元的帖子数量越多。

unnamed-chunk-15-1.png

下图是各篇帖子获得的投票(点赞)数。 累计得赞 1000278 个,单帖得到的点赞数最高为 2326 个,平均每帖得赞 50.4 个。

unnamed-chunk-16-1.png

这些帖子能够投票次数最多的前三位是 @abit, @myfirst, @lemooljiang。下面是投票次数超过 1000 次的 ID 词云图。

unnamed-chunk-17-1.png

为 cn 板块点赞收入贡献最多的前三位伯乐是 @abit, @10000, @wang。他们一共贡献了全部收入的 33%。排在他们后面的第 4 到第 10 位的贡献比例如下图。感谢他们的支持!

unnamed-chunk-18-1.png

最后,我想补充一句。在撰写本文的过程中,极其偶然地,我发现一篇帖子。它的收益只有 9 SBD,获赞只有区区三十个,它甚至在任何排名中都默默无闻。然而,它却宛若大山密林深处里的一眼清泉,cn 区如今波澜壮阔的大江大海,皆因它而起;前世今生的多少爱恨情仇,皆由此而生。这篇帖子便是:


感谢关注“大鹏观察”。欢迎继续关注,也欢迎提出宝贵意见。谢谢。

Sort:  

得贊排行榜上看見我的名字了,很開心。 xD

你的丰功伟业,历史不会遗忘!

从数学角度提个建议。
数据的存在是为了证明某个定理的正确性。比如欧几里得几何原理在确定了基本公设以后,所有的几何定力都可以从最初的公设推导得到。
那在得到了steem上某些侧面的数据之后,可以考虑从数据着手,建立一个相对稳定的模型。
比如声望值与发帖数、点赞数、发帖时间、字数、插图数等的多维函数曲线或者二维关系图表。不知道R语言里面有没有相关的功能,mathlab的数学建模功能比较齐全。
以上只是一个数学圈的围观群众的一家之言,不保证建议可行性与正确性,仅作为开阔思路建议。

谢谢,非常有建设性的建议。 R 的建模功能也非常强大,理论上应该是能够实现的。只是这需要很深的数学功底,我个人水平有限,目前做不了。也许将来有人愿意合作,说不定能把这块儿往深了做出个好产品。一步一步来吧,我这个报告也在慢慢改进,其实也是现学现卖。欢迎继续提建议哦。

能分享一下你的R代码吗?
我也对R比较熟悉,可以试试一些更复杂的图形分析。

太好了!等我整理一下,能看得过去的时候就分享出来。目前的代码太丑,不好意思拿出来。能否问一下你熟悉 R 哪方面的工作?有没有开发过 R 包和 shinyapps? 擅长哪些包?将来可以合作搞点事情。

我主要是用R搞统计分析和数据挖掘。搞过一下对自己有用的包开发。
shinyapps也搞过,但是对于shinny的速度一直不是很满意,一旦数据稍微大点。
其实我只需要一些例子,具体怎么从steemit或者对应webAPI抓数据的。
不需要多全的代码。我自己玩玩。

好的,待我找个机会简单整理成个帖子。

我有一种马上学习R语言的冲动!

去吧,早点回来。

数据挖掘得很不错,很有参考价值。#CN最早的使用建议确实来自 @laonie!我记得最早使用的是#chinese这个标签。

搬个小板凳听前辈讲故事。

数据很有价值。多亏了早期用户笃定 cn

前人栽树后人乘凉。前人挖井后人喝水。

大鹏哥好厉害呀

一般一般,大家觉得好玩就行。

dapeng好厉害,这些数据分析做的真好,我猜你是做金融的。哈哈

谢谢!请继续猜......

做数据分析的?

继续猜......

我觉得肯定 是个工程师,但是哪方面的我还没猜到

续猜......续猜......猜......猜......

先确定一下,工程师对了吧?

不是。别猜了,猜不到的,有这工夫还不如去学 R。

有理哈哈,你真是实在人,赞!

你上次告诉我你搞专业以外的比较好。那你又是唱歌又是数据又是写文的,我猜你是做体育的,哈哈。

这个......怎么开始挖我的底了......难道我快红了?

别人挖不了你啊,你能自挖。哈哈

我早就自挖过了,只是没有公布而已,嘿嘿

平均每贴收入19SBD没搞错吧?
关键词最大的为什么是动物园?
能不能挖一下老王 @wang为什么被踩?既然贡献这么大

这些个问题,还是请教各位前辈吧!

刚刚乱翻的时候 看到这个 @laonie 还有好多 一年前o哥跟一哥的文章 前人栽树后人乘凉呀

一颗八卦的心啊

是一年前o哥跟一哥在互相打气怎么上首页
然后好像写了一篇分析的帖子收入只有几毛 没有大牛来点赞
哈哈哈
防止你也想八卦~

Coin Marketplace

STEEM 0.30
TRX 0.12
JST 0.032
BTC 60609.50
ETH 3014.13
USDT 1.00
SBD 3.90