Y> M> d>

[评论](2) 黄金时代在哪里?几周前,塞缪尔·阿贝斯曼在《连线》的科学博客上发表了一篇文章,叫做“如何寻找电视黄金时代”,自从我读到这篇文章后,我就开始发疯了。不是因为我不同意他对IMDB数据集的分析,但因为我不喜欢他的起点。Arbesman使用“每个电视节目的运行时间,在剧集数量上,作为一个非常粗略的质量代理”。确实有可能是正相关的,但这个指标有几个问题。第一,它严重贬低了现在。今天播出的节目可能有几个季节要播出,但我们还不知道,所以它看起来比同等质量的老节目更糟糕。第二,IMDB数据集具有更直接的质量代理:用户评级。

我不认为评级是伟大的质量的代言人——看一看最高收视率的电视节目,就会停止这种胡说八道。一场演出的持续时间至少是客观事实。但我认为,我们今天对一个电视节目的集体看法,比网络最初愿意维持多久更能反映质量。如果你使用评级,我认为你可以更接近于回答“电视黄金时代会是什么样子?”

我猜是,Arbesman没有使用评级,因为从imdb数据集中获取信息有点烦人。但是我已经在数据集上做了很多工作MST3K-IMDB效应,所以在这篇文章中,我按自己的方式计算数字,看看会发生什么。

如果你期待争议,我不能提供。我的发现与Arbesman的并不矛盾,它们只是提供了一种查看数据的不同方式。

第一步:获取数据

(如果你不耐烦,你可以跳到图表

一切都始于IMDB的纯文本数据转储.我下载了发布日期.list.gzReligs.List.Gz从ftp站点。我也下载了经销商列表.gz,但事实证明,数据并不有用。

第2步:识别节目,情节,航空日期

发布日期.列表列出所有电影,电视节目,以及电视节目集。电视节目在报价中,剧集的名字都在花括号里。

分点突破(1991)美国:1991年7月12日“星际迷航:旅行者”(1995)美国:1995年1月16日“星际迷航:旅行者”(1995)看守人(1.1)美国:1995年1月16日

不幸的是,网络系列就像电视节目一样,这将与近年来的数据相混淆:

《愤怒的电子游戏书呆子》(2006年)榆树街上的噩梦(1.13)美国:2006年10月31日

我尝试了一些技巧来摆脱网络系列,就像只考虑与上市电视发行商合作的节目一样(分销商名单)但是有大量的有线电视真人秀和网络系列有着完全相同的数据特征。金宝搏app所以我要把它们留在里面。只要知道当我说“电视节目”,我说的是电视节目+网络剧188betnow。

为了使初始数据集更小,我用过格雷普除去美国电视节目首映式以外的一切,以及电视节目集。(和Web系列)然后我编写了一个python脚本,将这些信息转换为可选择的数据结构。

剧本把一个节目和所有已知的剧集联系起来,并解析出每一集的发行日期以及该剧本身的首映日期。我想知道该剧每年在美国首映的一集。这有一些问题——它使得原版的《星际迷航》成为1988年的一个节目,因为这是原版飞行员第一次被播出——但它们都很小。

步骤3:添加分级

现在我知道每个节目什么时候开始,在很多情况下,我知道每年都有一个节目在播出。在下一步中,我加载到另一个文件中,并为节目和剧集添加分级。

评级保持在名单.它们看起来像这样:

0000001211245 7.5“星际迷航:旅行者”(1995)0000012111 1558 7.1“星际迷航:旅行者”(1995)看守者(1.1)

这里有很多很酷的东西,比如一个柱状图(0000012111意味着10%的人认为旅行者6号首映式,20%的人A 7,等等)但我们追求的是IMDB的排名:本例中为7.5星和7.1星。

不幸的是,里面有很多无聊的东西名单比如前250部电影。幸运的是,在研究mst3k-imdb效果的过程中,我已经编写了代码来解析这个文件。

第4步:图表!

现在我要把《麻木》和《Pychart》分出来。让我从校准开始,阿贝斯曼也做了一个图表。一年有多少节目播出?

与Arbesman的图表非常相似。我的图表最后没有下降,因为我在2011年切断了数据,最后一整年的数据。我也会晚一点开始,第一年有五部电视节目。我在看一些节目,他没有,可能是因为我在统计每年播出的节目,可能是因为我挑选的节目没有在IMDB上列出任何剧集,可能是因为他找到了我不想排除网络系列的方法。但形状相似。

下面是您一直在等待的图表:随着时间推移的平均评级:

这是一个关于质量急剧下降的悲惨故事:1959年到1980年间,1999年至2005年。通过这种方法,2005年是电视史上最糟糕的一年。如果你只看了一段时间的平均评分,你会说有一个电视黄金时代,从1955年到1965年,1980-2000年是一个停滞期,中断了原本稳定的衰退。

随着时间的推移,中值评级图显示了许多相同的情况,所以我不会超越它,但是您可以通过此链接查看.

但是,中庸的评价并不是全部。让我拿出我所知道的唯一的统计技巧:看一段时间内评级的标准差。

1959,平均评分最高的年份,也是一年的极端同质性。只有不到一颗星的差异将好节目和坏节目分开。1959后,好节目越来越好,糟糕的节目越来越糟,相对于平均值。1980年,标准差为1.37星,在2011年,它几乎是两颗星。记住额定值不是正常分布的,所以两颗星相当多。(即使是一颗星,和1959一样,什么也不是。

再加上剧集数量激增(从90年代后期开始,一旦我们开始统计网络节目,就会进入超速档),你就能看到2000-2005年的下降是如何发生的。2005年有1300多个不同的节目播出。当然,这场卑鄙的演出将是一派胡言!令人惊讶的是,自2005年以来,情况有所好转,就像我们现在做的那样每年有两倍以上的节目.(和网络系列!不能忘记那些!)

另一个因素是,人们甚至不愿意为糟糕的节目打分。以下是某一年内播放的节目百分比,这些节目由于没有获得足够的投票而没有IMDB评级。2011,这是大多数节目!

老节目不被评分,因为没人记得。新节目没有分级,因为…好,我做了很多抽查,它们分为三类。1)Web系列,2)从未播出甚至可能从未制作的节目,3)废话。只有3可以被恰当地视为“电视”的一部分。如果每个节目都有评分,平均评分肯定会更低,但我不知道要低多少。

这就是我们的立场:电视不好,情况越来越糟。这种趋势最近可能已经逆转,或者,这一下降可能被充满热情的粉丝的网络节目所掩盖,或者事情变得如此糟糕,以至于人们不再费心去评价这些垃圾。但是!你愿意把今天的电视(平均收视率:6.2)换成1973年的电视吗?(平均评级:7.3)。我不会,我也不认为你会。发生什么事?

好,我们不看卑鄙的电视节目。我们只看好节目。(如果你读了这么多,我要继续做这个假设。)如果你看看好节目,这幅画看起来很不一样。

这就是节目看起来比平均值高出一个标准差的地方。这基本上是前16%的节目:

在高端,质量的下降在80年代和90年代早期被逆转。在90年代末(2005年仍然很糟糕),这一增长是没有结果的。但后来质量又恢复了。这与Arbesman的显示长度随时间变化的图表非常相似。

如果你更有选择性怎么办?让我们把每年平均值以上的1.5个标准差绘制成图表。我不知道这对应的百分比是多少,但它有点像前5%。这是你在一年内在电视上能找到的最好的东西:

这张图,我想,“黄金时代会是什么样子”的最佳答案是什么?看起来像60年代,当有三个渠道受到严格的质量控制时,你可以在任何特定的时间打开电视,也许能找到一些好东西。或者现在看起来像,当大量的节目正在上演时,很容易成为势利小人,只看最好的。这就是为什么我们不记得2005年是媒体历史上最糟糕的电视年,这就是为什么我从不把今天的电视换成1973年的电视,即使1973年在这个图表上看起来相当不错。

所以,这里是它——另一种查看imdb数据的方法。来了!接下来:一件我喜欢称之为“有史以来最糟糕的事件”的小事情。


[ 主要的]

除非另有说明,所有内容由授权伦纳德·理查森
在一个创意共享许可.