< 美丽的汤4β6,清汤3.2.1
星座游戏作者评论13:“你的日常工作” >

[评论](2) 黄金时代在哪里?:几周前,塞缪尔·阿贝斯曼(Samuel Arbesman)在《连线》杂志的科学博客“如何寻找电视黄金时代”,自从我读到这篇文章后就让我发疯了。不是因为我不同意他对IMDB数据集的分析,但因为我不喜欢他的起点。Arbesman使用“每个电视节目的运行时间,在一些章节中,作为质量的粗略代表。确实可能存在正相关,但是这个度量有几个问题。首先,它严重贬低了现在。今天播出的节目可能有好几个季节要播出,但我们还不知道,所以它看起来比同等质量的老节目更糟糕。第二,IMDB数据集提供了一个更直接的质量代理:用户评级。

我不认为评级是伟大的质量的代言人——看一看最高收视率的电视节目,就会停止这种胡说八道。一个节目的长度至少是一个客观事实。但我认为,我们今天对一部电视剧的总体看法,比电视台最初愿意让它持续多长时间更好地反映了它的质量。如果你使用评级,我认为你可以更接近于回答“电视黄金时代会是什么样子?”

我猜是,Arbesman没有使用评级,因为从imdb数据集中获取信息有点烦人。但是我已经在数据集上做了很多工作MST3K-IMDB效应,所以在这篇文章中,我用自己的方式来计算这些数字,看看结果如何。

如果你期待争议,我不能提供。我的发现与Arbesman的并不矛盾,它们只是提供了一种看待数据的不同方式。

步骤1:获取数据

(如果你不耐烦,你可以跳到图表)。

一切都始于IMDB的纯文本数据转储.我下载release-dates.list.gzReligs.List.Gz从FTP站点。我也下载了经销商列表.gz,但事实证明,数据并不有用。

第2步:识别节目,集,和空气的日期

发布日期.列表列出所有的电影,电视节目,以及电视节目集。电视节目在报价中,剧集的名字都在花括号里。

《星际迷航:旅行者》(1995)美国:1995年1月16日《星际迷航:旅行者》(1995)(看守人(1.1))美国:1995年1月16日

不幸的是,网络系列就像电视节目一样,这将打乱近年来的数据:

《愤怒的游戏迷》(2006){Elm街的噩梦(第1.13号)美国:2006年10月31日

我尝试了一些技巧来摆脱网络系列,例如只考虑与上市电视发行商合作的节目(distributors.list)但是有大量的有线电视真人秀和网络系列有着完全相同的数据特征。金宝搏app所以我要把它们留在里面。只要知道当我说“电视节目”时,我说的是电视节目+网络剧188betnow。

为了使初始数据集更小,我用过grep除了美国电视节目的首映式,以及电视节目集。(和Web系列)然后我编写了一个python脚本,将这些信息转换为可选择的数据结构。

剧本把一个节目和所有已知的剧集联系起来,并分析每一集的发布日期以及剧集本身的首播日期。我想知道这部剧每年哪一集在美国首映。这有一些问题——它让原版的《星际迷航》(Star Trek)以1988年的形式出现,因为那是原版试播集的第一次播出——但它们的影响很小。

步骤3:添加分级

现在我知道每个节目什么时候开始,在很多情况下,我知道每年都会有一个节目播出。下一步,我将加载另一个文件,并为节目和剧集添加评级。

评级被保留在ratings.list.它们看起来像这样:

7.5《星际迷航:旅行者》(1995)0000012111 1558 7.1《星际迷航:旅行者》(1995){守护者(1.1)}

这里有很多很酷的东西,比如一个柱状图(0000012111意味着10%的人认为旅行者6号首映式,20%的人是7,等等)但我们追求的是IMDB排名:本例中为7.5星和7.1星。

不幸的是,里面有很多无聊的东西ratings.list比如前250部电影。幸运的是,在研究mst3k-imdb效果的过程中,我已经编写了代码来解析这个文件。

第4步:图表!

现在我要把《麻木与病历》拿出来。让我从校准开始,Arbesman也做了一个图表。一年有多少节目播出?

和阿贝斯曼的图很相似。我的图表最后没有下降,因为我在2011年切断了数据,最后一整年的数据。我也会晚一点开始,在第一年,有五个电视节目的收视率。我在看一些节目他不是,可能是因为我在计算每年播出的一个节目,可能是因为我挑选的节目没有在IMDB上列出任何剧集,可能是因为他找到了一些我没有想到的方法来排除web系列。但形状很相似。

这是你一直在等待的图表:随着时间的推移,平均评级:

这是一个关于质量急剧下降的悲惨故事:1959年到1980年间,1999年至2005年。按照这个标准,2005年是电视史上最糟糕的一年。如果你只看一段时间内的平均评级,你会说有一个电视黄金时代,从1955年到1965年,1980年至2000年这段时间是一段停滞期,中断了原本稳定的下降。

中值评级随时间变化的图表说明了许多相同的情况,所以我不会把它,但你可以通过这个链接看到它.

但是,中庸的评价不是全部。让我拿出我唯一知道的统计学技巧:看评级随时间的标准差。

1959年,平均得分最高的年份,这也是一个极端同质化的年份。只有不到一颗星的差异将非常好的节目和非常糟糕的节目区分开来。1959后,好节目越来越好,糟糕的节目越来越糟,相对于平均值。1980年的标准差是1。37星,2011年几乎是两颗星。记住,评级不是正态分布,所以两颗星相当多。(即使是一个明星,像1959年一样,什么也不是。

再加上剧集数量激增(从90年代后期开始,一旦我们开始统计网络节目,就会进入超速档),你就能看到2000-2005年的下降是如何发生的。2005年播出了1300多个不同的节目。当然,这场卑鄙的演出将是一派胡言!令人惊讶的是,自2005年以来,情况有所好转,就像我们现在做的那样每年的演出是现在的两倍多.(和web系列!不能忘记那些!)

另一个因素是,人们甚至不必为糟糕的节目打分。以下是某一年内播放的节目百分比,这些节目由于没有获得足够的投票而没有IMDB评级。2011,这是大多数节目!

老节目不分级是因为没人记得它们。新节目没有分级,因为…好,我做了很多抽查,它们分为三类。1)网络系列,2)从未播出,甚至从未制作的节目,3)废话。只有第三条可以被恰当地认为是“电视”的一部分。如果每个节目都有一个评级,平均评级肯定会更低,但我不知道要低多少。

这就是我们的立场:电视不好,情况越来越糟。这种趋势最近可能已经逆转,或者,这种下降可能被拥有热情粉丝的网络节目掩盖了,或者事情变得如此糟糕,以至于人们甚至不再费心给垃圾评级。但是!你愿意把今天的电视(平均收视率6.2)换成1973年的吗?(意味着评级:7.3)。我不会,我想你也不会。这是怎么呢

好吧,我们不看下流的电视节目。我们只看好的节目。(如果你读到这里,我要继续做这个假设。)如果你看看好节目,这幅画看起来很不一样。

这是比均值高一个标准差的图像。这基本上是排名前16%的节目:

在高端,质量的下降在80年代和90年代早期被逆转。在90年代末(2005年仍然很糟糕),这一增长是没有结果的。但随后质量又迅速回升。这和阿贝斯曼的显示时间图非常相似。

如果你更挑剔呢?画出每年均值上方1。5个标准差处的图像。我不知道这对应的百分比是多少,但这有点像前5%。这是你在某一年能在电视上找到的最好的东西:

这张图,我认为,“黄金时代会是什么样子”的最佳答案是什么?看起来像60年代,当有三个渠道受到严格的质量控制时,你可以在任何时候打开电视,也许能找到好的东西。或者现在看起来,当大量的节目被制作时,做一个势利的人很容易只看最好的。这就是为什么我们不记得2005年是媒体历史上最糟糕的电视年,这就是为什么我从不把今天的电视换成1973年的电视,尽管1973年在图表上看起来很不错。

所以,这里是它——另一种查看imdb数据的方法。更多的来!下一个:我喜欢称之为“史上最糟糕的一集”。

提交如下:

评论:

发布的kirkjerk2012年2月20日星期一09:48

难道阿贝斯曼的假设不意味着肥皂剧和白天的游戏节目是最好的吗?

伦纳德于2012年2月20日周一14:32

如果你用这种方法找到所有时间前10名的节目,那就更好了。但他正在绘制事件的中位数,如此巨大的异常值不会扭曲数据——它们仍然只算作一个显示。


( 主要][ 编辑]

除非另有说明,所有内容由授权伦纳德·理查森
在一个Creative Commons许可.