一、背景
随着中国电影市场发展成熟,电影成为我们日常文化生活重要的一部分,丰富了我们的业余生活。通常,业界以电影的票房收入作为评价一步电影是否成功或优秀的指标。近些年来,有许多影片在票房上取得了空前的成功,例如2011年上映的《变形金刚3》、《功夫熊猫2》,2012年上映的《泰囧》,2014年上映的《捉妖记》、《速度与激情7》等。一部电影的票房收入不仅仅是大家津津乐道的谈论话题,更是电影投资方确保投资回报的保障。
因此,电影票房的预测一直具有重要的意义,本文将针对国内电影市场介绍一种利用大数据做电影票房预测的方法。
二、票房影响因素
电影票房会受到多种因素的共同影响,国内外很多学者和研究机构都对票房的影响因素做过分析工作,其中比较著名的是上世纪80年代,美国的巴里·李特曼(Barry Litman)的票房分析模型。李特曼以80年代在美国上映的电影为样本,对票房的影响因素进行研究,将影响因素分为创意、发行和营销能力三类。其中创意因素指电影本身的一些信息,如影片类型(冒险、喜剧、犯罪、科幻等),MPAA分级(G、PG、R等),故事熟悉程度(是否改变自小说等其他媒介),生产成本等;发行因素指与电影发行上映相关的因素,如是否为大发行商发行,发行档期(圣诞档、暑期档等),发行模式等;营销能力因素指发行公司的营销能力,以及影片是否获得过一些奖项或提名等。
通过对这些因素进行分析,李特曼发现一部影片的明星演员、顶级导演、大发行公司、科幻片等因素会对影片的票房产生较大的影响。本文的票房预测也将基于李特曼的研究结果来选择国内票房的影响因素。
我们从互联网上收集到2013年到2015年已上映的2200部影片信息,包括影片名、导演、主演、上映时间、观众评分、类型等。针对这2200部电影,我们还收集到了其中1036部电影的上映的周数、上映首周的票房收入和场均人次以及最终的票房收入。基于获取到的这1036部影片的数据,我们参考李特曼的票房预测模型选择国内电影票房的影响因素,包括:
1) 电影评分,范围为1-10,由观影观众给出,数值越大表示影片越受欢迎;
2) 电影时长,一部电影的放映时长;
3) 是否为改编,影片是否来自小说或漫画的改编;
4) 上映档期,是否在贺岁档、暑期档、五一档或国庆档上映;
5) 电影类型,是否为喜剧、惊悚、剧情或科幻;
6) 电影上映周数,电影在影院放映的周数;
7) 上映首周平均日票房,由上映首周的票房收入和首周上映天数得到;
8) 上映首周的场均观影人次,上映首周内平均每场的观影人次;
三、电影票房预测模型
以上选取的因素为特征,作为票房预测的自变量,以电影总票房作为因变量。从数据中抽取这些特征生成训练集和测试集,训练集和测试集的数据比例为8:2。本文采用线性回归模型和决策树回归模型来分别训练票房预测模型,利用训练集训练得到模型,然后利用测试集对模型预测效果进行评价,主要通过R2来评价模型拟合效果,其数值越接近1表示模型的拟合效果越好。
经过训练,线性回归模型和决策树回归模型的R2都达到了0.87,表明两个模型对于实际票房的拟合程度都较好。但在实际预测效果方面,如下图所示为票房预测模型的预测值与实际值的误差,可以看出决策树回归模型所得预测值与实际值的误差要小于线性回归模型的预测误差,一般情况下决策树回归模型所得的预测误差在10%-40%之间。
下面两张表分别是线性回归模型和决策树回归模型在一些电影票房预测的结果(票房单位为万元),同样可以看出决策树回归模型的预测效果要好于线性回归模型。
表1 线性回归模型预测结果
表2 决策树回归模型预测结果
四、总结与展望
本文从一部分重庆大数据公司及重庆大数据分析公司获取国内电影市场的影片信息和票房数据,基于李特曼的分析并针对国内电影市场的特点提取特征值,利用线性回归和决策树回归模型对电影票房进行预测,获得了与实际情况拟合程度较高的预测模型,利用该模型对电影的国内票房可以做出相对准确的判断,供大家参考。
然而,影响电影票房的因素有很多,但我们现有的模型特征更偏向于影片本身的信息。受限于互联网上数据的不全面等原因,诸如发行公司实力、营销能力等电影发行、营销方面的因素没有完全加入到我们的预测模型中。显然,这些因素也会对票房收入产生重大的影响。因此这也是我们今后在票房预测方面努力的方向——通过更全面的数据集来进行更准确的票房预测。