百度电影推荐系统算法大赛新数据集的简单分析

上一篇博文 http://diaorui.net/?p=419 意外的火了。如果你还没看过,请先去看看再回来看这篇。
后来今晚看啥@汪冠春 与我取得了联系。他和百度的多个技术人员一起对比赛进行了调整。赛前的准备工作不太充分,希望弥补后还能顺利吧。
百度学院的迅速响应和公开真实数据的精神是值得赞一个的~

调整后的比赛包括两个问题:
1, 传统的预测评分问题。给定一个只包括活跃用户的真实评分(而不包括“喜欢”),要求预测其他评分,仍然是RMSE作为评价指标。这部分数据包括大约1万用户、大约8000电影(评分的Sparsity约为0.2)。
2, 基于社交、标签和喜欢数据的开放性问题。给定用户喜欢的电影数据,社交数据,电影标签数据,要求自己挖掘一些有意思的话题,写成报告。这部分数据包括约15万用户和约1.7万电影。

数据集下载地址 http://pan.baidu.com/share/link?shareid=340221&uk=2000006609
这组数据应该没有人工干扰。我之前配合他们提了一些改进建议。后因收到邀请,我再简单总结一下新数据集的特点,可能会对参赛选手有帮助。
所有内容我尽量不写的太细节以免误导。

Continue reading »