Tag: 百度

百度电影推荐系统算法大赛新数据集的简单分析

上一篇博文 http://diaorui.net/?p=419 意外的火了。如果你还没看过,请先去看看再回来看这篇。
后来今晚看啥@汪冠春 与我取得了联系。他和百度的多个技术人员一起对比赛进行了调整。赛前的准备工作不太充分,希望弥补后还能顺利吧。
百度学院的迅速响应和公开真实数据的精神是值得赞一个的~

调整后的比赛包括两个问题:
1, 传统的预测评分问题。给定一个只包括活跃用户的真实评分(而不包括“喜欢”),要求预测其他评分,仍然是RMSE作为评价指标。这部分数据包括大约1万用户、大约8000电影(评分的Sparsity约为0.2)。
2, 基于社交、标签和喜欢数据的开放性问题。给定用户喜欢的电影数据,社交数据,电影标签数据,要求自己挖掘一些有意思的话题,写成报告。这部分数据包括约15万用户和约1.7万电影。

数据集下载地址 http://pan.baidu.com/share/link?shareid=340221&uk=2000006609
这组数据应该没有人工干扰。我之前配合他们提了一些改进建议。后因收到邀请,我再简单总结一下新数据集的特点,可能会对参赛选手有帮助。
所有内容我尽量不写的太细节以免误导。

Continue reading »

数据真实性的探索——对百度电影推荐系统算法大赛的质疑


更新:
没有想到本文获得这么多人的关注。

@袁全V 的如下评价是个很好的建议。
—–
@袁全V:如果喜欢数据占大多数,只选”喜欢”数据,用recall或ndcg当metric也可以,没必要去套rmse. ID没有匿名化是硬伤
—–
我也收到了今晚看啥的来信。
—–
@汪冠春:看了你的分析和建议,很细致。我们在出题准备数据的时候有了一些不科学之处,望理解。明天我会和百度学院的朋友确认是否会对比赛有影响并确认处理方法。
—–
从公开数据集、办比赛来讲,这次这种形式我是非常支持的。也期待有更多的数据能够公开出来方便大家学习。办比赛确实有难度,要考虑的很多。虽然这次有很多问题,但以后总会做的更好。也期待百度今后继续办这样的活动,给我们提供从实践中学习的机会。
百度已经调整了比赛规则和数据,新的数据集简要分析请见 http://diaorui.net/?p=510


摘要
本文主要通过一系列数据上的探索,论证百度电影推荐系统算法大赛的数据集并非真实。旨在让做相关研究的人不要直接去使用这组不真实的数据去检验自己的算法,以免误导。本文并非只是为了批评,文中也指出了若干条建议,希望此次比赛主办方以及希望举办类似比赛的人参考。
文中纯属个人观点,如有错误,请不吝赐教。

Continue reading »