数据真实性的探索——对百度电影推荐系统算法大赛的质疑


更新:
没有想到本文获得这么多人的关注。

@袁全V 的如下评价是个很好的建议。
—–
@袁全V:如果喜欢数据占大多数,只选”喜欢”数据,用recall或ndcg当metric也可以,没必要去套rmse. ID没有匿名化是硬伤
—–
我也收到了今晚看啥的来信。
—–
@汪冠春:看了你的分析和建议,很细致。我们在出题准备数据的时候有了一些不科学之处,望理解。明天我会和百度学院的朋友确认是否会对比赛有影响并确认处理方法。
—–
从公开数据集、办比赛来讲,这次这种形式我是非常支持的。也期待有更多的数据能够公开出来方便大家学习。办比赛确实有难度,要考虑的很多。虽然这次有很多问题,但以后总会做的更好。也期待百度今后继续办这样的活动,给我们提供从实践中学习的机会。
百度已经调整了比赛规则和数据,新的数据集简要分析请见 http://diaorui.net/?p=510


摘要
本文主要通过一系列数据上的探索,论证百度电影推荐系统算法大赛的数据集并非真实。旨在让做相关研究的人不要直接去使用这组不真实的数据去检验自己的算法,以免误导。本文并非只是为了批评,文中也指出了若干条建议,希望此次比赛主办方以及希望举办类似比赛的人参考。
文中纯属个人观点,如有错误,请不吝赐教。

Continue reading »