Category: 推荐系统

百度电影推荐系统算法大赛新数据集的简单分析

上一篇博文 http://diaorui.net/?p=419 意外的火了。如果你还没看过,请先去看看再回来看这篇。
后来今晚看啥@汪冠春 与我取得了联系。他和百度的多个技术人员一起对比赛进行了调整。赛前的准备工作不太充分,希望弥补后还能顺利吧。
百度学院的迅速响应和公开真实数据的精神是值得赞一个的~

调整后的比赛包括两个问题:
1, 传统的预测评分问题。给定一个只包括活跃用户的真实评分(而不包括“喜欢”),要求预测其他评分,仍然是RMSE作为评价指标。这部分数据包括大约1万用户、大约8000电影(评分的Sparsity约为0.2)。
2, 基于社交、标签和喜欢数据的开放性问题。给定用户喜欢的电影数据,社交数据,电影标签数据,要求自己挖掘一些有意思的话题,写成报告。这部分数据包括约15万用户和约1.7万电影。

数据集下载地址 http://pan.baidu.com/share/link?shareid=340221&uk=2000006609
这组数据应该没有人工干扰。我之前配合他们提了一些改进建议。后因收到邀请,我再简单总结一下新数据集的特点,可能会对参赛选手有帮助。
所有内容我尽量不写的太细节以免误导。

Continue reading »

数据真实性的探索——对百度电影推荐系统算法大赛的质疑


更新:
没有想到本文获得这么多人的关注。

@袁全V 的如下评价是个很好的建议。
—–
@袁全V:如果喜欢数据占大多数,只选”喜欢”数据,用recall或ndcg当metric也可以,没必要去套rmse. ID没有匿名化是硬伤
—–
我也收到了今晚看啥的来信。
—–
@汪冠春:看了你的分析和建议,很细致。我们在出题准备数据的时候有了一些不科学之处,望理解。明天我会和百度学院的朋友确认是否会对比赛有影响并确认处理方法。
—–
从公开数据集、办比赛来讲,这次这种形式我是非常支持的。也期待有更多的数据能够公开出来方便大家学习。办比赛确实有难度,要考虑的很多。虽然这次有很多问题,但以后总会做的更好。也期待百度今后继续办这样的活动,给我们提供从实践中学习的机会。
百度已经调整了比赛规则和数据,新的数据集简要分析请见 http://diaorui.net/?p=510


摘要
本文主要通过一系列数据上的探索,论证百度电影推荐系统算法大赛的数据集并非真实。旨在让做相关研究的人不要直接去使用这组不真实的数据去检验自己的算法,以免误导。本文并非只是为了批评,文中也指出了若干条建议,希望此次比赛主办方以及希望举办类似比赛的人参考。
文中纯属个人观点,如有错误,请不吝赐教。

Continue reading »

libFM学习感想

libFM全称为Factorization Machine Library,是由Steffen Rendle于2010年提出的。最近由于他以libFM为队名,在KDD CUP 2012和刚刚结束的Music Hackathon中都取得了很不错的成绩,所以libFM引起了一些人的注意。我最近拜读了一下libFM的相关论文,以及源代码,也有一些收获,就总结一下。

Continue reading »

也说MinHash

之前突然想看看实时推荐系统有什么文章,看到Google文章中提到MinHash,然后看到xlvector的blog中还有网上也搜到其他一些blog中也有提到。它可以用来加速计算相似度,对于大规模数据,速度非常快。

Continue reading »

评分数据的存储——Mahout笔记之二

趁热打铁~
这是Mahout in action一书的第三章。

Continue reading »

推荐系统介绍——Mahout笔记之一

准备开始看Mahout in action~
Mahout是Java写的知名推荐系统工具之一,看的目的不是使用Mahout,目的是通过这份资料了解Mahout是怎么做的。

Continue reading »

The Art of Lemon队的KDD CUP 2011 Track 2解决方案大致思路

随着KDD CUP 2011的结束,需要开始总结我们的解决方案了。我们在最终测试集Test2中排名第二,和在排行榜中测试集Test1上的排名是一致的。我先发一篇Blog大致总结一下我们的方案,一来自己回顾和理清整个过程便于后面详细的写Solution Paper,二来与大家分享我们队的成果。

Continue reading »

六月末总结最近的忙碌

这一个月基本都在KDD CUP冲刺阶段,所以忙得没时间写博客了。眼看六月就要过去,补充一篇总结一下感慨。

Continue reading »

推荐系统中邻居模型和SVD模型的内在联系

之前看的所有论文都是把邻居模型和SVD模型分别讨论,确实他们的出发点是不一样的。但是不一样的出发点都能得到好效果,是不是因为他们有内在联系?我之前也有思考过这个问题,今天偶然发现好像想通了。

Continue reading »

数据挖掘与推荐系统

一直没有写Blog,最近再一次决心积累知识,将blog发扬光大。
此blog仍然寄居在好友的服务器上,再次感谢~

我从未正式的学习过数据挖掘,但是以前在数学建模课程上对某些方法略有了解:决策树,SVM,模拟退火,遗传算法,蚁群算法,神经网络等。不过仅仅是知道而已。推荐系统算是数据挖掘中一类很有意思的问题。

Continue reading »