数据挖掘与推荐系统





一直没有写Blog,最近再一次决心积累知识,将blog发扬光大。
此blog仍然寄居在好友的服务器上,再次感谢~

我从未正式的学习过数据挖掘,但是以前在数学建模课程上对某些方法略有了解:决策树,SVM,模拟退火,遗传算法,蚁群算法,神经网络等。不过仅仅是知道而已。推荐系统算是数据挖掘中一类很有意思的问题。
近些年推荐系统逐渐火了起来,听说百度也成立了专门的组。前些年的Netflix大赛,以及今年的KDD Cup都是推荐系统的问题。上网买书的时候会有一些书推荐给用户购买,视频网站也会推荐类似的视频给用户看等等。这些背后蕴藏的都是数据挖掘。推荐系统常见的有基于内容的方法(Content based)以及协同过滤(Collaborative filtering)方法。最近几天我在和licstar做KDD Cup以及国内的第一届数据挖掘大赛。两个比赛重叠,加上自己的很多其他事情,确实有一些忙不过来。简单的说KDD Cup主要是使用协同过滤,而国内赛的问题比较特殊,数据量也太有限,我也搞不清楚算什么方法,基本是乱搞吧……
协同过滤方法中,要注重用户的活跃度,之前在大牛的blog上看到这一点,实际应用到我们KDD Cup的算法中,确实有所改进。看来实际经验非常的重要,计算效果好才是硬道理。最近对KDD Cup的改进中,这个应该算是有效而且很重要的一个。
以前Netflix大赛中自动化所的一位师兄获得了第二名,前几天他请了我和licstar吃饭,实在非常荣幸。他已经博三,签了hulu公司。我过去对这块了解的太少,从未听说过这些公司,很惭愧。也许今后有机会更多的接触这块领域。
目前我和licstar对这两个比赛的期待是KDD Cup进入前三,国内赛进入前八。如今KDD Cup已经跌到第四名,不知能否如愿。

本文来自Dora Blog,题目为数据挖掘与推荐系统,转载请注明出处。
如果你喜欢我的博客,请订阅本博客的RSS以更方便的阅读
欢迎关注我的新浪微博:http://weibo.com/diaorui1987