HDOJ的提交记录抓取与初步分析

突然萌生一个有意思的想法,如果抓取一个Online Judge的全部提交记录,是不是能从中分析出什么有用的信息。我昨天开始抓取HDOJ(http://acm.hdu.edu.cn)的所有提交记录,挂了一个晚上,截至今天下午终于抓完了HDOJ从第一个提交到昨天下午1点多的所有提交记录。共计4131493条,抓取并格式化存储花了大约十几个小时。

Continue reading »