赛题
myCodes & Baseline after comments
背景
数据
sample_submit.csv
:提交样例文件,对应50000个用户对5个文件的点击数预测train_click_log.csv
:训练集用户点击日志testA_click_log.csv
:测试集用户点击日志articles.csv
:新闻文章信息数据表articles_emb.csv
:新闻文章embedding向量表示指标
MRR(Mean Reciprocal Rank),关注top5的预测结果。其中越前面的匹配上了就得分越高(具体可以看下baseline代码里面的讲解
trick
reduce_mem节省内存,就是尽量降低数据精度
questions
- 如果是为了获取线上提交结果应该讲测试集中的点击数据合并到总的数据中
没懂这是什么意思