数据挖掘导论
课程情况
- 这门课程原本是蔡登教授开课的,上课内容会详细推导经典的统计学习模型,作业也是实现这些算法,最后还有期末理论考试,应该说非常硬核,今年换成了李石坚教授开课,课程内容和作业发生了比较大的变化,期末考试也取消了,改成了一个project
- 新版的数据挖掘导论上课基本都在讲数据挖掘的pipeline,从数据清洗,预处理,可视化分析开始讲到机器学习模型和实际应用
- 没有考试,一共有4个homework+1个project,分别占总成绩40%和60%,具体的内容有:
- homework1:自己选择一个数据集进行预处理和可视化分析
- homework2:自己选择数据集实现一个分类算法
- homework3:在给定的数据集上实现频繁模式挖掘算法
- homework4:阅读一篇数据挖掘领域的论文,完成阅读报告+展示PPT
实际体验
- 总的来说上课比较水,几乎没什么人去上课(五六十个人的班级上课一般都只有十个人,到课率仅高于BS体系软件设计)
- 作业量比较大,有几个作业的DDL间隔比较短,但是给分不错,需要在学在浙大上互评(分数占比每次平时作业的40%,大作业5%),不过也没碰到阴间互评人
相关资源和建议
- 相关内容建议直接自学,或者看看Stanford的公开课CS246,感觉里面讲的东西更硬核,作业也比较有意思,当然我没有学完
- 可以参考胡神放出的图灵班机器学习课程资源https://www.cc98.org/topic/5021996 本来是抱着学点硬核的东西的目的来的,结果碰上课程改革想学的东西取消了,下面是我自己整理的一份机器学习算法推导的笔记,供大家参考。