本课程特点是从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。
1. 拒绝简单的“调包”——增加3次“机器学习的角度看数学”和3次“Python数据清洗和特征提取”,提升学习深度、降低学习坡度。
2. 增加网络爬虫的原理和编写,从获取数据开始,重视将实践问题转换成实际模型的能力,分享工作中的实际案例或Kaggle案例:广告销量分析、环境数据异常检测和分析、数字图像手写体识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。
3. 强化矩阵运算、概率论、数理统计的知识运用,掌握机器学习根本。
4. 阐述机器学习原理,提供配套源码和数据;确保“懂推导,会实现”。
5. 删去过于晦涩的公式推导,代之以直观解释,增强感性理解。
6. 重视项目实践(如工业实践、Kaggle等),重视落地。
7. 对比不同的特征选择带来的预测效果差异。
8. 思考不同算法之间的区别和联系,提高在实际工作中选择算法的能力。
9. 涉及和讲解的部分Python库有:Numpy/Scipy/matplotlib/Pandas/scikit-learn/XGBoost/libSVM/LDA/Gensim/NLTK/HMMLearn,涉及的其他“小”库在课程的实践环节会逐一讲解。
10. 每个算法模块按照“原理讲解->自己动手实现->使用已有机器学习库”的顺序,切实做到“顶天立地”。