scikit-learn机器学习读书笔记

现在开始看这本书了,平时记录下都看了哪些内容,方便最后做总结。

从20190520开始看这本书,随时记录其中看的一些好的内容,方便后续快速回顾

P5 五折交叉验证的图片展示,这种模型的评价/测试方法从来没有用过

P17 残差平方和RSS做代价函数

P20 R方的评价方法,用来评价回归模型,简单线性回归模型中,R方等于皮尔森积差相关系数(PPMCC)的平方

P28 LabelBinarizer类实现从标签到独热码的转换

P33 衡量回归任务性能的指标:平均绝对误差(MAE)和均方误差(MSE)

P38 prepocessing模块中的scale函数单独对数据集中的任何轴进行标准化

20190521

p39 词汇模型分为词袋模型和词嵌入模型,词袋模型就是简单的根据词汇进行one-hot编码 CountVectorizer可以实现这一功能

p41 使用euclidean_distance可以计算欧几里得距离
p42 使用stopwords 停用词可以降低词汇的维度
P44 使用NLTK可以进行 词干提取和词性还原,如将不同形态的动词还原到动词原形
P46 考虑词汇出现的频度,使用TfidfTransformer可以创建tf-idf权重特征向量
P48 哈希技巧,似乎是因为需要遍历两次语料库,哈希技巧可以解决这个问题
P50 使用词向量word2vec模型,加载方法
P58-P65 第五章,讲述了多元回归与多项式回归
P66 正则化,给出了公式,scikit-learn也提供一种实现,但是没有看到代码
P67 提到加州大学机器学习库 https://archive.ics.uci.edu/ml/datasets/Wine

P71 cross_val_score可以轻松实现5折交叉验证
P72 讲述了使用梯度下降方法的原因:维度过大,计算复杂;对梯度下降进行了简单推导;有SGDRegreesor实现
P79 讲解了使用逻辑回归的垃圾邮件识别,使用UCI机器学习中的数据集
P81-P86 给出了二元分类的模型评价方法,如精准率,召回率,F1,ROC AUC
P87 给出了网格搜索微调模型,有GridSearchCV实现,值得看看
P89-P97 提到了多分类问题,使用kaggle的电影评价数据做示例,在scikit-learn中调用了多种包,如train_test_split用来分割训练、测试集,classification_report,accuracy_score,confusion_matrix可以用来方便地对模型进行评价;同时,多分类问题可以针对单个类别计算recall,F1,等等

提到了多标签问题,即给一个数据打多个标签,还有对应的模型评价方法汉明损失、杰卡德相似系数

0%