常见机器学习算法总结

机器学习算法主要分为以下2种:有监督与无监督。

再细分可分为四种:分类,聚类,回归,关联四大类算法。

分类与回归属于有监督学习。

聚类与关联属于无监督学习。



分类算法主要有KNN,决策树,朴素贝叶斯,SVM,逻辑回归,Adaboost算法。

        KNN算法:基于距离进行分类,选取前K个最相似的样本,看这K个样本中,那个类别多,则预测结果就是哪一类样本。

        决策树:ID3:根据信息增益大小来生成决策树。不能处理数值型

                       C4.5:根据信息增益率来生成决策树。能处理连续型和数值型。

        朴素贝叶斯:条件概率,全概率,贝叶斯公式。

        SVM:支持向量机。找到最大的最小距离。使用拉格朗日乘子法和对偶问题求解拉格朗日系数,得到权重。

        逻辑回归LR:使用梯队下降和随机梯度下降法来求解系数。

        Adaboost算法:训练不同分类器,并逐步增加未正确分类样本的权重。


聚类算法有:K均值,基于距离的聚类,基于密度的聚类,基于层次的聚类,基于划分的聚类,基于网格的聚类,基于模型的聚类。

                        K均值:根据距离来进行距离的典型。


回归算法:线性回归,CART树。

                    线性回归:线性模型, 局部加权线性回归, 岭回归(LASSO与前向逐步回归)。

                    CART树(GBDT树):回归树,模型树。


关联规则算法有:apriori算法,FP树。




其他的一些工具有PCA , SVD等算法。

                 PCA:减去平均值,计算协方差矩阵C,再计算协方差矩阵C的特征值与特征向量,取前面N个教大的特征值,并根据特征向量将数据映射到新的空间中。

                SVD:svd常用于信息检索的隐性语义索引LSI和隐形语义分析。奇异值代表了文档的概念或者主题。

相关文章
相关标签/搜索