当前位置: 三叉神经病专科治疗医院 >> 三叉神经病症状 >> 机器学习算法可以分为三个大类监督学习
机器学习算法可以分为三个大类:监督学习、无监督学习、强化学习和半监督学习。其中:
监督学习对于有标签的特定数据集(训练集)是非常有效的,但是它需要对于其他的距离进行预测;(所有训练数据都有标签)
无监督学习对于在给定未标记的数据集(目标没有提前指定)上发现潜在关系是非常有用的;(无标签)
半监督学习是介于监督学习和非监督学习之间,即数据一部分有标签,一部分没有标签,算法一半是需要考虑利用少量的标注样本和大量的非标注样本来完成训练、回归或分类。常用算法包括自训练(Self-training)、直推学(TransductiveLearning)、生成式模型(GenerativeModel)。
强化学习针对每次预测步骤(或行动)会有某种形式的反馈,但是没有明确的标记或者错误信息。简而言之,若强化学习中的某一动作得到的反馈值为正,那么此后该动作的趋势将会得到增强,反之则减弱。
本文主要介绍监督学习和无监督学习的10种算法:
1、决策树(DecisionTrees)算法
决策树是一个决策辅助工具,它使用树形图或决策模型,预测序列的可能性分类,包括各种偶然事件的后果、资源成本、功效。下图展示的是决策树的算法原理:
通俗来讲,决策树就是通过一个个不间断的条件判断,最后来实现对原有数据的归类。
相比于另外两种广泛使用的分类算法:朴素贝叶斯分类、贝叶斯网络而言,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。决策树能让你以一个结构化的和系统化的方式来处理这个问题,然后得出一个合乎逻辑的结论。
2、朴素贝叶斯分类(NaiveBayesianclassification)
朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。朴素贝叶斯分类也就是简单贝叶斯分类。
举个例子,医生对病人进行诊断就是一个典型的贝叶斯分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
此分类的基础是贝叶斯定理,贝叶斯定理在现实生活中是被广泛使用的。我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A
B),P(B
A)则很难直接得出,但我们更关心P(B
A),贝叶斯定理就为我们打通从P(A
B)获得P(B
A)的道路。下面不加证明地直接给出贝叶斯定理:
3、最小二乘法(OrdinaryLeastSquaresRegression)
最小二乘法的原理是这样的,画一条线,然后为每个数据点测量点与线之间的垂直距离,并将这些全部相加,然后再画一条线,计算点到该线的垂直距离和,比较两个距离和的大小,取较小者;反复计算,直到最终得到的拟合线将在这个相加的总距离上尽可能最小。
4、逻辑回归(LogisticRegression)
逻辑回归是一种强大的统计方法,它能建模出一个二项结果与一个(或多个)解释变量。它通过估算使用逻辑运算的概率,测量分类依赖变量和一个(或多个)独立的变量之间的关系,这是累积的逻辑分布情况。
总的来说,逻辑回归可以用于以下几个真实应用场景:信用评分、测量营销活动的成功率、预测某一产品的收入、特定某一天是否会发生地震。
5、支持向量机(SupportVectorMachine)
SVM(SupportVectorMachine)是二元分类算法。给定一组2种类型的N维的地方点,SVM(SupportVectorMachine)产生一个(N-1)维超平面到这些点分成2组。假设有2种类型的点,且它们是线性可分的。SVM(SupportVectorMachine)将找到一条直线将这些点分成2种类型,并且这条直线会尽可能地远离所有的点。
在规模方面,目前最大的使用支持向量机SVM(SupportVectorMachine)(在适当修改的情况下)的问题是显示广告,人类剪接位点识别,基于图像的性别检测,大规模的图像分类等。
6、组合方法(Ensemblemethods):
组合方法是学习算法,它构建一系列分类,然后通过采取加权投票预测的方式来对新的数据点进行分类。原始的集成方法是贝叶斯平均法,但最近的算法包括对其纠错输出编码、套袋、加速等。
那么组合方法如何运行的呢?为什么说它们比其他的模型要优秀?因为:
(a)它们将偏差平均了:如果你将民主党派的民意调查和共和党的民意调查发在一起平均化,那么你将得到一个均衡的结果,且不偏向任何一方。
(b)它们减少了差异:一堆模型的总结意见没有一个模型的单一意见那么嘈杂。在金融领域,这就是所谓的多元化—有许多股票组合比一个单独的股票的不确定性更少,这也为什么你的模型在数据多的情况下会更好的原因。
(c)它们不太可能过度拟合:如果你有没有过度拟合的独立模型,你通过一个简单的方式(平均,加权平均,逻辑回归)对每个独立模型的预测进行结合,这样的话不太可能会出现过度拟合的情况。
7、聚类算法(ClusteringAlgorithms):
聚类是一种聚集对象的任务,例如:相比其他不同的组在同一组(集群)的对象彼此更为相似。每个聚类算法都是不同的,比如说有以下几种:
基于质心的算法
基于连接的算法
基于密度的算法
可能性
维度缩减
神经网络/深度学习
8、主成分分析(PrincipalComponentAnalysis,PCA)
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
一些主成分分析PCA程序的应用包括压缩、简化数据、可视化。注意,对于选择是否使用主成分分析领域知识是非常重要的。当数据是嘈杂的时候(所有的组件的主成分分析有相当高的方差),它是不适合的。
9、奇异值分解(SingularValueDe北京白癜风治疗去那家医院治疗白癜风医院哪家好
转载请注明:http://www.bokkc.com//mjccby/6829.html