您当前的位置:首页 > 文章摘抄 > 正文

机器学习属于数据挖掘吗 机器学习和数据挖掘的关系

机器学习属于数据挖掘吗 机器学习和数据挖掘的关系

在开篇之前,我想和大家谈谈机器学习和数据挖掘的关系。

数据挖掘只是机器学习涉及的领域之一,机器学习包括模式识别、计算机视觉、语音识别、统计学习和自然语言处理。

机器学习,即ML,是一门涉及概率论、统计学、逼近论、凸分析、算法复杂性理论等诸多学科的交叉学科。本文研究的是专门的计算机如何模拟或实现人类的学习行为,从而获得新的知识或技能,并重组已有的知识结构,以不断提高自身的性能。

机器学习作为人工智能研究中一个相对年轻的分支,可以分为有监督学习和无监督学习。同时,随着人工智能越来越被重视,越来越热,深度学习也是机器学习的一个新领域。

机器学习,从知识列表开始

当我们第一天学开车时,我们赢了直接上路,但是我们想让你先学习基础知识,然后模拟上车。

只有拥有了全面的知识,才能保证在以后的工作中即使遇到问题,也能快速定位问题,然后想办法处理和解决问题。

所以我做了一个关于机器学习入门的知识清单,即机器学习的一般流程、十大算法和算法学习的三重境界,以此开始我们的学习之旅。

一、机器学习的基本过程

引用大佬们的解释:

如果一个计算机程序在某项任务T和某项性能指标P上的性能(由P来衡量)随着经验E的增加而提高,那么就说它从经验E中学习了

简单来说,机器学习就是利用我们针对真实问题输入的数据来训练算法。训练结束后,算法会生成一个模型,这个模型是通过数据捕捉的规律对当前问题的描述。然后我们会进一步把模型导入到数据中,或者引入新的数据集进行评估,然后根据结果的质量来调整算法,形成一个反馈和优化的闭环。整个过程机器都在不断学习、训练、优化迭代,这也是机器学习强大的地方。

二、机器学习的十大算法

为了执行机器学习和数据挖掘任务,数据科学家提出了各种模型。在众多的数据挖掘模型中,国际权威学术组织ICDM(IEEE国际数据挖掘会议)评选出了十大经典算法。

根据不同的目的,我可以把这些算法分为四类,让你更好的理解。

分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART

聚类算法:K均值,EM

联想:先验

分析:PageRank

1.C4.5

C4.5算法是票数最高的算法,可以说是十大算法之首。C4.5是决策树的算法,创造性地在构造过程中对树进行修剪,既可以处理连续属性,也可以处理不完整数据。可以说是决策树分类中具有里程碑意义的算法。

2.朴素贝叶斯

朴素模型是基于概率论的原理,其思想是:对给定的未知物体进行分类,需要求解未知物体出现的条件下每个类别的概率,哪个最大,就认为未知物体属于哪个类别。

3.SVM

SVM中文叫支持向量机,英文叫支持向量机,简称SVM。在SVM训练中建立超平面分类模型。

4.KNN

KNN也叫K近邻算法,英文名是K-Nearest neighborhood。所谓K近邻,就是每个样本都可以用它最近的K个邻居来表示。如果一个样本,它的k个最近邻都属于A类,那么这个样本也属于A类

5.adaboost算法

Adaboost在训练中建立了联合分类模型。Boost在英语中是提升的意思,所以Adaboost是一种提升算法,用来构建分类器。可以让我们的弱分类器形成强分类器,所以Adaboost也是一种常用的分类算法。

6.手推车

CART代表分类和回归树,英文名是classification and regression trees。和英语一样,它构建了两棵树:一棵是分类树,一棵是回归树。和C4.5一样,是决策树学习方法。

7.推测的

Apriori是一种挖掘关联规则的算法,通过挖掘频繁项目集来揭示项目之间的关系,广泛应用于商业挖掘和网络安全领域。频繁项目集是指经常一起出现的项目的集合,关联规则暗示这两个项目之间可能存在很强的关系。

8.k均值

k均值算法是一种聚类算法。你可以这样理解。最后,我想把对象分成K类。假设在每个类别中,都有一个中心点,即意见领袖,这是这一类的核心。现在我有了一个新的分类点。这个时候我只需要计算这个新点和K个中心点的距离,它靠近哪个中心点就会变成哪个类别。

9.东地中海(Eastern Mediterranean)

EM算法,也叫最大期望算法,是一种参数的极大似然估计方法。原理如下:假设我们要估计参数A和参数B,这两个参数一开始都是未知的,知道了A的信息就可以得到B的信息,然后知道了B的信息就可以得到B的信息,你可以考虑给A一个初值得到B的估计,然后从B的估计重新估计A的值,这个过程一直持续到收敛。

EM算法常用于聚类和机器学习。

10.PageRank

PageRank起源于一篇论文影响力的计算方式。一个文学理论被介绍的次数越多,说明这篇论文的影响力越强。同样,PageRank也被Google创造性地应用到网页权重的计算中:当一个页面链接出更多的页面,就意味着有更多参考文献当这个页面被更频繁地链接时,就意味着这个页面被引用的频率更高。基于这个原理,我们可以得到网站的权重划分。

算法可以说是机器学习的灵魂,也是最本质的部分。这10个经典算法在整个机器学习领域的票数最高,后面的其他一些算法基本都是在这个基础上改进和创新的。今天,你初步了解了十大算法。你只需要意识到它们。

三、机器学习的三个领域

1.掌握算法的入口和出口

第一种境界是把算法本身做成黑盒,在不知道算法具体原理的情况下,掌握算法的基本应用场景(有监督和无监督),通过换包来实现算法。

2.了解原理,灵活调音。

第二个层次是能够深入理解和掌握算法的原理,并在此基础上了解算法实践过程中的关键技术和核心参数。最好是用编程语言手动实现算法,能够解释算法的执行结果,在理解原理的基础上通过调整参数来优化算法。

3.整合和设计算法。

最后一个境界其实是算法的主要任务(R & ampd)工程师,即要能够结合业务场景和自身的数学基础进行有针对性的算法研发。这部分工作不仅需要扎实的算法基本原理知识,还需要扎实的编程能力。

摘要

今天我把学习机器学习需要掌握的知识列了一个清单。只有对机器学习的过程、算法、原理有了更深入的了解,才能在实际工作中更好的运用。祝你在机器学习的道路上越走越远。

编辑:李倩

标签:算法机器原理


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 驱动器多少钱一个(去买个笔记本电脑的鼠标和光盘驱动器要多少钱)

下一篇: 微信如何快速查语音聊天记录,手机怎样找到微信语音聊天记录--图文教程(微信又出新功能)



推荐阅读