PYTHON机器学习研究的主要任务

PYTHON机器学习研究的主要任务
研究机器学习,就是通过学习研究最终输出结果。蘑菇分类算法模型的最终输出结果被分成有毒的、没毒的两类,这便是分类算法在对算法进行研究的过程中,输入了大量的蘑菇数据,也输入了大量数据对应的标签,这种大量有标签对应的数据称为训练集。如果输入了一个新的蘑菇,通过模型算法得到最终结果,这个新的蘑菇就是测
试集。机器学习其实就是通过大量训练集的训练,最终得到测试集的结果预测。
机器学习一般分为监督学习和非监督学习。

根据已有的训练集,可知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练集中的数据既有特征 (feature) 又有标签 (label) 。通过训练机器可以自己找到特征和标签之间的联系,对只有特征没有标签的数据进行预测时,可以判断出标签
通俗一点儿讲,就是可利用标签和特征告知机器如何做事情。打个比方,交通规则中红灯对车的管控是停,绿灯对车的管控是行,绿灯和红灯可以被理解成灯的特征,停和行被理解成标签。如果一辆车遇到了绿灯,则得出的结论是行车。这种算法理解起来是比较容易的因为绿灯已经在训练集中出现了。如果在阴天里,绿灯的可视程度有所减弱,就需要一些近似于绿色的算法来完成对绿灯灯的辨识。这就算是监督学习。
监督学习一般用来解决分类和回归的问题。

用蘑菇分类算法预测新采的蘑菇是否有毒是一种分类问题。
对于回归问题,往往预测的结果都是数值,如预测公司未来一年的利润大概是多少,预测商品未来一个月的销量,等等。可以这样理解,分类问题的标签是不连续的,而回归问题的标签是连续的,训练集的数据多以连续型的数值为主,预测的结果也会以数值的方式进行展示。

总体来说,监督学习就是通过人为地输入带有标签的训练集数据,使计算机训练得到一个较为合适的模型,再对未知标签的数据进行预测。标签来自人为设定,输出的结果也属于训练集中标签的范围。

wechat

扫码咨询,领取88折扣