K-Means聚类算法的目标是找到一个由k个聚类中心构成的集合,使得所有样本点到距其最近的聚类中心之间的距离之和最小。为避免引起歧义,这里解释一下,目标函...
正则化方法 (Regularization) 是机器学习领域中一种非常重要的技巧,它主要用来对权重系数加以约束限制,进而防止过拟合。数学上来讲,正则化即为在目标函数...
这次聊聊线性模型中的group lasso (lasso即为将模型中权重系数的一阶范数惩罚项加到目标函数中)惩罚项。假设Y是由N个样本的观测值构成的向量,X是一个大小...
机器学习中对目标函数进行优化时,通常需要一些优化算法。其中比较常用的算法都是基于梯度下降法或牛顿法或者相关变形算法。首先来看下梯度下降过程中每次迭...
NIPS 是机器学习领域的顶级会议之一,类似等级的顶级会议还有CVPR, ICCV, ICML, CIKM,IJCAI等。本次摘读论文题目是:Swapout: Learning an ensemble of deep...
逻辑回归是一种应用非常广泛的分类算法,同时也广泛地用于排序场景。如果样本集是线性可分的,逻辑回归是一个效果比较好的分类器。对于非线性特征,可以通过...
紧接上文,本文谈谈随机森林。随机森林是由多个决策树集成得到的。它是一种比较成功地机器学习算法,不仅可以用于分类问题,也可以用于回归问题。随机森林通...
GBDT是推荐系统中应用非常广泛的算法。GBDT 是由决策树集成而来的,这种算法不断地迭代式训练决策树算法,目标是最小化损失函数。跟决策树类似,GBDT能够捕捉...
本文谈谈实矩阵的奇异值分解(Singular Value Decomposition)。首先提个简单的问题,什么是奇异值呢? 对于一个方阵或一般矩阵 A ,如果非负标量 σ 和非零向...
本文是机器学习领域顶级会议 NIPS 2016 所接收的论文中深度学习相关的一篇论文。这篇论文的作者来自美国的南卡莱罗纳大学 (https://cse.sc.edu/~mengz/paper...
协同过滤是一种通过分析用户的历史数据来建立用户和商品之间联系的方法。协同过滤中两种比较成功的方法是隐含因子模型和近邻模型,其中SVD是隐含因子模型的代...
本篇是集成方法系列(1)---bagging方法。首先简单介绍下scikit-learn,这是一个用python实现的机器学习库。它的特点如下:简单高效,可以用于数据挖掘和数据...
进入正题之前,首先来看几个问题1. 垃圾邮件判定问题如何判断这封邮件是不是垃圾邮件呢?2. 作品所属人问题• 1787到1788年: 有多篇匿名短文试图让美国宪法批...
机器学习中有一种特殊的类型,即迁移学习。简单来讲,将先前领域或任务中学到的知识或技能应用到新的领域或任务中,即为迁移学习。当然,要想迁移,需要保证...
sklearn.ensemble 模块包含了两种基于随机决策树的平均值算法:随机森林算法和Extra-Trees算法。两种算法都对树采用了打乱再组合(perturb-and-combine)技巧...