文前说明本文是最近学习正则化的网络资源的总结,主要是总结和方便个人学习。模型的变量选择在变量选择方面有三种扩展的方法:子集选择:这是传统的方法,包...
在数据分类及预测困扰我们的是数据不均衡,0,1比例相差过于悬殊,导致分类精度大大降低针对这种情况:数据层面一般采用上采样SMOTE,下采样; ...
协同过滤是一种通过分析用户的历史数据来建立用户和商品之间联系的方法。协同过滤中两种比较成功的方法是隐含因子模型和近邻模型,其中SVD是隐含因子模型的代...
本篇是集成方法系列(1)---bagging方法。首先简单介绍下scikit-learn,这是一个用python实现的机器学习库。它的特点如下:简单高效,可以用于数据挖掘和数据...
进入正题之前,首先来看几个问题1. 垃圾邮件判定问题如何判断这封邮件是不是垃圾邮件呢?2. 作品所属人问题• 1787到1788年: 有多篇匿名短文试图让美国宪法批...
Dear 天善智能伙伴们真心感谢你的支持,让天善智能走到如今。天善智能致力于构建一个基于大数据领域的生态圈,通过社区链接一切与数据相关的资源,与大家一起...
机器学习中有一种特殊的类型,即迁移学习。简单来讲,将先前领域或任务中学到的知识或技能应用到新的领域或任务中,即为迁移学习。当然,要想迁移,需要保证...
sklearn.ensemble 模块包含了两种基于随机决策树的平均值算法:随机森林算法和Extra-Trees算法。两种算法都对树采用了打乱再组合(perturb-and-combine)技巧...
数据预处理或称特征预处理,在机器学习中非常重要。本文聊聊几种常用的特征预处理方法。标准化这种方法即为对于某个特征来说,减去其均值并且除以相应的方差...
本章离群点侦测主要内容:通过boxplot()绘制箱图识别异常点;LOF局部离群点因子检测;运用qcc包绘制质量控制图;聚类分析;异常点概述 在数据分析领...
进入正题之前,先来看看Stanford 教授D. Koller的research interests:OK,进入正题,本篇聊聊级联分类模型(Cascaded Classification Models)。该模型是斯...
特征选择有很多方法,其中一种是基于互信息的。那么什么是互信息呢?变量x与变量y之间的互信息,可以用来衡量已知变量x时变量y的不确定性减少的程度,同样的...
之前与大家分享过 28 份经典的速查表,内容涵盖机器学习、数据科学、概率论、SQL 以及大数据工具(文末有传送门),今天为大家补充两份 Python 速查表。...
上一期为大家介绍了 Kaggle 的经典入门案例——泰坦尼克号(Titanic)幸存者预测,今天就为大家带来一个参考的解决方案,是 Kaggle 参赛者 Omar El Gabry ...
计算广告领域中一个比较重要的部分就是数据管理平台,目前比较流行的一个子问题是受众人群扩展或称look-alike modeling。本篇分享的主要是受众扩展相关的pape...