机器学习

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

0
推荐
5271
阅读

正则化及其R实现

文前说明本文是最近学习正则化的网络资源的总结,主要是总结和方便个人学习。模型的变量选择在变量选择方面有三种扩展的方法:子集选择:这是传统的方法,包...
0
推荐
765
阅读

机器学习中不平衡数据的处理方法

在数据分类及预测困扰我们的是数据不均衡,0,1比例相差过于悬殊,导致分类精度大大降低针对这种情况:数据层面一般采用上采样SMOTE,下采样;    ...
0
推荐
3622
阅读

谈谈 SVD++ 和 概率矩阵分解

协同过滤是一种通过分析用户的历史数据来建立用户和商品之间联系的方法。协同过滤中两种比较成功的方法是隐含因子模型和近邻模型,其中SVD是隐含因子模型的代...
0
推荐
2699
阅读

集成方法系列--bagging及基于scikit-learn的示例

本篇是集成方法系列(1)---bagging方法。首先简单介绍下scikit-learn,这是一个用python实现的机器学习库。它的特点如下:简单高效,可以用于数据挖掘和数据...
0
推荐
1962
阅读

文本分类与朴素贝叶斯

进入正题之前,首先来看几个问题1. 垃圾邮件判定问题如何判断这封邮件是不是垃圾邮件呢?2. 作品所属人问题• 1787到1788年: 有多篇匿名短文试图让美国宪法批...
2
推荐
2973
阅读

数据科学 & 机器学习免费视频【6套】精华荟萃•天善智能

Dear 天善智能伙伴们真心感谢你的支持,让天善智能走到如今。天善智能致力于构建一个基于大数据领域的生态圈,通过社区链接一切与数据相关的资源,与大家一起...
0
推荐
4378
阅读

迁移学习系列---基于实例方法的迁移学习

机器学习中有一种特殊的类型,即迁移学习。简单来讲,将先前领域或任务中学到的知识或技能应用到新的领域或任务中,即为迁移学习。当然,要想迁移,需要保证...
0
推荐
1652
阅读

集成方法系列---Forests of randomized trees 以及基于scikit-learn的示例

sklearn.ensemble 模块包含了两种基于随机决策树的平均值算法:随机森林算法和Extra-Trees算法。两种算法都对树采用了打乱再组合(perturb-and-combine)技巧...
0
推荐
2276
阅读

谈谈数据预处理及scikit-learn示例

数据预处理或称特征预处理,在机器学习中非常重要。本文聊聊几种常用的特征预处理方法。标准化这种方法即为对于某个特征来说,减去其均值并且除以相应的方差...
0
推荐
4026
阅读

异常值(离群值)的识别与侦测

本章离群点侦测主要内容:通过boxplot()绘制箱图识别异常点;LOF局部离群点因子检测;运用qcc包绘制质量控制图;聚类分析;异常点概述    在数据分析领...
0
推荐
3381
阅读

聊聊级联分类模型

进入正题之前,先来看看Stanford 教授D. Koller的research interests:OK,进入正题,本篇聊聊级联分类模型(Cascaded Classification Models)。该模型是斯...
0
推荐
2046
阅读

浅析互信息与特征选择

特征选择有很多方法,其中一种是基于互信息的。那么什么是互信息呢?变量x与变量y之间的互信息,可以用来衡量已知变量x时变量y的不确定性减少的程度,同样的...
0
推荐
1654
阅读

干货 | Scikit-learn 和 Pandas 速查表

之前与大家分享过 28 份经典的速查表,内容涵盖机器学习、数据科学、概率论、SQL 以及大数据工具(文末有传送门),今天为大家补充两份 Python 速查表。...
0
推荐
1900
阅读

Titanic 幸存者预测分析案例(1)

上一期为大家介绍了 Kaggle 的经典入门案例——泰坦尼克号(Titanic)幸存者预测,今天就为大家带来一个参考的解决方案,是 Kaggle 参赛者 Omar El Gabry ...
0
推荐
3772
阅读

数据管理平台 受众扩展 look-alike model paper list

计算广告领域中一个比较重要的部分就是数据管理平台,目前比较流行的一个子问题是受众人群扩展或称look-alike modeling。本篇分享的主要是受众扩展相关的pape...

1588 人关注

最佳回复者

改版

反馈