数据挖掘-文章 - 天善智能-商业智能和大数据在线社区，用心创造价值

2

推荐

1997

阅读

【中文分词】二阶隐马尔可夫模型2-HMM

在前一篇中介绍了用HMM做中文分词，对于未登录词（out-of-vocabulary, OOV）有良好的识别效果，但是缺点也十分明显——对于词典中的（in-vocabulary, IV）词却...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-29 11:01 评论(0)

0

推荐

4111

阅读

异常值（离群值）的识别与侦测

本章离群点侦测主要内容：通过boxplot()绘制箱图识别异常点;LOF局部离群点因子检测;运用qcc包绘制质量控制图;聚类分析;异常点概述在数据分析领...

余文华发布于乐享数据DataScientists的博客专栏 • 2017-03-28 15:36 评论(0)

0

推荐

1522

阅读

【十大经典数据挖掘算法】CART

1. 前言分类与回归树（Classification and Regression Trees, CART）是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出，...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-28 09:32 评论(0)

0

推荐

1718

阅读

【十大经典数据挖掘算法】Naïve Bayes

朴素贝叶斯（Naïve Bayes）属于监督学习的生成模型，实现简单，没有迭代，学习效率高，在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立，在输...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-28 09:25 评论(0)

0

推荐

1483

阅读

【十大经典数据挖掘算法】kNN

1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 ...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-27 15:48 评论(1)

1

推荐

1597

阅读

【十大经典数据挖掘算法】AdaBoost

1. 集成学习集成学习（ensemble learning）通过组合多个基分类器（base classifier）来完成学习任务，颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-27 14:03 评论(0)

0

推荐

1581

阅读

【十大经典数据挖掘算法】PageRank

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇，是因为本人是Google脑残粉。因了PageRank而Google得以成立，因了Google而这个世界变得好了那么...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-27 12:19 评论(0)

0

推荐

1824

阅读

点击流数据中非结构化数据的挖掘（一）——文本

非结构化数据是大数据数据多样化的的一个特点，而点击流中的数据是多样化数据的一部分。依托强大的网站分析工具，可以得到最细粒度的原始数据（Raw Data），...

宋天龙发布于宋天龙的博客专栏 • 2017-03-27 11:31 评论(0)

0

推荐

2533

阅读

谈谈特征选择及基于scikit-learn的示例

特征选择方法有多种，主要包括以下几种...

深度学习发布于陈福强的博客专栏 • 2017-03-24 14:40 评论(0)

1

推荐

1569

阅读

【十大经典数据挖掘算法】EM

1. 极大似然极大似然（Maximum Likelihood）估计为用于已知模型的参数估计的统计学方法。比如，我们想了解抛硬币是正面（head）的概率分布θ；那么可以通过最...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-24 13:28 评论(0)

0

推荐

2219

阅读

【十大经典数据挖掘算法】Apriori

1. 关联分析关联分析是一类非常有用的数据挖掘方法，能从数据中挖掘出潜在的关联关系。比如，在著名的购物篮事务（market basket transactions）问题中，关联...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-24 13:19 评论(0)

1

推荐

1744

阅读

快讯 | 2月份R重点新包选摘

2017年2月份约有145个新包在R-CRAN正式发布。本文共列举了五个类别共计22个R包，包括生物统计、数据、数据科学、统计学和工具类。希望有助于大家的学...

R语言中文社区发布于 R语言中文社区 • 2017-03-24 09:24 评论(0)

0

推荐

1637

阅读

【十大经典数据挖掘算法】SVM

SVM（Support Vector Machines）是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述，本文仅做整理。由简至繁SVM可...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-23 15:10 评论(0)

0

推荐

1325

阅读

一些算法的总结

算法目的：分类、预测算法分类：监督型、非监督型算法的核心：你有什么数据、你要解决什么问题01|线性回归：1、什么是回归回归，指研究一组随机变量(Y1 ，Y2 ...

张俊红发布于张俊红的博客专栏 • 2017-03-23 11:26 评论(0)

2

推荐