数据挖掘

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程

2
推荐
1946
阅读

【中文分词】二阶隐马尔可夫模型2-HMM

在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却...
0
推荐
4061
阅读

异常值(离群值)的识别与侦测

本章离群点侦测主要内容:通过boxplot()绘制箱图识别异常点;LOF局部离群点因子检测;运用qcc包绘制质量控制图;聚类分析;异常点概述    在数据分析领...
0
推荐
1492
阅读

【十大经典数据挖掘算法】CART

1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,...
0
推荐
1687
阅读

【十大经典数据挖掘算法】Naïve Bayes

朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输...
0
推荐
1452
阅读

【十大经典数据挖掘算法】kNN

1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 ...
1
推荐
1565
阅读

【十大经典数据挖掘算法】AdaBoost

 1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一...
0
推荐
1544
阅读

【十大经典数据挖掘算法】PageRank

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么...
0
推荐
1794
阅读

点击流数据中非结构化数据的挖掘(一)——文本

非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分。依托强大的网站分析工具,可以得到最细粒度的原始数据(Raw Data),...
0
推荐
2496
阅读

谈谈特征选择及基于scikit-learn的示例

                               特征选择方法有多种,主要包括以下几种...
1
推荐
1535
阅读

【十大经典数据挖掘算法】EM

1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布θ;那么可以通过最...
0
推荐
2174
阅读

【十大经典数据挖掘算法】Apriori

1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,关联...
1
推荐
1724
阅读

快讯 | 2月份R重点新包选摘

  2017年2月份约有145个新包在R-CRAN正式发布。本文共列举了五个类别共计22个R包,包括生物统计、数据、数据科学、统计学和工具类。希望有助于大家的学...
0
推荐
1611
阅读

【十大经典数据挖掘算法】SVM

SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可...
0
推荐
1275
阅读

一些算法的总结

算法目的:分类、预测算法分类:监督型、非监督型算法的核心:你有什么数据、你要解决什么问题01|线性回归:1、什么是回归回归,指研究一组随机变量(Y1 ,Y2 ...
2
推荐
1456
阅读

【十大经典数据挖掘算法】k-means

1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来...

1878 人关注

最佳回复者

改版

反馈