在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却...
本章离群点侦测主要内容:通过boxplot()绘制箱图识别异常点;LOF局部离群点因子检测;运用qcc包绘制质量控制图;聚类分析;异常点概述 在数据分析领...
1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,...
朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输...
1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 ...
1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一...
我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么...
非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分。依托强大的网站分析工具,可以得到最细粒度的原始数据(Raw Data),...
1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布θ;那么可以通过最...
1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,关联...
2017年2月份约有145个新包在R-CRAN正式发布。本文共列举了五个类别共计22个R包,包括生物统计、数据、数据科学、统计学和工具类。希望有助于大家的学...
SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可...
算法目的:分类、预测算法分类:监督型、非监督型算法的核心:你有什么数据、你要解决什么问题01|线性回归:1、什么是回归回归,指研究一组随机变量(Y1 ,Y2 ...
1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来...