众所周知,PCA 的主要目的是降维,同时也可以起到分类的作用。当数据维度很大的时候,如果相信大部分变量之间存在线性关系,那么我们就希望降低维数,用较少...
2.1.1 停用词具体请看Python做文本挖掘的情感极性分析(基于情感词典的方法)(同1.1.4)2.1.2 正负向语料库来源于有关中文情感挖掘的酒店评论语料,http://w...
(这里是最终成品的 GitHub 地址)本文拟通过使用 Tensorflow 实现一个朴素的线性支持向量机(LinearSVM)的形式来作为 Tensorflow 的“应用式入门...
时至今日,在各个编程语言的世界里、神经网络的成熟的库都可谓不在少数;这可能就导致有许多人虽然能够熟练应用神经网络、但对于其内部机制却不甚了解。事实...
最近学习了最优化理论,正好学到了机器学习中支持向量机(Support Vector Machine)和最大熵模型(Maximum Entropy Model)中用到的KKT条件(Karush–Kuhn–Tuc...
CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。本次总结主要从CTR的模型训练流程、CTR融合模型...
今年陆陆续续的也够在搞deep learning的项目,各种特征之间的“搞基”(俗称高级特征)。业务的应用也有不少,模型也天天在训练。有时间把看的不错的paper都分...
今年也过了一大半了,应该来说也是从数据分析转型做数据挖掘、机器学习的一年。其实数据挖掘、机器学习一直在接触,只是没有像今年这样面对这么大的数据量和...
“机器学习”在最近虽可能不至于到人尽皆知的程度、却也是非常火热的词汇。机器学习是英文单词“Machine Learning”(简称ML)的直译,从字面上便说明了这门技术...
朴素贝叶斯(Naive Bayes)是贝叶斯分类器的一种,而后者是一个相当宽泛的定义,它背后的数学理论根基是相当出名的贝叶斯决策论(Bayesian Decision Theory)...
贝叶斯决策论是在概率框架下进行决策的基本方法之一、更是统计模式识别的主要方法之一。从名字也许能看出来,贝叶斯决策论其实是贝叶斯统计学派进行决策的方...
无论是贝叶斯学派还是频率学派,一个无法避开的问题就是如何从已有的样本中获取信息并据此估计目标模型的参数。比较有名的“频率近似概率”其实就是(基于大数...
首先要叙述朴素贝叶斯算法的基本假设:独立性假设:假设单一样本、的 n 个维度彼此之间在各种意义上相互独立这当然是很强的假设,在现实任务中也大多无法满足...
(本文会用到的所有代码都在这里)对于我个人而言、光看这么一个框架是非常容易摸不着头脑的毕竟之前花了许多时间在数学部分讲的那些算法完全没有体现在这个...
本文主要介绍离散型朴素贝叶斯——MultinomialNB 的实现。对于离散型朴素贝叶斯模型的实现,由于核心算法都是在进行“计数”工作、所以问题的关键就转换为了如何...