数据挖掘

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程

7
推荐
2566
阅读

Python数据挖掘实践—KNN分类

1、最邻近算法KNN方法的简单描述:KNN方法用于分类,其基本思想如下。我们已经有一些已知类型的数据,暂称其为训练集。当一个新数据(暂称其为测试集)进入的...
5
推荐
1603
阅读

从收入角度谈互联网行业流量数据分析

数据分析也是为了公司的发展,粗暴一点讲,是为了公司的盈利和持续的盈利。就从这个角度,来逐一分解,互联网行业中,哪些数据需要分析,怎样分析,分析的价...
0
推荐
1322
阅读

调研,那些大数据干不掉的小数据

调研就是大数据无法攻克的堡垒“我就是喜欢你很大,可是你干不掉我的样子”,调研问卷嗨森的对R,Python,hadoop,Spark一众人等做个鬼脸话说2017年是21世纪了...
2
推荐
1830
阅读

数说新年之:2亿集福,支付宝是亏了,还是赚了?

一、背景2017年春节临近,支付宝再次掀起全民集福热潮:2亿红包大奖,再次挑战全民热情。其实在胖子哥看来,这更像是一次数据营销盛宴:二、数据表现数据面前...
3
推荐
2748
阅读

SPSS分析技术:重复测量方差分析;市场调研及医学科研必不可少的数据分析技巧

基础准备方差分析已经介绍了很多,它们的基本原理都是通过比较不同因素引起的因变量数据变动(方差比较),从而确定因素和因素交互效应对因变量的影响是否显...
4
推荐
2121
阅读

【长篇慎入】量化交易让股市实现稳定收益

中国股市创立以来的二十多年间,股市从公开的投融资平台,变成了许多股民一夜暴富的梦境。股市沦为赌场,散户们被当作“韭菜”。抛开牛市的狂热和股灾的哀嚎,...
1
推荐
1620
阅读

R语言如何导入数据

1.使用键盘输入数据      在导入数据比较少的时候,我们使用这种方法。R中的函数 edit() 会自动调用一个允许手动输入数据的文本编辑器。具体...
2
推荐
2342
阅读

亚线性时间复杂度近似k-means++

K-Means聚类算法的目标是找到一个由k个聚类中心构成的集合,使得所有样本点到距其最近的聚类中心之间的距离之和最小。为避免引起歧义,这里解释一下,目标函...
0
推荐
2169
阅读

【模式匹配】Aho-Corasick自动机

1. 多模匹配AC自动机(Aho-Corasick Automaton)是多模匹配算法的一种。所谓多模匹配,是指在字符串匹配中,模式串有多个。前面所介绍的KMP、BM为单模匹配,...
0
推荐
1758
阅读

【模式匹配】更快的Boyer-Moore算法

1. 引言前一篇中介绍了字符串KMP算法,其利用失配时已匹配的字符信息,以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快...
0
推荐
1732
阅读

谷歌通用分析Universal Analytics代码部署

谷歌通用分析出来已经一段时间了,下面就常用的功能代码部署方面的技巧简单介绍下。通用代码部署通用代码部署只需要将一段这样的代码粘贴到HTML中即可,代码...
1
推荐
2548
阅读

R语言分析《釜山行》人物关系

《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取,使用R编写代码实现对《釜山行》文本的人物...
2
推荐
2048
阅读

【中文分词】最大熵马尔可夫模型MEMM

Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词;看原论文感觉作者更像用的...
0
推荐
1736
阅读

如何建立落地型数据分析(挖掘)流程?

数据工作者最长也是有效的一种工作方式是带项目,无论是数据分析还是专项挖掘,项目制能使数据尽量贴近业务并且有效理解业务和数据的各个维度。那么如何建立...
0
推荐
2330
阅读

谈谈数据预处理及scikit-learn示例

数据预处理或称特征预处理,在机器学习中非常重要。本文聊聊几种常用的特征预处理方法。标准化这种方法即为对于某个特征来说,减去其均值并且除以相应的方差...

1878 人关注

最佳回复者

改版

反馈