数据挖掘-文章 - 天善智能-商业智能和大数据在线社区，用心创造价值

7

推荐

2566

阅读

Python数据挖掘实践—KNN分类

1、最邻近算法KNN方法的简单描述：KNN方法用于分类，其基本思想如下。我们已经有一些已知类型的数据，暂称其为训练集。当一个新数据（暂称其为测试集）进入的...

watermelon 发布于 Python爬虫实战 • 2017-04-12 10:41 评论(0)

5

推荐

1603

阅读

从收入角度谈互联网行业流量数据分析

数据分析也是为了公司的发展，粗暴一点讲，是为了公司的盈利和持续的盈利。就从这个角度，来逐一分解，互联网行业中，哪些数据需要分析，怎样分析，分析的价...

黄成明发布于数据化管理黄成明博客专栏 • 2017-04-12 10:21 评论(0)

0

推荐

1322

阅读

调研，那些大数据干不掉的小数据

调研就是大数据无法攻克的堡垒“我就是喜欢你很大，可是你干不掉我的样子”，调研问卷嗨森的对R，Python，hadoop，Spark一众人等做个鬼脸话说2017年是21世纪了...

黄成明发布于数据化管理黄成明博客专栏 • 2017-04-12 10:16 评论(0)

2

推荐

1830

阅读

数说新年之：2亿集福，支付宝是亏了，还是赚了？

一、背景2017年春节临近，支付宝再次掀起全民集福热潮：2亿红包大奖，再次挑战全民热情。其实在胖子哥看来，这更像是一次数据营销盛宴：二、数据表现数据面前...

张子良发布于胖子哥的博客专栏 • 2017-04-11 09:15 评论(0)

3

推荐

2748

阅读

SPSS分析技术：重复测量方差分析；市场调研及医学科研必不可少的数据分析技巧

基础准备方差分析已经介绍了很多，它们的基本原理都是通过比较不同因素引起的因变量数据变动（方差比较），从而确定因素和因素交互效应对因变量的影响是否显...

老谢发布于生活统计学博客专栏 • 2017-04-08 11:09 评论(1)

4

推荐

2121

阅读

【长篇慎入】量化交易让股市实现稳定收益

中国股市创立以来的二十多年间，股市从公开的投融资平台，变成了许多股民一夜暴富的梦境。股市沦为赌场，散户们被当作“韭菜”。抛开牛市的狂热和股灾的哀嚎，...

挖地兔发布于挖地兔的博客专栏 • 2017-04-07 16:19 评论(0)

1

推荐

1620

阅读

R语言如何导入数据

1.使用键盘输入数据在导入数据比较少的时候，我们使用这种方法。R中的函数 edit() 会自动调用一个允许手动输入数据的文本编辑器。具体...

王亨发布于跟着菜鸟一起学R语言博客专栏 • 2017-04-06 13:45 评论(0)

2

推荐

2342

阅读

亚线性时间复杂度近似k-means++

K-Means聚类算法的目标是找到一个由k个聚类中心构成的集合，使得所有样本点到距其最近的聚类中心之间的距离之和最小。为避免引起歧义，这里解释一下，目标函...

深度学习发布于陈福强的博客专栏 • 2017-04-06 13:16 评论(0)

0

推荐

2169

阅读

【模式匹配】Aho-Corasick自动机

1. 多模匹配AC自动机（Aho-Corasick Automaton）是多模匹配算法的一种。所谓多模匹配，是指在字符串匹配中，模式串有多个。前面所介绍的KMP、BM为单模匹配，...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-05 10:25 评论(0)

0

推荐

1758

阅读

【模式匹配】更快的Boyer-Moore算法

1. 引言前一篇中介绍了字符串KMP算法，其利用失配时已匹配的字符信息，以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-05 10:15 评论(0)

0

推荐

1732

阅读

谷歌通用分析Universal Analytics代码部署

谷歌通用分析出来已经一段时间了，下面就常用的功能代码部署方面的技巧简单介绍下。通用代码部署通用代码部署只需要将一段这样的代码粘贴到HTML中即可，代码...

宋天龙发布于宋天龙的博客专栏 • 2017-03-31 11:21 评论(0)

1

推荐

2548

阅读

R语言分析《釜山行》人物关系

《釜山行》是一部丧尸灾难片，其人物少、关系简单，非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取，使用R编写代码实现对《釜山行》文本的人物...

EasyCharts 发布于 EasyCharts • 2017-03-31 09:45 评论(2)

2

推荐

2048

阅读

【中文分词】最大熵马尔可夫模型MEMM

Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词；看原论文感觉作者更像用的...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-03-30 10:09 评论(0)

0

推荐

1736

阅读

如何建立落地型数据分析(挖掘)流程？

数据工作者最长也是有效的一种工作方式是带项目，无论是数据分析还是专项挖掘，项目制能使数据尽量贴近业务并且有效理解业务和数据的各个维度。那么如何建立...

宋天龙发布于宋天龙的博客专栏 • 2017-03-30 09:54 评论(0)

0

推荐

2330

阅读

谈谈数据预处理及scikit-learn示例

数据预处理或称特征预处理，在机器学习中非常重要。本文聊聊几种常用的特征预处理方法。标准化这种方法即为对于某个特征来说，减去其均值并且除以相应的方差...

深度学习发布于陈福强的博客专栏 • 2017-03-29 11:55 评论(0)

数据挖掘