最近看了大量关于数据分析/挖掘方面的资料和文章,整理出了一个关于数据分析/挖掘的“纵览图”,涉及到数据分析/挖掘的内涵、常用的分析模型、挖掘/分析步骤、...
去年这个时候,独自一人看了当时的圣诞贺岁电影《恶棍天使》,本来觉得不错,结果被大家吐槽没品味,后来看了数据,确实没多少好评,只好认了。机会凑巧,今...
text2vec简介 text2vec包是由Dmitriy Selivanov于2016年10月所写的R包。此包主要是为文本分析和自然语言处理提供了一个简单高效的API框架。由于...
客户关系管理 (Customer relationship management, CRM),对每个公司来说,都是非常重要的。客户关系管理大致可以分为四个维度:客户识别吸引客户客户维系客...
一、从URL读取并返回html树1.1 Rcurl包 使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表...
兔子最近想做有趣的小项目,有幸弄到了一个某站的播放广告数据(- -饿...这第一行title有点厉害)但是基本没有游戏相关的项目,于是发挥人肉, 哦不, 调查的功...
一、项目背景 最近的新闻中都是用户在看似正常的消费或取款后,发现自己的卡却被盗刷了,这种现象就是欺诈交易。欺诈交易是存在于银行、保...
一、决策树 一种树状分类结构模型,是一种通过对变量值拆分建立起来的分类规则,又利用树形图分割形成的概念路径的数据分析技术。...
1. 数据分析多层模型介绍这个金字塔图像是数据分析的多层模型,从下往上一共有六层:底下第一层称为Data Sources 元数据层。比如说在生产线上,在生产的数据...
knn算法也称k最近邻算法,其乃十大最有影响力的数据挖掘算法之一,该算法是一种有监督的挖掘算法,既可以解决离散因变量的分类问题,也可以做连续因变量的预...
一、朴素贝叶斯分类的R函数介绍1、朴素贝叶斯分类算法的实现函数R中的e1071包中的naiveBayes函数可以实现朴素贝叶斯算法,具体的函数格式如下:naiveBayes(x,...
R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提...
一、统计学基础知识(虽然枯燥,但是硬着头皮也要看) &...
万事开头难,知乎专栏申请下来一段时间了,但一直懒癌拖着没写,拖了又拖,终于在一个阴雨绵绵的周六的晚上提笔开始了第一篇爬虫文章。首先爬虫是啥,爬虫无...
本文是数据科学家学习路径的的完结篇,算上《数据科学家成长指南(上)》和《数据科学家成长指南 (中)》,总篇幅应该五万字多一点。今天更新数据获取、数据...