文件系统交互的重要性文件系统管理是存储和组织我们的数据的方法。在数据科学项目中频繁地接触到文件夹和文件管理。如在爬虫项目中,涉及工作路径的设置,文...
SCAD的提出据说学术界有一种现象叫做『大牛挖坑,小牛灌水』。而我等『小菜』就只有『吹水』的份了。不过还真不要小看本『小菜』,根据著名的『六度分割理论...
什么是关系型数据库及数据库管理系统数据库(Database)是一种数据的组织和存储方式,通常用于处理结构化的数据。而关系型数据库(Relational Database)指的是创...
我们日常生活中接触到的大部分数据都是以文本的形式存在。如何高效地处理文本数据,将看似杂乱无章的数据整理成可以进行统计分析的规则数据,是『数据玩家』...
认识tm包tm包是R文本挖掘方面不可不知也不可不用的一个package。它提供了文本挖掘中的综合处理功能。如:数据载入,语料库处理,数据预处理,元数据管理以及...
RTextTools简介古有曹植七步成诗,而RTextTools是一款让你可以在十步之内实现九种主流的机器学习分类器模型的文本分类开发包。它集成了(或者说支持)如下算法...
引言最近发现,担任助教真不是一件轻松的事情啊。虽然老师一直在想方设法减轻我的工作负担,可是核对名单真的是一件考验眼力和耐力的事情。最近有一件非常艰...
数值模拟的算法迭代公式推导R代码实现根据以上公式,代入迭代步骤,即可实现算法。##------数据模拟--------
library(MASS)
##mvrnorm()
##定义一个产生多...
第二篇 RHadoop安装与使用部分,分为3个章节。1. 环境准备
2. RHadoop安装
3. RHadoop程序用例
每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明...
第一篇 Hadoop环境搭建部分,分为3个章节。Haddop环境准备
Hadoop完全分步式集群搭建
HDFS测试
每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明...
概述data.table包是一个超高性能处理包,在数据处理上代码异常简洁,速度非常快。由于data.table的语法主要基于[],有些用法和基础函数会不一致,所以没有放...
热力图是一种非常常用的统计图形,该图将两个变量(一般是离散变量)的交叉汇总信息以颜色的形式展现出来,而映射给颜色变量的是连续型数值变量,下面就以例...
之前公众号推送了一系列关于使用ggplot2包绘制统计图形的文章,有网友询问是否可以绘制双轴的统计图形。很抱歉,Hradly在设计ggplot2包时就没有将双轴图形功...
今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分。之前写过一篇实战: RFM模型使用,那篇文章就详细介绍了CRM(客户关系管理...
有关CART算法的理论这里不再赘述,可参考《浅谈C5.0与CART算法的比较--理论理解》,线性回归的理论部分也不过多讲解,可以参考我之前写的文章《R语言下的线性...