前言我们有一期的文章讲述了如何使用caret包进行数据的预处理,其中内容包括哑变量的创建、近零方差变了的筛选、数据标准化、缺失值处理、数据分割等。可以在...
前言进入2016年,伴随世界经济危机的到来,中国互联网创业,也在经历长时间的寒冬,有不少的公司都因资金链断裂,停止了运营。与寒冬反差很大的是,AI技术却...
1.背景与目标 目前企业用户中有大量的中小型企业受制于人员和成本压力并没有专职的会计人员,代理记账公司或者兼职会计成为首要选择。企业客户...
什么都不说,先上一张最终的数据地图效果图,热力图部分是目标用户的分布,紫色和蓝色的购物车表示2种类型的商业购物场所。而深浅不一的蓝色格子块则代表房价...
宋词词云分析步骤主要由三部分构成:资料收集、词频统计、对比分析从网上共搜集唐诗4.8万首,宋词1400首;进过预处理过程之后,对其进行分词与词频统计,各取...
今天先聊一聊用户运营中,有关活跃的基础话题。对一家互联网公司来说,如果没有设置单独的数据运营岗,那么用户运营是和数据最贴近,也必须是最了解用户的。...
2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取、分析功能。利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,...
在上几期,浩彬老撕给大家介绍了一个神器,在线的云词图制作工具:干货教程|可能是最方便好用的文字云工具,其中里面有一幅设计图大家念念不忘,纷纷留言要资...
在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规...
在上期,浩彬老撕给大家介绍了非线性回归模型,解决了在现实环境中,非线性形式的问题。但是进一步地,我们的因变量也并不总是数值型变量,有可能也是分类型...
在现实环境中,我们需要研究的问题有满足线性回归形式的,但是也有很大的一部分并不满足线性关系。例如,我们能够利用自变量x构建回归方程,那么能否利用x的...
12月份,CRAN总计新增217个新包。这是过去9年以来数量增加最多的一个月。下文主要简单介绍其中部分R包,包括六个类别:数据类、数据科学、金融分析、统计类、...
1.前言最近一直在更新数据挖掘一些事一些情系列,包括有:如何直观地理解过拟合与欠拟合那些事~统计挖掘那些事——强大的逻辑回归(理论+案例)统计挖掘那些事—...
原计划的4、5基本不打算去操作了,因为没有用到新的东西。这贴就记录下实现的过程,以及用到的知识和工具,期间遇到的各类问题及解决也会出现在这里。起先,...
写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。得...