最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本、avro等...
1. 问题描述收集日志avro数据中有两个Map字段appInstall、appUse分别表示已安装的app、正在使用的app,且key值为app的名称,value值为app使用信息。现在要得...
前言在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网...
预备阅读:【进阶】Excel中的方差分析之单因素方差分析前言前面我们说了方差分析中的单因素方差分析,但是在实际工作中,影响因素往往不止一个,需要考虑两个...
前言无论是什么活动,影响产品质量和产品的因素都有多种,如影响农作物产量的因素有品种、天气、施肥量、肥料的种类等等。如果我们想要了解这些因素中哪些因...
距离2014年4月17日微博上市已经三周年了,微博的运营也到了第八个年头,完成了从“新浪微博”到“微博”的华丽蜕变,俨然已经成为了中国唯一一个具有公共媒体主页...
谋定而后动,后发制人在国内的大数据行业,我们面对面接触和拜访过上百家大数据技术、大数据应用的创业公司,这些公司大部分都是属于技术型创业。技术先行、...
前言数据处理是 Python 的一大应用场景,而 Excel 则是最流行的数据处理软件。因此用Python 进行数据相关的工作时,难免要和 Excel 打交道。标准的 Excel 文...
前言前面我们学习了MySQL的一些查询,但是都是针对一个表进行查询,当我们查询的表大于1个,则称为连接查询。连接查询是关系数据库中重要的查询方式,包括交...
文 | 水手哥原文转自 帆软数据应用研究院大数据干货和案例集中地!日前,数据中心联盟大数据发展促进委员会发布了《我国地方政府大数据发展规划分...
18220.0 0.0 1.0 0.0 0.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 0.0 2.0 7.0 6.0 7.0 7.0 7.0 8.0 ...
引子: 大数据的场景下,NoSql型数据库的优势不言而喻,但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台,大多语焉不详,至于Windows平台介绍的东...
whoami,查看当前用户help,帮助命令status,HBase状态version,查看HBase版本list,列出当前表清单create ‘member’,’member_id’,’address’,’baseinfo’ ...
前言前面说了很多MySQL中的查询,比如条件查询、分组聚合查询、连接查询,今天来说一下另外两个非常的重要的查询,MySQL中的子查询和联合查询。子查询子查询...
调研就是大数据无法攻克的堡垒“我就是喜欢你很大,可是你干不掉我的样子”,调研问卷嗨森的对R,Python,hadoop,Spark一众人等做个鬼脸话说2017年是21世纪了...