数据挖掘

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程

0
推荐
2284
阅读

经过这样分析,你才能找到上班方便还划算的地铁房

作者:团支书、阮田 等 公众号:城市数据团(metrodatateam)又到一年毕业季,许多大学生走出校园,走进社会。这群职场新人要做的第一件事,就是找房子。找房...
0
推荐
2026
阅读

数据盘点:微博驱动NBA在中国再次爆发的秘密

就在一周前的6月13日,NBA结束了在与微博战略合作后的首个季后赛,勇士队在第五场以129-120的比分,总成绩4-1战胜骑士队获得本赛季的冠军,夺回了总冠军奖杯...
0
推荐
1851
阅读

企业家明星,是不务正业还是另辟蹊径

以京东为主导的618年中大促刚刚结束,就在各路电商平台都在打扫战场,细数收成的时候,有个人早已抢占先机,凭借5月份的一波大促将微博品牌榜长期霸榜的阿里...
1
推荐
2086
阅读

聊聊泛化低秩模型

在机器学习及数据挖掘领域中,数据集中的每个样本通常用一行数据来表示,其中每个数据表示某种特征的具体表现,所有数据样本会构成一个矩阵。一般情况下,会...
0
推荐
2253
阅读

我分析了王力宏、周杰伦、林俊杰和潘玮柏的32万字歌词:为了找到最伤感的一首歌

作者:飘荡的鱼头  公众号:优达学城Udacity(youdaxue)关于华语男歌手的认识应该是停在初中了吧。那时火的是周杰伦,王力宏,林俊杰和潘玮柏——我们班...
3
推荐
3798
阅读

你的世界已经被网红占领......

网红,顾名思义,网络红人。很多人听到网红这两个字的时候脑海里迸发出的是整容脸、炒作、网络推手等负面词汇。没错,很多人对网红的印象还停留在芙蓉姐姐、...
2
推荐
4215
阅读

windows下使用word2vec训练维基百科中文语料全攻略!

训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2...
0
推荐
1938
阅读

数据:北京周边穷邻居,上海周边富亲戚

作者:团支书  公众号:城市数据团(metrodatateam)坊间存在着一个传说:北京穷了周边,上海富了周边。这个传说有没有道理呢?在回答这个问题以前,我...
0
推荐
1479
阅读

感悟 | 中小型公司的数据人如何摆脱价值的瓶颈

文章地址:https://wx.xiaomiquan.com/mweb/views/topicdetail/topicdetail.html?topic_id=28511255854281
2
推荐
2921
阅读

如何通俗地理解决策树中的信息熵

​好,开篇之前,我们先做好定义:信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?好了,为了解决问题,让我们还是回到定义本身中来。1.信息...
1
推荐
2362
阅读

如何通俗地理解假设检验基本原理

假设检验的基本原理在日常的统计分析当中,我们针对所研究问题的全体对象,称之为总体。例如我们想要研究2017年大学生毕业生的薪酬水平,那么在2017年所有大...
0
推荐
3111
阅读

统计挖掘那些事:分层抽样与交叉验证

1留出法(Hold out)与分层抽样留出法就是咱们在上期文章介绍的进行对训练集和测试集进行的划分方法。上期内容:如何直观地理解过拟合与欠拟合那些事~留出法...
1
推荐
3077
阅读

1.7亿出租车轨迹里,MIT找到了大城市治堵“秘方”

来自:DT数据侠(微信号:DTdatahero)  已获得授权“共享单车都这么火了,但它还只是智慧城市的冰山一角而已。一群来自MIT感知城市实验室的科学家们,...
0
推荐
1834
阅读

用数据分析挖一挖QQ群聊天记录

原文地址:http://www.jianshu.com/p/940cf43778e9作者简书:文质彬彬,专注数据分析与自我管理       数据圈圈友 已授权为了了解图书馆...
1
推荐
1986
阅读

十行代码预测插旗西雅图(上)

背景故事我错了,我承认我是标题党,怎么可能用十行代码完成 Dota2 比赛数据的抓取, 清洗与预测建模呢。 不过为了发扬继承郎大为“十行代码”系列的优良传...

1878 人关注

最佳回复者

改版

反馈