彭老师:这个数据数据挖掘中的特征选择和特征处理过程。大家可以搜集这两个方向的一些资料进行学习。
2016-08-01 11:08 回复了该问题彭老师: 1. 楼宇识别; 2. 特定区域人流预测; 3. 网络流量调度 等等,应用还是挺多的。
2016-08-01 11:07 回复了该问题彭老师:c这块讲起来可能时间会比较久,后面我会出一个课程专门讲这块,欢迎大家关注。
2016-08-01 11:07 回复了该问题彭老师:DensityPeak这个算法目前还没学习过,我可以抽时间学习后对比下再同步。
2016-08-01 11:06 回复了该问题彭老师:时间复杂度,针对这种要计算相似度 或者举例的算法,主要思路是剔除掉不需要计算的问题。 比如北京的一个wifi 和广州的wifi 距离这么远完全没必要进...
2016-08-01 11:05 回复了该问题彭老师:分而治之的思路就是专门解决大数据问题,100g 比如可以切 1000块,100T 切 1000*1024块就行。 上述数据只是举例,思路就是切块解决单...
2016-08-01 11:05 回复了该问题彭老师:我们早期也是主要在MR上 目前很多算法已经在向spark迁移,算法思路都是一样的。
2016-08-01 11:04 回复了该问题彭老师:公司团队比较大的时候,客户端开发和数据分析人员是独立两个团队。可能客户端同学写的日志 并不符合数据分析同学的要求。这个时候就需要数据清洗 比如ETL也是...
2016-08-01 11:03 回复了该问题彭老师: 1. 楼宇商业功能,这个不属于DBSCAN算法解决的范畴。可以通过用户流动性,和用户行为规律结合分析; 2. wifi数据 目前wifi 基站 用于...
2016-08-01 11:03 回复了该问题彭老师:这块的原谅我只能提供思路,代码这些 可能不允许、数据就更隐私了。不过大家在遇到大数据瓶颈的时候 可以找我交流。
2016-08-01 11:02 回复了该问题彭老师:好的,这个问题确实是很多朋友会遇到的,两个工作 都是关于数据方向很好的平台: 1. 京东金融,听这个职位名字 金融领域数据分析会多一些风控方面的应用;...
2016-08-01 11:01 回复了该问题叶鹏:是的 David Chiu:这用spark streaming 叶鹏:这种研究您怎么评价?有没有成功案例? David Chiu:还是使用RMSE...
2016-07-27 15:11 回复了该问题David Chiu:自变量跟因变量的取样频率不一样? 是分开取的吗, 怎么会不一样? 曹敏:比如说对生产过程中的某个属性,取样频率是10分钟一次,但是最后的...
2016-07-27 15:08 回复了该问题David Chiu:SparkR 会是你的好朋友,RMPI 也不错, 但会single point failure,如果要考虑到地理咨询的话,可以用spati...
2016-07-27 15:07 回复了该问题