开始时间: | 2018-01-15 20:00 星期一 |
---|---|
结束时间: | 2018-01-15 22:00 星期一 |
举办地点: | https://edu.hellobi.com/course/237 |
主办方: |
天善智能
|
网络数据抓取是数据科学中获取数据中的重要途径,但是一直以来受制于高门槛,都是专业程序员的专属技能。直到R语言和Python这种函数式编程语言的兴起,爬虫技能又从新引起数据分析人员的兴趣。
但是从目前的发展趋势来看,数据科学中的爬虫使用者,一直都被Python语言把持着。Python中不仅有着urllib、requests这样优秀的网络请求库,而且有着像lxml、BeautifulSoup那样强大的网页解析库,还有像Scrapy这样的工程框架。在爬虫领域里,R语言沦为数据分析初学者小打小闹的玩具,大量的在线课程、畅销书都是关于Python的,而涉及R语言爬虫的教材仅有《基于R语言的自动数据收集》一本。
但是R语言中也有RCurl这样的直接基于liburl爬虫C库的底层爬虫请求包,还有httr这样的短小精悍的新锐请求库,有像XML、rvest(xml2)这样高效的网页解析库,支持主流网页解析语法——Xpath、css表达式,支持Rwebdriver、RRSelenium浏览器驱动框架。
受制于R语言爬虫受众人数太少、生态圈过于狭窄,R语言的现有爬虫工具那些高阶功能少有人问津。这些工具组合足以让你的数据抓取流程在Python中一样游刃有余,信手拈来。至于那些高级反爬虫技巧(高级代理、并发与多进程、验证码识别等)从来都不是工具可以解决的,需要你基于个人经验和web前端知识,自己构建支持框架来绕过反爬。
杜雨,EasyCharts团队成员,EasyCharts公众号及知乎专栏特约撰稿人。R语言中文社区专栏作者,微信公众号——“数据小魔方”创始人。兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。每天会为您推送Excel商务图表、R语言可视化及数据可视化精彩案例。个人公众号:数据小魔方(微信ID:datamofang)
2018年1月15日 20:00 - 22:00
视频直播地址 : https://edu.hellobi.com/course/237 请点击学习。直播完毕后,录播也可以看。
本次课程所有内容及案例均来自于本人平时学习练习过程中的心得和笔记总结,希望借此机会,将自己的爬虫学习历程与大家分享,并为R语言的爬虫生态改善以及工具的推广,贡献一份微薄之力,也是自己爬虫学习的阶段性总结。
一、爬虫的概念及基本流程
二、网络请求
2、常用网络请求的基本类型
2.1、GET请求详解
2.1.1参数传递
2.2、POST请求详解
2.2.1、application/x-www-form-urlencoded
2.2.2、application/json
2.2.3、text/xml
2.2.4、multipart/form-data
2.3、开发者工具与抓包分析基本流程
2.3.1、Chrome后台开发者工具
2.3.2、抓包报头参数分析(请求报头与相应报头)
2.3.3、Postman请求器的基本使用
2.4、RCurl/httr构造基本网络请求方法
2.4.1、GET请求构造(RCurl+httr)
2.4.2、POST请求构造(RCurl+httr)
2.4.3、快捷高阶函数(readtable、readlists、getlinks)
三、网页解析详解
3.1、json与xml结构数据结构分析
3.2、异常处理与循环跳出
3.3、Xpath公式
3.4、css表达式
3.5、二进制文件下载(pdf\jpg\mp3\mp4)
3.6、关系表入库(MYSQL)
3.7、lsit解析与非结构化数据存储(mongoDB)
3.8、基于反反爬虫的一些建议
3.9、显式循环、向量化函数、并行运算在数据爬取中的好处
四、实战案例
4.1、网易云课堂
4.2、知乎live
4.3、今日头条行业报告
4.4、B站视频信息
学习进阶建议:
1、正则表达式
2、自建IP代理池
3、学习Rwebdriver、RRSelenium浏览器驱动框架
备注:
加微信直播管理员微信:xtechday(请注明:公司+姓名+行业) ,随后管理员会将你拉入到交流群中。