2017-11-14 14:22
岗位要求:
1、负责高性能爬虫的设计与实现,进行多平台信息的抓取和分析;
2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
3、负责网页信息抽取、数据清洗等研发和优化工作;
4、负责抓取数据的深度提取和挖掘;
任职资格:
1、工作认真细致踏实,有较强的学习能力,熟悉常用爬虫工具;
2、熟悉linux开发环境,熟悉python等;
3、熟悉HTML/DOM/XPATH/CSS,对DOM有一定的功底能够熟练使用Jsoup等进行分析网页,对模拟登录,模拟浏览器、APP抓取经验优先;
4、有Nutch、Heritrix、Scrapy、Hadoop等系统经验,二次开发者优先;