2017-04-28 15:18
职位描述
1、参与设计和开发分布式的网络爬虫,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;
2、负责网页信息抽取技术算法的研究和开发,提升网页抓取的效率和质量;
3、负责与大数据工程师、数据挖掘等协同工作,完成数据统计、查询和分析。
任职要求:
1、 计算机软件及相关专业,3年以上实际爬虫项目开发实施工作经验;
2、 熟悉JAVA者优先,熟悉Python;
3、 熟悉网页爬虫、分布式、多线程开发技术;
4、 具备HtmlUnit、WebMagic、Nutch等(不限于这些)使用经验或者Webservice的实战经验;
5、 熟悉Mongodb,MySQL或者Postgresql,并有Redis的使用经验;
6、 具备优秀的团队意识和沟通能力,学习能力和主动性强,具有钻研精神,充满激情,乐于接受挑战;
加分项:
1、 有Hadoop,Spark经验者优先;
2、 对开源项目有较好的跟踪和关注,如果对一些开源的做海量数据处理的项目有经验者会优先考虑。