2017-03-20 15:54
岗位职责:
1、参与核心爬虫系统架构设计,数据存储结构设计。
2、负责网络爬虫的核心技术研究和开发,参与各种核心搜索策略,算法,数据聚类,重组的设计和开发。
3、设计策略和算法,提升网页抓取效率和质量。
任职资格:
1、计算机软件相关专业本科及以上学历,基础知识扎实;
2、五年以上JAVA WEB开发工作经验,扎实的技术功底;
3、熟悉常用信息抓取策略和数据重组算法。精通数据抓取和整合技术,从结构化的和非结构化的数据中获取信息,掌握正规表达式。
4、熟悉大规模网页爬取,深度网页爬取,熟悉nutch, hadoop,elasticsearch等工具优先。
5、具有能解决项目中疑难技术问题能力