招聘人数:1-3人
到岗时间:不限
年龄要求:不限
性别要求:不限
婚况要求:不限
岗位职责:
1、负责设计、开发、维护分布式的网络爬虫,包括调度、抓取、维护、验证等爬虫工作
2、负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
3、负责抽取算法和数据库建模的调研和设计,保证抽取、去重、分类、解析、增量融合入库等流程之后的数据结果;
岗位要求:
1、3年以上Linux环境Java/Python/golang开发经验,至少2年以上爬虫系统开发经验;
2、使用技术框架包括但不限于:Nutch,WebCollector,Scrapy,Selenium,webmagic
3、熟练使用正则表达式、xpath解析数据、搜索策略、算法、数据聚类、重组技术,熟悉反爬虫;
4、对反爬机制有研究,有过海量代理IP池建设,复杂验证码识别,破解复杂图片验证码/账号限制经验者优先
5、熟悉抓包工具(Wireshark,Fillder等),熟悉网络通信编程,网页抓取原理及技术,熟悉HTTP传输协议,能模拟各类操作爬虫;熟悉爬虫实现原理机制;对分布式和多线程技术有一定了解;
6、熟练掌握分布式爬虫,日采集量千万级别以上,并充分了解抓取策略(1、深度优先遍历策略 2、宽度优先遍历策略 3、反向链接数策略等);
7、有较强的学习能力,对技术有钻研精神,热衷于新技术的学习和实践;
8、具有良好的团队协作精神,思维清晰敏捷,逻辑分析能力强。
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。