性别要求:不限性别
1、负责内容爬取后,开发抽取规则,对精选内容进行批量抽取,并不断细化规则和维护整个工作的稳定性。
2、负责设计和开发网络爬虫应用,进行互联网相关信息的抓取和分析;
3、负责网页信息抽取技术的研究和开发;
4、负责解决爬取过程中的问题;
任职条件:
1、3-5年工作经验,大专以上学历;
2、熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息;
3、精通Python/java 编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
4、精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
5、熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、mysql数据库;
6、熟悉http client、js, ajax, webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup,webmagic等技术优先;
7、有海量数据爬取经验者优先;有爬取过微博,微信,淘宝等平台数据优先;具有自然语言处理、机器学习背景优先。
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。