技術研發部 - 北京工作 - 2016年10月08日
職位職責:
1.根據需求表格分析采集網站和欄目內容并填寫業務表格、嚴格執行規范和流程;
2.圖形化分析網頁結構,提取網頁HTML元素的定位路徑(即CSS或XPATH)和匹配規則(即正則表達式)并驗證路徑和規則的正確性;
3.結構化數據;
4.數據處理即清洗(如去臟數據、清理網頁標簽等)、規整(如規范省市名稱等)、標準化(如日期電話格式化等)、歸一化;特征屬性提取并分析;
庫表設計。
任職要求:
1.計算機相關、信息管理和信息系統、數學等專業;
2.了解編輯器的使用、正則查找替換、格式規整、行列轉換;
3.熟悉URL、HTML、JSON;正則表達式、CSS(選擇器部分即可)、XPATH;JS、JQUERY;
4.了解PYTHON或JAVA;
5.熟悉關系型數據庫(如MYSQL)、SQL操作;
6.網頁分析、開發、設計;
7.數據采集、數據庫設計;
8.較強的歸納總結能力;較強的邏輯分析推理能力;良好的溝通表達能力;
9.熟悉正則表達式者優先;有數據庫設計與應用編程經驗者優先;有互聯網網站設計經驗者優先;有學生會、社團骨干經歷者優先;
10.熱愛大數據行業,耐心、細心、具備良好的溝通能力、理解力、服從力和執行力,有較強抗壓能力和強烈的責任心。