Activitatea de exploatare a datelor implică accesarea cu crawlere a web-ului, folosind instrumente precum Nutch și alte aplicații software relevante.
Lucrarea implică, de asemenea, o mulțime de răzuire web, folosind Python și alte instrumente conexe, având grijă de situații diferite - pe site se utilizează scripturi precum javascript sau ajax.
Analiza datelor cu ajutorul instrumentelor, cum ar fi Hadoop, face parte, de asemenea, din acest post.
Folosim baza de date MongoDB pentru majoritatea scopurilor noastre de stocare a datelor. Prin urmare, este o cerință ca dezvoltatorul de date miniere să aibă o bună cunoaștere a folosirii stand-alone MongoDB și să o integreze cu alte programe.
În afară de alte MongoDB, postul implică, de asemenea, alte baze de date mari de date, după cum este necesar pentru rezolvarea problemelor.
Activitatea de extragere a datelor presupune, de asemenea, citirea documentației API terță parte și integrarea funcționalității în programul propriu al companiei.
De asemenea, sarcina implică scrierea codificării bazată pe concepte statistice, astfel încât dezvoltatorul de date miniere este de așteptat să aibă o bună cunoaștere a statisticilor.
O altă cerință a oricărui candidat care solicită acest post este cunoașterea software-ului de control al versiunilor, cum ar fi Git, și subiecte conexe, pe măsură ce le folosim pe scară largă.
Versiunea Ubuntu a Linux este folosită în cadrul companiei noastre pentru dezvoltarea software-ului. Prin urmare, este de așteptat să fiți foarte familiarizați cu aceasta.
Nu trebuie să cunoașteți toate subiectele menționate mai sus. Dar ar fi trebuit să fi fost cel puțin un coder python de ceva timp pentru a constata că ești cu adevărat pasionat de a fi un dezvoltator de date miniere.
În cazul în care descrierea de mai sus a activității noastre de exploatare minieră vă interesează, atunci vă rugăm să o aplicați mai jos.