Stage Data Scientist - NLP - Numberly - Paris (75)

1 poste
stage
Réf. 9765931 - Publié le 21 août 2019
Domaine de formation

Informatique, télécom (Bases de données)

Mission

Description du poste

Recursive Topic Modeling pour l’identification de thèmes dans les pages web

Contexte général :

Dans le cadre de la publicité en ligne, une problématique consiste à connaître le contenu sémantique
des pages web sur lesquelles on affiche des bannières publicitaires. Ceci permet a posteriori, d’identifier
les appétences des différents cookies via leur navigation (le cookie d’Alice a visité de nombreuses pages
web dont le topic prépondérant est “voiture”, on peut donc en conclure qu’elle est intéressée par les
voitures) mais aussi de sélectionner des espaces publicitaires spécifiques dont la sémantique correspond
à l’univers de la marque. Par exemple, si une agence de voyage souhaite afficher des publicités, il pourra
être intéressant de diffuser sur des sites internet parlant de voyages.

Présentation du sujet :

Un premier travail a été effectué et permet d’identifier tous les mois 70 topics parmi l’ensemble des
pages web. On pourra par exemple trouver un topic “voyage”. Néanmoins, une agence de voyage
souhaitera probablement être plus spécifique et avoir par exemple une campagne ciblant les sites de
“road trips” ou une campagne ciblant les sites parlant de “voyages de luxe”. Ainsi il est nécessaire de
pouvoir identifier des “sous topics” pour certains des 70 topics identifiés chaque mois.

L’approche utilisée pour l’identification des 70 topics est basé sur le topic modeling (approche non
supervisée) via un modèle de Latent Dirichlet Allocation [1]. Une approche possible pour l’identification
de sous-topics serait de réappliquer un LDA de façon récursive sur les pages webs à forte dominante de
l’un des topics initiaux et ce, pour chacun des topics initiaux. D’autres approches, comme le Hierarchical
LDA [2] sont envisageables. Ces propositions ne sont que des pistes possibles, une recherche
bibliographique exhaustive sera réalisée par le stagiaire afin de sélectionner la méthode la plus adaptée
à la problématique.

Objectifs du stage

L’objectif du stage sera multiple :

- Travailler sur la modélisation du problème 
- Explorer les différentes méthodes possibles en effectuant un travail de recherche bibliographique 
- Implémenter la méthode choisie, la tester, l’intégrer au processus actuel. La partie expérimentation aura une place tout aussi importante que la modélisation et la recherche bibliographique.

Poursuite possible en CDI

Profil

Description de l'entreprise

Numberly aide ses clients à collecter, analyser et mettre à profit leurs données à travers tous les canaux marketing. Pour cela, nous sommes plus de 100 ingénieurs (un quart de Numberly) répartis en équipes à dimension humaine, où nous nous assurons que chacun développe une influence positive et puisse être autonome. Notre croissance soutenue nous pousse à constamment remettre en question nos choix techniques et organisationnels.

Avec sept bureaux dans le monde et des clients dans plus de cinquante pays, nos enjeux sont globaux.

Niveau(x) d'études

Bac +5 et plus - Bac +4

Durée

De 3 à 5 mois

Rémunération

competitive

Postuler
Par Internet :
https://jobs.sm/...//Numberly/743999693611872-stage-data-scientist-nlp
Contact :
Claire-Marie Pascal

Annonces similaires