Augmentation du Smic (et du salaire des alternants) de 2% le 1er novembre 2024
- 1 min
- Publié le 31 oct. 2024
Candidature spontanée
L'outil pour les identifier
Modèles lettre de motivation
Lettre de motivation stage
Réussir votre rapport de stage
Prêt pour un entretien ?
Tous les tests carrière
Nos conseils
Trouvez votre job
Trouvez votre entreprise
INFORMATIQUE -TÉLÉCOM - CONSTRUCTEURS, HARDWARE - EDITEURS LOGICIELS, SOFTWARE - MULTIMÉDIA ET INTERNET...
Réf. 1020087 - publié le 23 octobre 2024
DOMAINE DE FORMATION
Informatique -Télécom - Constructeurs, Hardware - Editeurs logiciels, Software - Multimédia et Internet - SSII - Télécom
NIVEAU D'ÉTUDES
Bac +5
GRATIFICATION
20000 25000 ANNEE
Orange SA vous propose une offre de stage dans les domaines Informatique -Télécom, Constructeurs, Hardware, Editeurs logiciels, Software, Multimédia et Internet,... à Châtillon.
"Rejoignez une équipe dynamique, solidaire dans un campus à l'américaine et des installations derniers cris" Bruno, manager
Une série temporelle est une suite de valeurs ordonnées dans le temps, qui sontmesurées selon un pas de temps régulier. A Orange, ce type de données est très répandu : ex. volume de trafic, nbre de connexions à une application, nbre de personnes observés dans une zone géographique etc. La prévision de ces séries temporelles est essentielle pour Orange car elle permet un grand nombre de cas d'usage.
Plusieurs approches existent : statistique, machine learning et deep learning. Les approches de machine learning, en particulier les modèles de régression, sont très performants mais n'apprennent pas directement à partir de la série temporelle. Un prétraitement [1, 2] est nécessaire en amont pour transformer cette série de valeurs en un jeu de données d'apprentissage supervisé (X, y). Le prétraitement est l'objectif du stage pour répondre à ces questions :
1. Comment choisir les sous-séquences de la série temporelle (individus statistiques) tout en minimisant la dépendance entre elles et donc l'impact sur le sur-apprentissage ;
2. Quelles caractéristiques sont pertinentes à calculer à partir des sous-séquences, de quels types sont-elles et dans quels outils d'auto-feature engineering sont-elles (est ce tsfresh ? ou MiniRocket ? ou ...?).
Missions :
- Bref état de l'art des méthodes de prévision avec un zoom sur les méthodes de régression (ex. XGBoost, LightGBM) et plus précisément sur le prétraitement effectué avant d'appliquer ce type de modèle.
- Etat de l'art des librairies existantes de calcul de caractéristiques à partir de séries temporelles, telles que tsfresh, MiniRocket et Khiops (notre librairie d'autofeature engineering à Orange : https://khiops.org/). Une ou deux librairies représentatives seront retenues pour la suite.
- Implémentation d'un pipeline de transformation de séries temporelles en un jeu de données tabulaires en fonction de l'horizon de prévision cible.
- Evaluation du pouvoir prédictif des caractéristiques de chacune des librairies retenues sur plusieurs jeux de données incluant à la fois des données publiques et des données d'Orange.
- Analyse de l'importance des caractéristiques : quelles caractéristiques faut-il calculer et dans quel cas ?
Les résultats obtenus pourraient, en fonction de leur qualité, faire l'objet d'un article scientifique.
Profil souhaité :
. BAC + 5, Master informatique et/ou statistiques ou école d'ingénieur.
. Intérêt pour la recherche et pour les aspects applicatifs et théoriques du sujet.
Compétences :
. Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont indispensables. Une expérience avec les données temporelles est un plus.
. Développement en Python avec des librairies de machine learning (ex. XGBoost, Scikit-learn).
"Vous rêvez d'analyser un grand nombre de données, de créer des algorithmes et de les valoriser jusqu'à la publication, rejoignez nous" Yassine, tuteur
Nom du recruteur : Annick SCHMUCK