Phoenix CMS Accéder au BO

INFORMATIQUE -TÉLÉCOM - CONSTRUCTEURS, HARDWARE - EDITEURS LOGICIELS, SOFTWARE - MULTIMÉDIA ET INTERNET...

Stage-Extension de framework de datascience pour différents formats


Orange SA
Lannion

Réf. 1072181 - publié le 14 novembre 2024


M'alerter sur les offres

Informations générales

DOMAINE DE FORMATION

Informatique -Télécom - Constructeurs, Hardware - Editeurs logiciels, Software - Multimédia et Internet - SSII - Télécom

NIVEAU D'ÉTUDES

Bac +5

GRATIFICATION

20000 25000 ANNEE



Missions

Orange SA vous propose une offre de stage dans les domaines Informatique -Télécom, Constructeurs, Hardware, Editeurs logiciels, Software, Multimédia et Internet,... à Lannion.

"Vous rêvez de contribuer à un projet open source autour de l'IA, rejoignez-nous !" Bruno manager
Avec Khiops [1] l'apprentissage automatique sur des données tabulaires devient un jeu d'enfant. Comme les données proviennent de sources et processus très divers, il est temps pour Khiops d'accueillir et donc de supporter en entrée de nouveaux formats de données. Ce stage consiste à étudier le format Parquet qui permet un accès rapide aux données et à déterminer les évolutions nécessaires de l'interface d'entrée/sortie de Khiops pour permettre son intégration.
Le principal verrou est la nature compressée et structurée du format Parquet, tandis que Khiops manipule habituellement des fichiers de type CSV au format texte. Avec Khiops de nombreux traitements sont possible, impliquant des indexations et conversions des données vers des types natifs. Cette différence de format implique qu'il faudra chercher des solutions afin que Khiops puisse accéder aléatoirement et efficacement au contenu mais également bénéficier des métadonnées contenues dans les fichiers Parquet afin de convertir correctement les enregistrements.
Dans un premier temps le support de ce format sera prototypé sous forme de module indépendant, afin de valider la faisabilité de l'extraction des informations nécessaires à Khiops. Ce module s'appuiera sur le SDK Apache Arrow [3] et pourra servir de base à l'implémentation finale. Dans une seconde phase, il s'agira de faire évoluer le composant chargé de l'interfaçage avec les différents service de stockage des principaux clouds (Google, Amazon, Azure) afin de permettre toutes les combinaisons [ cloud x format de données ], ceci afin de permettre l'intégration future de nouveaux formats de données.

[1] Khiops https://khiops.org
[2] Apache Parquet https://parquet.apache.org,
[3] Apache Arrow https://github.com/apache/arrow


Profil

Profil souhaité :
. BAC + 5, Master informatique ou école d'ingénieur.

Compétences :
- Connaissances en C/C++
- Génie logiciel
- Une connaissance du Big Data et des stockages associés serait un plus


"Ce stage dans un cadre exceptionnel, est une opportunité de découvrir une magnifique région, à 5km de la mer, pour pratiquer des sports nautiques  ou sous-marins. Il faut avoir son permis  B obligatoirement ! "Bruno, manager


Postuler

Nom du recruteur : Annick SCHMUCK


Offres similaires

Nos sélections d'offres de stages

Les articles en lien

Partagez sur les réseaux sociaux !