Eddy's website

Need to know something about me?

Latest news

June 25, 2017
Teo Caron. 400 NL 6:14.85

June 25, 2017
Teo Caron. 50 Brasse 47.47


Zeina Houmani. A Data-driven microservices architecture for Deep Learning applications

  • Co-encadrement avec Daniel Balouek-Thomert (RDI2. Rutgers University. New Jersey. USA)

  •   Abstract:

While our capacity for collecting data is expanding dramatically, our ability to manage, manipulate, and analyze this data to transform it into knowledge and understanding has not kept pace. This research work aims at realizing a fluid ecosystem where distributed resources and microservices are aggregated on-demand using deep learning technologies to support emerging data-driven applications.

We have been finding better ways to build systems, helped by the mature aspects of Cloud technologies and the emergence of Big Data. The concept of microservices is a trend pattern that emerged from real world use, at the intersection of distributed systems and Service-Oriented Architecture. It promotes the use of finely grained services with their own life cycles, which collaborate together. These services need to be able to change independently of each other, and be deployed by themselves. Moreover microservices is a good candidate for the needs of Edge computing platform.

Large distributed systems are a complex interaction of heterogeneous resources, changing demands and data products. The large number of possible operating configurations and nonlinear interdependencies make it difficult to understand and optimize data-driven decisions. In recent years, machine learning technologies have demonstrate to be an effective way to leverage performance in pattern recognition, feature extraction and classification. We aim to use such techniques to continuously generate infrastructure configurations that matches application performance and quality of experience.

This research work calls for novel solutions for programming applications and services, which are capable of reacting in real-time to unpredictable data products. This becomes particularly challenging when providing scalable applications with changing demands and bounded response time while maintaining available services according to resource and users events. In this context, we aim at formalizing and evaluating the end-to-end performance and data management of microservices architectures. Such architecture could benefit from the use of machine learning techniques by expressing complex relations between users requests and data products. This would enable the establishment of predictive models and failure patterns to automate the process of continuous composition of services. We believe that such hybrid approach of microservices architectures and deep learning could benefit infrastructure providers and service users.

Our goal is to formalize principles of a microservices infrastructure that integrates deep lear- ning features and build a prototype able to support industrial (preliminary discussions are in progress) and scientific use cases.

  • Thèse en cours commencée en novembre 2018

  • Thèse #15

Encadrement de Thèses

Arthur Chevalier. Optimisation du placement des licences logiciel des fonctions réseau dans le Cloud pour un déploiement économique et efficace

  • Co-encadrement avec Noëlle Baillon (Orange)

  •   Abstract:

Le Software Asset Management (SAM) vise à réconcilier l’usage réel des ressources logicielles (propriétaires) avec les droits acquis auprès des éditeurs de ces ressources. Il permet de vérifier que les installations sont conformes aux licences acquises (éviter le risque de contrefaçon) Et que les installations sont adaptées à l’usage réel constaté (éviter le risque de sur-déploiement).

Dans un contexte Cloud computing, le contrôle SAM doit être temps réel étant donné le rythme du changement. Il est rendu plus difficile par la déconnexion forte entre software et hardware et par un réseau d’approvisionnement plus difficile à maîtriser. Les solutions de SAM actuelles se positionnent toutes en observation d’une situation d’usage et réagissent a postériori par évaluation de l’impact des actions d’optimisations possibles. Ces actions étant ensuite mises en oeuvre par les gestionnaires de production. Ce qui convient dans le cas d’infrastructures stables. Pour ce qui concerne le cloud, l’optimisation de la gestion des licences logicielles est une activité à fréquenter rapide qui induit des actions correctives fréquentes.

Les opportunités d’usage les plus avancées apportées par le cloud (Elasticité et Débordement de charge sur des cloud publics) ajoutent une nouvelle dimension de démultiplication qui pourrait générer des actions de dé-commissionnement et de re-commissionnement avec un impact sur les temps de traitement ou sur la bande passante. Cet impact pouvant être d’autant plus pénalisant dans le cas de la virtualisation des fonctions réseau où les problématiques de bande passante et de temps de réponse sont cruciales et où les occurrences d’éléments à gérer se comptent par millions.

Les actions d’optimisation pourraient également être tardives et placer l’entreprise en position de non-conformité. Il s’agit donc de prendre en compte le plus en amont possible cette optimisation de la gestion des licences en s’intégrant au moment de l’instanciation particulièrement lors du placement.

  • Thèse en cours commencée en octobre 2017

  • Thèse #14

Felipe Rodrigo De Souza. Networking Provisioning Algorithms for Highly Distributed Data Stream Processing

  • Co-encadrement avec Marcos Dias de assuncao

  •   Abstract:

The increasing number and diversity of IT equipment (e.g., sensors, computers, smartphones, wearable resources) and scientific instruments connected to the Internet has led to a revolution on provisioning and daily computing usage. Multiple resources share information through the Internet to cooperate and provide services to users leading to, for instance, the Internet of Things (IoT). Clouds provide various services that are used by today’s and emerging applications and are responsible for concentrating data and performing timely processing. However, for emerging application domains where multiple components communicate on the Internet there is a lack of QoS and QoE guarantees due to network management complexity and variable workloads. Most of the data gathered by Internet-connected devices and monitoring applications must be treated as it is generated – a model often referred to as data stream processing. Processing data streams using only cloud infrastructure can lead to end-to-end latency and jitter that are often unacceptable by some services. To overcome the communication barriers and lack of service quality, the fog computing (fog computing facilitates the operation of compute, storage and networking services between end devices and cloud computing data centers) and networking paradigms extend the virtual resource provisioning and processing to the edge of the network. In this scenario, virtual resources are provisioned close to users to achieve QoE and QoS.

As the “things” and scientific instruments generate and upload significant amounts of data to the cloud, limited network bandwidth between the edge and the cloud along with high or variable latency on service response are very undesirable. In short, this unprecedented dependency on the network creates a challenging management task for service providers. Although the dynamic and elastic provisioning of virtual resources near to users brings benefits, providers can experience an increase in power consumption, and management complexity as the placement of application components must be simultaneously performed in the data centres and network edges.

The research goals are to investigate models, mechanisms and algorithms for placement and reconfiguration of data stream processing elements on hybrid infrastructure that comprises cloud and fog computing resources while focusing on networking monitoring and provisioning. Stream processing applications are often organised as Directed Acyclic Graphs (DAGs) whose vertices are operators that perform transformations on the incoming data and edges that define their data interdependencies. This thesis work aims to investigate algorithmic techniques to facilitate the placement and reconfiguration of such DAGs on hybrid infrastructure and optimise metrics such as end-to-end processing and data transfer latencies and resource utilisation.

The development of mechanisms for provisioning fog resources for the considered domain, network monitoring and service reconfiguration are a complex endeavours and require multidisciplinary approaches. For achieving the goal, models will potentially be based on graph theory and the candidate will work towards developing a fog management framework capable of delivering QoE and QoS requirements. Furthermore, techniques based on Software-Defined Networking (SDN) and Network Function Virtualization (NFV) would be desirable means to realise the proposed algorithms and perform in-network processing of data streams.

  • Thèse en cours commencée en octobre 2017

  • Thèse #13

Aurélie Kong Win Chang. Techniques de résilience pour l'ordonnancement de workflows sur plates-formes décentralisées (Cloud Computing) avec contraintes de sécurité

  • Co-encadrement avec Yves Caniou et Yves Robert

  •   Abstract:

L’ordonnancement de workflows sur des plates-formes décentralisées à grande échelle, de type cloud computing, a été étudié sous l’angle de l’optimisation de performances (équilibrage de charge et minimisation des communications), sous l’angle de la tolérance aux pannes (points de sauvegarde, réplication), et sous l’angle de la sécurité (accès à certaines données limités à certains serveurs).

Nous proposons dans cette thèse de combiner toutes ces approches pour déployer des workflows à très grande échelle, sur des plates-formes susceptibles de fautes fatales (crash de machine) et d’erreurs silencieuses (corruption mémoire). L’objectif est de garantir un niveau de performance malgré les fautes et erreurs, tout en respectant les impératifs de sécurité et localité propres au cloud computing. On peut faire un parallèle avec un problème similaire, le déploiement d’applications de calcul scientifique sur les plus puissants super-calculateurs petascales (et bientôt exascales). L’approche standard pour la résilience est le checkpoint/restart, augmentée de détecteurs pour les erreurs silencieuses ; la réplication est exclue à cause de son coût, et la performance est le critère essentiel.

Pour les applications de cloud computing, on retrouve le besoin de résilience, mais de nouveaux paramètres doivent être pris en compte :

  • La criticité de certaines données est un paramètre essentiel et contraint à la fois les possibilités de placement initial et au cours de l'exécution ;
  • La réplication devient envisageable, au moins pour une partie des données ;
  • Les applications cible manipulent un volume de données très important, et communiquent souvent par échange de fichiers ;
  • Le placement dynamique et la migration des données sont souvent nécessaires en cours d'exécution pour minimiser les communications.

Il s’agit donc trouver les bons compromis entre performance, résilience et sécurité, en utilisant de nouvelles approches reposant par exemple sur la réplication partielle d’une partie des données (à identifier) et la gestion optimisée des données (placement initial, localisation des points de sauvegarde, migration). Ce problème d’optimisation multi-critère est incontournable pour le déploiement réussi de workflows à grande échelle.

  • Thèse en cours commencée en septembre 2016

  • Thèse #12

Semen Marchuk.

  • Thèse #11

  • Date de début : septembre 2015

  • Statut: Thèse abandonnée pour défaut de paiement de l’entreprise partenaire

Hadrien Croubois. Toward an autonomic engine for scientific workflows and elastic Cloud infrastructure

  •   Abstract:

The constant development of scientific and industrial computation infrastructures requires the concurrent development of scheduling and deployment mechanisms to manage such infrastructures. Throughout the last decade, the emergence of the Cloud paradigm raised many hopes, but achieving full platform autonomicity is still an ongoing challenge.

Work undertaken during this Ph.D. aimed at building a workflow engine that integrated the logic needed to manage workflow execution and Cloud deployment on its own. More precisely, we focus on Cloud solutions with a dedicated Data as a Service (DaaS) data management component. Our objective was to automate the execution of workflows submitted by many users on elastic Cloud resources.

This contribution proposes a modular middleware infrastructure and details the implementation of the underlying modules:

  • A workflow clustering algorithm that optimises data locality in the context of DaaS-centered communications;
  • A dynamic scheduler that executes clustered workflows on Cloud resources;
  • A deployment manager that handles the allocation and deallocation of Cloud resources according to the workload characteristics and users' requirements.

All these modules have been implemented in a simulator to analyse their behaviour and measure their effectiveness when running both synthetic and real scientific workflows. We also implemented these modules in the DIET middleware to give it new features and prove the versatility of this approach. Simulation running the WASABI workflow (waves analysis based inference, a framework for the reconstruction of gene regulatory networks) showed that our approach can decrease the deployment cost by up to 44% while meeting the required deadlines.

  • Thèse en cours commencée en septembre 2015

  • Date de début : septembre 2013

  • Soutenue le 16 octobre 2018

  • Thèse #10

Daniel Balouek-Thomert. Contribution à l'ordonnancement multi-critères mixant la problématique du Big Data et la consommation énérgétique.

  • Co-encadrement avec Gilles Cieza (NewGeneration-SR) et Laurent Lefevre (Inria)

  •   Abstract:

Les infrastructures ainsi que les intergiciels d’accès aux environnements de cloud computing sont en plein essor. De nombreux travaux visent à proposer un ordonnancement des tâches afin d’améliorer les performances en temps de calcul. Cependant d’autres critères sont également étudiés comme le coût d’accès aux ressources ou encore la réduction des effets négatifs de l’activité humaine sur l’environnement (dans le cadre du Green Computing). Un type de ressource sur lequel nous allons nous focaliser concerne la gestion de centre de données.

Dans le cadre qui nous intéresse on s’oriente vers la conception architecturale d’une solution permettant une gestion efficace de data center en respectant les contraintes énergétiques. En lien avec ces travaux, le doctorant participera à l’élaboration de la caractérisation d’un framework pour la gestion des SLAs.

De plus, nous envisageons de mener une étude et proposition de solutions efficaces en consommation énergétique dans un contexte d’environnement virtualisé manipulant de gros volumes de données (BigData). Mais également d’évaluer l’impact des choix technologiques et énergétiques pour le placement de tâches et de données.

Et finalement, pour parfaire les aspects théoriques de la thèse, on peut envisager une validation des modèles par une mise en œuvre au sein de l’intergiciel DIET avec un déploiement sur la plate-forme expérimentale à grande échelle Grid'5000 permettant d’émuler le comportement d’un data center.

  • Date de début : septembre 2013

  • Soutenue le 5 décembre 2016

  • Thèse #9

Arnaud Lefray. Security in Virtualized Distributed Systems : From Modelisation to Deployment

  • Co-encadrement avec Christian Toinard (INSA Centre Val de Loire)

  •   Abstract:

Cette thèse s’intéresse à la sécurité des environnements virtualisés distribués type “Clouds” ou informatique en nuage. Dans ces environnements, le client bénéficie de ressources ou services (de calcul, stockage, etc.) à la demande sans connaissance de l’infrastructure sous-jacente. Ces services sont proposés à bas coût en mutualisant les ressources proposées aux clients. Ainsi, ces derniers se retrouvent à partager une infrastructure commune. Cependant, cette concentration des activités en fait une cible privilégiée pour un attaquant, d’autant plus intéressante que les Clouds présentent de nouveaux vecteurs d’attaque entre les clients du Clouds de part le partage des ressources.

Actuellement, les fournisseurs de solutions de Cloud proposent une sécurité par défaut ne correspondant pas nécessairement aux besoins de sécurité des clients. Cet aspect est donc bien souvent négligé et cette situation donne lieu à de nombreux exemples d’attaques (vol de données, usage malicieux, etc.).

Dans cette thèse, nous proposons une approche où le client spécifie ses besoins de sécurité “haut niveaux” ainsi que son application virtualisée au sein d’un modèle. Nous proposons notamment une nouvelle logique dédiée à l’expression de propriétés sur la propagation de l’information dans un système. Puis, nous proposons un déploiement automatique de ce modèle sur une infrastructure de type Cloud basée sur la virtualisation grâce à nos nouveaux algorithmes prenant en compte les propriétés de sécurité. Ces dernières sont assurées via un placement prenant en compte les risques d’attaques entre ressources partagées et/ou via la configuration de mécanismes de sécurité existants au sein du système.

  • Date de début : octobre 2012

  • Soutenue le 3 novembre 2015

  • Thèse #8

Maurice Djibril Faye. Déploiement auto-adaptatif d'intergiciel sur plate-forme élastique

  • Co-tutelle Université Gaston Berger de Saint Louis Sénégal

  • Co-encadrement avec Ousmane Thiaré

  •   Abstract:

Nous avons étudié durant cette thèse les moyens de rendre le déploiement d’un intergiciel auto-adaptatif. Le type d’intergiciel que nous avons considéré ici est hierarchique (structure de graphe) et distribué. Chaque sommet du graphe modélise un processus qui peut être déployé sur une machine physique ou virtuelle d’une infrastructure de type grille/cloud, les arêtes modélisent des liens de communications entre processus. Il offre aux clients des services de calcul haute performance.

Les infrastructures de grilles/cloud étant élastiques (perte et ajout de noeuds), un déploiement statique n’est pas la solution idéale car en cas de panne on risque de tout reprendre à zéro, ce qui est coûteux. Nous avons donc proposé un algorithme auto-stabilisant pour que l’intergiciel puisse retrouver un état stable sans intervention extérieure, au bout d’un temps fini, lorsqu’il est confronté à certains types de pannes. Les types de pannes que nous avons considérés sont les pannes transitoires (simulé par la perte de noeuds, l’ajout de nouveaux noeuds, la perte de liens entre deux noeuds).

Pour évaluer ces algorithmes, nous avons conçu un simulateur. Les résultats des simulations montrent qu’un déploiement, sujet à des pannes transitoires, s’auto-adapte.

Avant d’en arriver à la phase de programmation du simulateur, nous avons d’abord proposé un modèle d’infrastructure distribuée (ce modèle permet de décrire des environnements de type grille/cloud), un modèle pour décrire certains types d’intergiciels hierarchiques et enfin un modèle pouvant décrire un intergiciel en cours d’exécution (processus déployés sur les machines).

  • Date de début : septembre 2012

  • Soutenue le 10 novembre 2015

  • Thèse #7

Adrian Muresan. Ordonnancement et déploiement d'applications de gestion de données à grande échelle sur des plates-formes de type Clouds

  •   Abstract:

La gestion de données à grande échelle est certainement une des applications les plus importantes des systèmes distribués du futur. Le modèle de programmation MapReduce introduit par Google est un des modèles les plus prometteurs pour déployer des services applicatifs sur des plates-formes de traitement de données à grande échelle,notamment sur les Grilles et les Clouds. Ce modèle de programmation hautement parallèle permet la programmation d’une grande variété d’applications, depuis le traitement de données classiques à des applications de génomique. Par ailleurs, les plates-formes de calcul virtualisées ou Clouds entrent maintenant de plein pied dans le monde de la recherche et de l’industrie, notamment grâce aux offres d’Amazon, IBM et Google. Des logiciels du domaine publique existent également comme Eucalyptus et Nimbus. Ces derniers permettent aux chercheurs de travailler sur différents aspects et niveaux de ces plates-formes.

Hadoop implémente MapReduce en utilisant le Hadoop Distributed File System (HDFS) qui est la version open-source du Google File System. Alors qu’Hadoop a été validé sur des grappes de 2000 nœuds, il doit passer à des dizaines de milliers de nœuds à travers le monde. L’extensibilité et la tolérance aux pannes sont donc des sujets de recherche importants pour obtenir suffisamment de performances à cette échelle. Le modèle actuel est fortement centralisé et utilise des modèles de réplication de données rudimentaires.

La thèse aura donc pour but d’étudier des algorithmes pour la réplication des données, la distribution de l’ordonnancement des tâches et le placement de ces tâches sur les processeurs virtuels pour des applications écrites selon le modèle MapReduce. Les fonctions objectives pourront être multiples et conjointes, des performances brutes au coût de location des ressources côté applications, aux débit de la plate-forme et à l’équité entre les applications côté gestionnaire de ressources.

Des expériences à grande échelle sur les plates-formes Grid'5000 et IBM/Google seront effectuées en plus d’une validation théorique des travaux.

  • Date de début : septembre 2009

  • Soutenue le 10 décembre 2012

  • Thèse #6

Benjamin Depardon. Cosmological deployment and simulation on Grid Environments

  •   Abstract:

This thesis deal with the execution of applications on heterogeneous and distributed environments: computing grids. We study, from end-to-end, the process allowing users to execute complex scientific applications. The contributions of this work are thus manifold.

  • Hierarchical middleware deployment: we first present an execution model for hierarchical middleware. Then, based on this model, we present several heuristics to automatically determine the shape of the hierarchy that would best fit the users' needs, depending on the platform it is executed on. We evaluate the quality of the approach on a real platform using the DIET middleware.
  • Graph clustering: we propose a distributed and self-stabilizing algorithm for clustering weighted graphs. Clustering is done based on a distance metric between nodes: within each created cluster the nodes are no farther than a distance k from an elected leader in the cluster.
  • Scheduling: we study the scheduling of independent tasks under resources usage limitations. We define linear programs to solve this problem in two cases: when tasks arrive all at the same time, and when release dates are considered.
  • Cosmological simulations: we have studied the behavior of applications required to run cosmological simulations workflows. Then, based on the DIET grid middleware, we implemented a complete infrastructure allowing non-expert users to easily submit cosmological simulations on a computing grid.
  • Date début : septembre 2007

  • Soutenue le 6 octobre 2010

  • Thèse #5

Cédric Tedeschi. Découverte de services dans les environnements pair à pair

  • Co-encadrement avec Frédéric Desprez

  •   Abstract:

Cette thèse étudie la découverte de services (composants logiciels, exécutables, librairies scientifiques) sur des plates-formes distribuées à grande échelle. Les approches traditionnelles, proposées pour des environnements stables et relativement petits, s’appuient sur des techniques centralisées impropres au passage à l’échelle dans des environnements géographiquement distribués et instables. Notre contribution s’articule autour de trois axes. 1. Nous proposons une nouvelle approche appelée DLPT (Distributed Lexicographic Placement Table), qui s’inspire des systèmes pair-à-pair et s’appuie sur un réseau de recouvrement structuré en arbre de préfixes. Cette structure permet des recherches multi-attributs sur des plages de valeurs. 2. Nous étudions la distribution des nœuds de l’arbre sur les processeurs de la plate-forme sous-jacente, distribuée, dynamique et hétérogène. Nous proposons et adaptons des heuristiques de répartition de la charge pour ce type d’architectures. 3. Notre plate-forme cible, par nature instable, nécessite des mécanismes robustes pour la tolérance aux pannes. La réplication traditionnellement utilisée s’y avère coûteuse et incapable de gérer des fautes transitoires. Nous proposons des techniques de tolérance aux pannes best-effort fondées sur la théorie de l’auto-stabilisation pour la construction d’arbres de préfixes dans des environnements pair-à-pair. Nous présentons deux approches. La première, écrite dans un modèle théorique à gros grain, permet de maintenir des arbres de préfixes instantanément stabilisants, c’est-à-dire reconstruits en un temps optimal après un nombre arbitraire de fautes. La deuxième, écrite dans le modèle à passage de messages, permet l’implantation d’une telle architecture dans des réseaux très dynamiques. Enfin, nous présentons un prototype logiciel mettant en œuvre cette architecture et présentons ses premières expérimentations sur la plate-forme Grid'5000.

  • Date de début : Septembre 2005

  • Soutenue le 2 octobre 2008

  • Thèse #4

Pushpinder Kaur Chouhan. Automatic Deployment for Application Service Provider Environments

  • Co-encadrement avec Frédéric Desprez

  •  Abstract:

The main objective of the thesis is to improve the performance of a NES environments so as to use these environments efficiently. Here efficiency means the maximum number of completed requests that can be treated in a time step by these environments. The very first problem which comes to picture is related to the applications scheduling on the selected servers. We have presented algorithms for the scheduling of the sequential tasks on a NES environment. Experimentally we proved that the deadline scheduling with priority along with fallback mechanism can increase the overall number of tasks executed by the NES. Another important factor that influence the efficiency of the NES environments is the mapping style of the environment’s components on the available resources. The questions such as “which resources should be used?”, “how many resources should be used?” and “should the fastest and connected resource be used for middleware or as a computational resource?” remained unanswered. In this thesis we gave the solutions to these questions. We have shown theoretically that the optimal deployment on cluster is a Complete Spanning d-ary (CSD) tree complete spanning d-ary tree. Considering heterogeneous resources we presented a deployment heuristic, as finding the best deployment among heterogeneous resources is amounts to find the best broadcast tree on a general graph, which is known to be NP-complete. Finally, we gave a mathematical model that can analyze an existing deployment and can improve the performance of the deployment by finding and then removing the bottlenecks. This is an heuristic approach for improving deployments of NES environments that has been defined by other means. Deployment planning algorithms and heuristics presented in the thesis are validated by implementing them to deploy a hierarchical middleware DIET, on different sites of Grid'5000, a set of distributed computational resources in France.

  • Date de début : Octobre 2003

  • Soutenue le 28 septembre 2006

  • Thèse #3

Vincent Garonne. Étude, définition et modélisation d'un Système Distribué à Grande Échelle: DIRAC - Distributed Infrastructure with Remote Agent Control

  • Co-tutelle CPPM/LIP ENS-Lyon.

  • Co-encadrement avec Regnaud Legnac et Andreï Tsaregorodtsev

  •  Abstract:

La physique des particules traite un grand nombre de données qui nécessitent des ressources de calculs particulièrement importantes. C’est pourquoi, les applications de simulation et d’analyse d’une expérience de physique des particules se retrouvent dans un environnement de calculs distribués à grande échelle. Souvent dénommés grilles, ces environnements se différencient des machines parallèles les ayant précédés par leurs natures intrinsèquement hétérogènes, partagées et fortement dynamiques. Ils se déclinent en deux types de système : les grilles institutionnelles qui mutualisent les ressources d’organismes par accord mutuel et les systèmes communautaires de calcul global dont le pair-à-pair est un exemple.

Dans cette thèse, nous étudions ces systèmes et soulignons l’intérêt d’un système hybride conjuguant les deux approches. Nous proposons une implémentation d’un système unifié DIRAC (Distributed Infrastructure With Remote Agent Control). Cette solution est un système léger, extensible et robuste, qui offre une plate-forme transparente et uniforme pour une seule communauté ou organisation virtuelle. Le but est d’agréger le plus grand nombre de ressources de tout type avec une simplicité de déploiement, de maintenance et d’administration. Nous détaillons les technologies et mécanismes mis en œuvre pour un tel environnement. DIRAC repose sur une architecture orientée service Agents/services régulant notamment la charge et les accès aux données dans le contexte de régime permanent et saturé (“High Throughput Computing”) générés par des simulations de Monte-carlo et des analyses de données. Ainsi, DIRAC a connecté plus de 6.000 processeurs répartis sur une soixantaine de sites dans le monde, a supporté plus de 5.500 tâches simultanées et a stocké, transféré et dupliqué plus de 100 téra-octets de données.

Pour l’évaluation de l’ordonnancement de DIRAC dans un tel contexte, nous avons proposé une modélisation et développé un simulateur autorisant la comparaison de stratégies et d’architectures pour l’ordonnancement et le méta-ordonnancement. Avec cet outil, dont nous soulignons la validité, nous avons justifié l’approche de DIRAC “pull” face à d’autres approches centralisées et architectures de types “push”.

  • Date de début : Octobre 2002

  • Soutenue le 14 décembre 2005

  • Thèse #2

Martin Quinson. Découverte automatique des caractéristiques et capacités d'une plate-forme de calcul distribué

  • Co-encadrement avec Frédéric Desprez

  •  Abstract:

Afin de répondre aux besoins de puissance de calcul sans cesse croissants, le metacomputing est une extension du parallélisme consistant à fédérer des ressources hétérogènes de calcul et de stockage distribuées pour en agréger la puissance. Une machine virtuelle ainsi formée par un large ensemble d’organisations distantes partageant leurs ressources locales est souvent dénommée grille (ou Grid).

Contrairement aux machines parallèles l’ayant précédée, cette plate-forme présente des caractéristiques intrinsèquement hétérogènes. De plus, les ressources ne sont que rarement réservées à un seul utilisateur, ce qui implique une forte dynamicité des disponibilités.

Pour relever les défis posés par cette plate-forme, une approche classique consiste à utiliser une extension des RPC (Remote Procedure Call – invocations de procédures distantes). Des clients soumettent des requêtes de calculs à des agents chargés de les ordonnancer interactivement sur des serveurs de calculs (utilisant des bibliothèques de calcul parallèles ou séquentielles) en fonction des capacités des serveurs et de leur charge de travail actuelle. L’appréciation de l’adéquation d’un serveur pour un calcul donné est donc l’un des problèmes majeurs à résoudre pour permettre la conception ainsi que la mise en œuvre d’algorithmes et de politiques d’ordonnancement adaptés à la grille.

Cette thèse est une contribution à la résolution des problèmes posés par l’obtention d’informations actuelles et pertinentes à propos de la grille.

  • Date de début : Septembre 2000

  • Soutenue le 11 décembre 2003

  • Thèse #1

Encadrement M2

Zeina Houmani

Study and design of data-driven services/microservices discovery mechanisms. Co-encadrement avec Daniel Balouek-Thomert. Durée 7 mois. Stage en alternance de M2 ENS de Lyon. Octobre 2017. #14

Remy Grünblatt

Un nouveau paradigme pour la gestion de données distribuée. Co-encadrement avec Christian Pérez. Durée 4 mois. Stage de M2 ENS de Lyon. Février 2017. #13

Daniel Ciugurean

Automatic Security Orchestration in Cloud Environments. Co-encadrement avec Arnaud Lefray. Durée 3 mois. Niveau équivalent M2. Stage de 5ème année d’Université Technique. Technical University of Cluj Napoca. Roumanie. Mars 2016. #12

Amir Wonjiga

Design and Implementation of System’s Information Flows with IF-PLTL for Dynamic Monitoring. Co-encadrement avec Arnaud Lefray. Durée 4 mois. Stage de M2 ENS de Lyon. Février 2015. #11

Patrick Telemaque

Étude et mise en oeuvre d’un support pour la gestion des grandes données au sein de l’intergiciel DIET sur environnements applicatifs dédiés. Durée 5 mois. Stage de M2 de la Vietnam National University, Hanoi. Mars 2014. #10

Issam Raïs

Étude pour la mise en place d’ordonnanceur(s) de tâches de calcul selon critères thermiques en environnement dédié. Co-encadrement avec Laurent Lefevre (Inria), Benjamin Laplane (DeFab). Durée 4 mois. Stage de M2. Février 2014. #9

Semen Marchuk

Ordonnancement de tâches malléables au sein de l’intergiciel DIET. Durée 4 mois. Stage de M2 ENS de Lyon. Février 2014. #8

Cristian Klein

Efficient Grid Resource Selection for a CEM Application. Co-encadrement avec Christian Pérez. Durée 4 mois. Stage de M2 ENS-Lyon. Février 2009. #7

Adrian Muresan

Cloud Computing Resource Management through a Grid Middleware: A Case Study with DIET and Eucalyptus. Co-encadrement avec Frédéric Desprez. Durée 3 mois. Niveau équivalent M2. Stage de 5ème année d’Université Technique. Technical University of Cluj Napoca. Roumanie. Mars 2009. #6

Andréea Chis

Experimental validation for DIET’s plug-in scheduler. Co-encadrement avec Yves Caniou. Durée 3 mois. Niveau équivalent M2. Stage de 5ème année d’Université Technique. Technical University of Cluj Napoca. Roumanie. Mars 2006. #5

Charles Fourdrinier

Arbre Lexicographique distribués et auto-stabilisant. Co-direction avec Franck Petit (LaRIA, Université de Picardie Jules Verne, Amiens). Durée 4 mois. Stage de M2. Février 2006. #4

Benjamin Depardon

Gridification d’une application de cosmologie. Co-encadrement avec le CRAL. Durée 5 mois. 4ème année au département informatique à l’INSA. Mai 2005. #3

Cédric Tedeschi

Intégration et expérimentation d’algorithmes pair-à-pair pour la localisation de services au sein d’un intergiciel de grille. Co-encadrement avec Frédéric Desprez. Durée 4 mois. 4ème année au département informatique à l’INSA. Mai 2004. #2

Peter Frauenkron

Prédiction de performances pour l’ordonnancement dans DIET. Durée 4 mois. Niveau équivalent M2. FUNDP (Facultés Universitaires Notre-Dame de la Paix / Belgique). Septembre 2005. #1

Encadrement stagiaires étrangers

Joël Faubert

Data manager improvement of the DIET middleware using the Cloud. Durée 4 mois. Programme de stage d’initiation a la recherche au 1er cycle SIRI Université de Lyon/Université d’Ottawa. Mai 2016. #5

Vlad Acretoaie

Simulation d’algorithmes d’acheminement de messages auto-stabilisants pour la découverte de services à grande échelle. Co-encadrement avec Cédric Tedeschi (IRISA). Durée 3 mois. Niveau équivalent L3. Stage de 3ème année d’Université Technique. Technical University of Cluj Napoca. Roumanie. Juin 2009. #4

Ludovic Huys

Mise en place d’une architecture distibuée parallèle au service de l’imagerie fonctionnelle par résonance magnétique. Co-encadrement avec Eric Boix. Durée 4 mois. Niveau équivalent M2. FUNDP ( Facultés Universitaires Notre-Dame de la Paix / Belgique). Septembre 2005. #3

Georg Hoesch

Outils de visualisation de la plate-forme DIET. En collaboration avec Cyrille Pontvieux. Co-encadrement avec Frédéric Desprez. Durée 6 mois. TU Muenchen Informatik. Décembre 2003. #2

Ritesh Kumar

An Alternative Architecture for Network Computation Servers. Co-encadrement avec Frédéric Desprez. Durée 3 mois. IIT (Indian Institut of Technology) de Kanpur (Inde). 2002. #1

Encadrement (L3/Ingénieur/IUT/IUP/BTS)

Thomas Labrux

Conception et mise en place d’un WebBoard pour un environnement de calculs distribuées pour la bio-informatique. Co-encadrement avec Jonathan Rouzaud-Cornabas (LIRIS). Durée 3 mois. Stage IUT Lyon1. Avril 2017. #10

Gwenola Biermé

Contribution à la mise en oeuvre d’une plate-forme pour l’identification de gènes. Co-encadrement Arnaud Bonnaffoux (LBMC). Durée 3 mois. Stage IUT. Avril 2017. #9

Thomas Pellissier-Tanon

Contribution à la mise en oeuvre d’un support pour l’ordonnancement de tâches malléables sur fermes de calculs et Clouds. Durée 2 mois. Stage L3 ENS de Lyon. Juin 2014. #8

Barbara Walter

Déploiement de DIET au CEA et analyse des besoins. Co-encadrement CEA/LIP. Durée 2 mois (2 semaines au LIP/ 6 semaines au CEA). INSA Lyon. Juin 2009. #7

Brice Arnould

Étude préliminaire de l’ordonnancement dans Hadoop. Co-encadrement avec Frédéric Despez. Durée 3 mois. Stage en entreprise LIFSTI. Avril 2008. #6

Marc Boury

Extensions à VizDIET plate-forme de visualisation dédiée à DIET. Co-encadrement avec Raphaël Bolze. Durée 2 mois. BTS IRIS (Informatique et Réseaux pour l'Industrie et les Services techniques) LTP la providence (Amiens). Mai 2004. #5

Cyrille Pontvieux

Outils de visualisation de la plate-forme DIET. En collaboration avec Georg Hoesch. Co-encadrement avec Frédéric Desprez. Durée 6 mois. IUP Info de l’Université de Franche Comté (3ème année. Maîtrise). Décembre 2003. #4

Pierre Machard

Extension d’un outil de prédiction de performances pour le Grid Computing. Co-encadrement avec Martin Quinson.Durée du stage 1 mois. 2003. #3

Cedric Tedeschi

Extension JXTA pour DIET. Multi-encadrement avec Philippe Combes et Frédéric Desprez. INSA Lyon. Durée du stage 3 mois. Juin 2003. #2

Romain Lacroix

Administration d’une plateforme de Grid Computing. Co-encadrement avec Martin Quinson. IUT2 Grenoble. Durée du stage 2 mois. Avril 2002. #1