Hello all,

Cross posting from SFBI.

Dave C

---------- Forwarded message ----------
From: Sarah Cohen-Boulakia <Sarah.Cohen_Boulakia@lri.fr>
Date: 2014-02-06 10:53 GMT-08:00
Subject: [bioinfo] Stage M2 Recherche : Provenance dans un système de workflows pour la bioinformatique
To: bioinfo@sfbi.fr


Bonjour,
Veuillez trouver ci-dessous une offre de stage de M2R pour la conception
d'un module de provenance dans un système de workflows pour la
bioinformatique.
Cordialement,
Sarah Cohen-Boulakia

Sujet de stage M2 Recherche

Conception d’un module de Provenance dans un système de workflow pour la
bioinformatique

Mots clés : plateformes d'analyses; intégration d'informations; bases de
données; algorithmique (graphes)

Encadrants : Sarah Cohen-Boulakia et Patrick Valduriez
Lieu : Institut de Biologie Computationnelle (IBC), Montpellier (préféré)
ou Laboratoire de Recherche en Informatique, Orsay
Contact : cohen@lri.fr

Contexte

La taille et la quantité des données scientifiques produites et disponibles
ont considérablement augmentées au cours des dernières années. En plus de
devoir être stockées et gérées, la tâche la plus importante réalisée sur ces
ensembles de données est leur analyse qui met en jeu une série d’outils
bioinformatiques complexes et dédiés au domaine d’étude. Une telle analyse
est typiquement réalisée par l’assemblage d’étapes impliquant une multitude
de scripts, d’outils et d’algorithmes. Des efforts considérables ont été
réalisés dans le développement de systèmes et plateformes capables de
fournir un soutien à l’utilisateur lors de la conception et la gestion de
telles analyses (appelés systèmes de workflows). Certains de ces systèmes
ont depuis quelques années des modules de provenance, capable de garder la
trace précise des lancements d’enchaînements d’outils effectués, offrant à
l’utilisateur la possibilité de reproduire ses expériences bioinformatiques
et d’accéder à des informations relatives à la qualité des résultats obtenus
(qualité relative à la fiabilité des outils utilisés, des données prises en
entrées, des types de paramètres utilisés etc.).  Face à la multitude de
représentations disponibles pour les données de provenance [MPB10], [ABM+09]
une série de Provenance Challenges [MLA+08] [SGM11] a été organisée,
débouchant sur la proposition d’un standard très général de provenance OPM,
Open Provenance Model [MCF+11].

Dans ce stage on s'intéressera plus particulièrement à l'un des deux
systèmes suivants :
* Galaxy [GNT+10] qui est l’un des systèmes de workflows les plus utilisés
par la communauté bioinformatique internationale pour analyser les données
biologiques
* OpenAlea [PDB+08] qui est une plateforme d’analyse, de visualisation et
modélisation du fonctionnement et de la croissance de l’architecture des
plantes qui compte aujourd’hui plusieurs centaines d’utilisateurs.

L’Institut de Biologie Computationnelle de Montpellier a de nombreux
utilisateurs et concepteurs de workflows Galaxy et OpenAlea. En fonction de
la sensibilité du stagiaire, on pourra travailler sur l’un ou l’autre de ces
systèmes. La problématique restant identique.

L’objectif général de ce stage est de proposer un *module de provenance*
capable de garder la trace précise de la composition des workflows et des
exécutions (outils utilisés, paramètres et données prises en entrée et
générées). Ce module devra permettre aux utilisateurs de connaître
l’évolution d’un workflow : « quel module a été modifié ou ajouté entre deux
versions de ce workflow ?», « quelles sont les différences entre deux
workflows ayant le même but général (ie produisant le même type de donnée)
mais ayant été conçu par deux équipes/personnes différentes » ?...
Ce module devra aussi permettre aux utilisateurs de comprendre mieux les
résultats différents obtenus par les exécutions d’un même workflow (rôle du
paramétrage des outils impliqués dans le workflow, rôle des données
d’entrée…) [BCD+09].
Les réponses à ces questions doivent pouvoir être considérées à différents
niveaux de granularité [BCD+08] en fournissant à l’utilisateur des niveaux
de détails plus ou moins important selon ses souhaits pour ne pas être
submergé d’informations.

Travail attendu

Le but de ce stage est (i) de proposer une représentation concise,
expressive et capable de prendre en compte des niveaux de granularités de
provenance différents des workflow de Galaxy ou Open Alea et de leurs
exécutions (compatible avec les standards de provenance) et (ii)
d’introduire un algorithme efficace de comparaison de ces workflows et
exécutions. Plus spécifiquement, les différentes tâches attendues sont les
suivantes :

•       Représentation des workflows (modules et les liens entre les
modules), représentation des exécutions des workflows (données consommées et
produites lors d’une exécution et exécution de modules), définition de la
relation entre ces représentations ("models of computation"). Différents
niveaux de granularité/détail devront pouvoir être considérés dans ces
représentations.
•       Proposition d’une structure de stockage et d’un format d’échange
pour les workflows et leurs exécutions
•       Conception et implémentation d’un algorithme de comparaison de
workflows et d’exécutions à divers niveaux de granularités
•       Implémentation d'un module de provenance et de la fonctionnalité de
différenciation des workflows et exécutions dans Galaxy ou OpenAlea

Références

[ABM+09] Anand, M. K., Bowers, S., McPhillips, T., & Ludäscher, B. (2009,
March). Efficient provenance storage over nested data collections. In
Proceedings of the 12th International Conference on Extending Database
Technology: Advances in Database Technology (pp. 958-969). ACM.
[BCD+09] Bao, Z., Cohen-Boulakia, S., Davidson, S. B., Eyal, A., & Khanna,
S. (2009, March). Differencing provenance in scientific workflows. In Data
Engineering, 2009. ICDE'09. IEEE 25th International Conference on (pp.
808-819). IEEE.
[BCD+08] Biton, O., Cohen-Boulakia, S., Davidson, S. B., & Hara, C. S.
(2008, April). Querying and managing provenance through user views in
scientific workflows. In Data Engineering, 2008. ICDE 2008. IEEE 24th
International Conference on (pp. 1072-1081). IEEE.
[GNT+10] Goecks, J., Nekrutenko, A., Taylor, J., & Team, T. G. (2010).
Galaxy: a comprehensive approach for supporting accessible, reproducible,
and transparent computational research in the life sciences. Genome Biol,
11(8), R86.
[MCF+11] Moreau, L., Clifford, B., Freire, J., Futrelle, J., Gil, Y., Groth,
P., & den Bussche, J. V. (2011). The open provenance model core
specification (v1. 1). Future Generation Computer Systems, 27(6), 743-756.
[MLA+08] Moreau, L., Ludäscher, B., Altintas, I., Barga, R. S., Bowers, S.,
Callahan, S., et al (2008). Special issue: The first provenance challenge.
Concurrency and computation: practice and experience, 20(5), 409-418.
[MPB10] Missier, P., Paton, N. W., & Belhajjame, K. (2010, March).
Fine-grained and efficient lineage querying of collection-based workflow
provenance. In Proceedings of the 13th International Conference on Extending
Database Technology (pp. 299-310). ACM.
[PDB+08] C. Pradal, S. Dufour-Kowalski, F. Boudon, C. Fournier, C. Godin.
OpenAlea: A visual programming and component-based software platform for
plant modeling. Functional Plant Biology
[SGM11] Simmhan, Y., Groth, P., & Moreau, L. (2011). Special Section: The
third provenance challenge on using the open provenance model for
interoperability. Future Generation Computer Systems, 27(6), 737-742.

Autres informations
Rémunération (gratification) : 436 euros/mois

--
Sarah Cohen-Boulakia
Maître de conférences
Laboratoire de Recherche en Informatique
Université Paris Sud



--
http://www.sfbi.fr
Archives : http://listes.sfbi.fr/wws/arc/bioinfo



--
http://galaxyproject.org/
http://getgalaxy.org/
http://usegalaxy.org/
http://wiki.galaxyproject.org/