Table of Contents

Pages de manifestation SPARKS depuis septembre 2015 (sur le site du laboratoire I3S)

SPARKS public calendar: in HTML or in iCal.

2017

Séminaires

Marie-Christine ROUSSET: Datalog revisited for reasoning in Linked Data

When: 3rd March 2017, 10h00
Where: POLYTECH, Templiers 2, room 307

Abstract
Linked Data provides access to huge, continuously growing amounts of open data and ontologies in RDF format that describe entities, links and properties on those entities. Equipping Linked Data with inference paves the way to make the Semantic Web a reality. In this presentation, I will describe a unifying framework for RDF ontologies and databases that we call deductive RDF triplestores. It consists in equipping RDF triple stores with Datalog inference rules. This rule language allows to capture in a uniform manner OWL constraints that are useful in practice, such as property transtivity or symmetry, but also domain-specific rules with practical relevance for users in many domains of interest. I will illustrate the expressivity of this framework for modeling Linked Data applications and its genericity for developing inference algorithms. In particular, we will show how it allows to model the problem of data linkage in Linked Data as a reasoning problem on possibly decentralized data. I will also explain how it makes possible to efficiently extract expressive modules from Semantic Web ontologies and databases with formal guarantees, whilst effectively controlling their succinctness. Experiments conducted on real-world datasets have demonstrated the feasibility of this approach and its usefulness in practice for data integration and information extraction.

Soutenances

PhD Thesis Defense - Franck MICHEL

Salle Euler Violet, Inria. 03/03/2017 14h

Abstract

Title: Integrating Heterogeneous Data Sources in the Web of Data

To a great extent, RDF-based data integration as well as the Web of Data depend on the ability to reach out legacy data locked in data silos where they are invisible to the web. In the last 15 years, various works have tackled the problem of exposing structured data in the Resource Description Framework (RDF), starting with relational databases (RDB), spreadsheets and the XML data format. Meanwhile, the overwhelming success of NoSQL databases has made the database landscape more diverse than ever. So far, though, these databases remain inaccessible to RDF-based data integration systems, and although the data they host may be of interest to a large audience, they remain invisible to the Web of Data. Hence, to harness the potential of NoSQL databases and more generally non-RDF data sources, the objective of this thesis is to enable RDF-based data integration over heterogeneous databases and, in particular, to reconcile the Semantic Web with the NoSQL family of databases.

Firstly, we propose a generic mapping language, xR2RML, able to describe the mapping of varying types of databases into an arbitrary RDF representation. This language relies on and extends previous works on the translation of RDBs, CSV and XML into RDF. Secondly, we propose to use such an xR2RML mapping either to materialize RDF data or to dynamically evaluate SPARQL queries on the native database. To spur the development of SPARQL interfaces over legacy databases, we propose a two-step approach. The first step performs the translation of a SPARQL query into a pivot abstract query based on the xR2RML mapping of the target database to RDF. In the second step, the abstract query is translated into a concrete query, taking into account the specificities of the database query language. Great care is taken of the query optimization opportunities, both at the abstract and the concrete levels. To demonstrate the effectiveness of our approach, we have developed a prototype implementation for MongoDB, the popular NoSQL document store. We have validated the method using a real-life use case in Digital Humanities.

2016

Séminaires

Matthieu Cord: Deep learning and weak supervision for image classification

When: 17th May 2016, 10h00
Where: POLYTECH, room E+132
By: Matthieu Cord

Abstract
Deep learning and Convolutional Neural Networks (CNN) are state-of-the-art methods for various visual recognition tasks, e.g. image classification or object detection. To better identify or localize objects, bounding box annotations are often used. These rich annotations quickly become too costly to get, making the development of Weakly Supervised Learning (WSL) models appealing. We discuss several strategies to automatically select relevant image regions from weak annotations (e.g. image-level labels) in deep CNN. We also introduce our architecture WELDON for WEakly supervised Learning of Deep cOnvolutional neural Networks. Our deep learning framework, leveraging recent improvements on the Multiple Instance Learning paradigm, is validated on seceral recognition tasks.

About the speaker
Matthieu Cord is Professor in the Computer Science department LIP6, at UPMC University. In 2009, he was nominated at the IUF (French Research Institute) for a 5 years delegation position. He is currently CNRS scientific advisor for INS2I. His research interests include Computer Vision, Pattern Recognition and Machine Learning. He developed several systems for content-based image and video retrieval, focusing on interactive learning-based approaches. He is now focusing on Machine Learning for Multimedia processing, Deep Learning for visual data recognition, and Computational cooking. M. Cord has published a hundred scientific publications. He is involved in several French (ANR, CNRS) and international projects (European IP and NoE, Singapore, Brazil, Canada) on these topics.

Slides
Deep learning and weak supervision for image classification

Jörg Kienzle: Concern-Oriented Reuse

When: 14th April 2016, 14h30
Where: EURECOM, room 101
By: Jörg Kienzle

Abstract

MDE: In the context of MDE, my current research focusses on Concern-Oriented Reuse (CORE), a new software reuse paradigm in which software artifacts (models and/or code) are modularized by domains of abstraction within units of reuse called concerns. CORE combines techniques from software product line engineering and aspect-orientation to create extremely versatile, generic units of reuse with well-defined interfaces that encapsulate a variety of solutions to recurring software development problems and allow the user to reason about the impact of selecting a solution on high-level goals and system properties. I am going to give a Labex seminar on CORE this Thursday, April 14th, from 14:30 - 15:30 at EURECOM, room 101 (http://www.sophia-networking.org/content/concern-oriented-reuse). While this talk is going to give a high-level overview on CORE, I am planning to present more details about CORE in the following weeks to the modelling groups at I3S, in particular on:

I would be very interested in talking to anyone who is developing reusable libraries / frameworks to address software development concerns, e.g., networking / communication concerns, distribution, security, fault tolerance, etc…

Distributed Systems: In the context of distributed systems, I have been mainly working on data dissemination and fault tolerance in large-scale, latency constrained client-server and peer-2-peer systems. Specifically, I would be happy to tell you more about:

For all 3 papers, we ran extensive real-world experiments involving hundreds of machines and thousands of players on top of Mammoth, a massively multiplayer game research framework that we developed over the last 10 years.

About the speaker
Jörg Kienzle is an associate professor at the School of Computer Science at McGill University in Montreal, Canada, and is visiting the SPARKS team at I3S until end of June 2016. He is interested in meeting anyone at I3S / Inria / Eurecom with common interests to talk about potential collaboration. His research group works in two fields, model-driven engineering (MDE) and distributed systems. Description of the research topics and of a first seminar for the Labex on Thursday April 14th follow.

Soutenances

PhD Thesis Defense - Atheer AL-NAJDI

Salle de conférence I3S, bâtiment Euclide B, Algorithmes. 30/11/2016 10h

Abstract

Title: A Closed Patterns-based Approach to the Consensus Clustering Problem

Clustering is the process of partitioning a dataset into groups, so that the instances in the same group are more similar to each other than to instances in any other group. Many clustering algorithms were proposed, but none of them proved to provide good quality partition in all situations. Consensus clustering aims to enhance the clustering process by combining different partitions obtained from different algorithms to yield a better quality consensus solution. In this work, a new consensus clustering method, called MultiCons, is proposed. It uses the frequent closed itemset mining technique in order to discover the similarities between the different base clustering solutions. The identified similarities are presented in a form of clustering patterns, that each defines the agreement between a set of base clusters in grouping a set of instances. By dividing these patterns into groups based on the number of base clusters that define the pattern, MultiCons generates a consensus solution from each group, resulting in having multiple consensus candidates. These different solutions are presented in a tree-like structure, called ConsTree, that facilitates understanding the process of building the multiple consensuses, and also the relationships between the data instances and their structuring in the data space. Five consensus functions are proposed in this work in order to build a consensus solution from the clustering patterns. Approach 1 is to just merge any intersecting clustering patterns. Approach 2 can either merge or split intersecting patterns based on a proposed measure, called intersection ratio. Approach 3 differs from the previous approaches by searching for the best similar pattern before making a merge/split decision, and, in addition, it uses the average intersection ratio. While approach 3 works sequentially on the clustering patterns, approach 4 uses a similarity matrix of intersection ratios to search for the best merge/split. Approach 5 is a simple graph partitioning process to build clusters of clustering patterns. These five approaches are tested with many benchmark datasets to compare their performance on different clustering problems.

Keywords: Clustering; Unsupervised learning; Consensus clustering; Clusterings ensemble; Frequent closed itemsets.

Résumé

Titre : Une approche basée sur les motifs fermés pour résoudre le problème de clustering par consensus

Le clustering est le processus de partitionnement d’un ensemble de données en groupes, de sorte que les instances du même groupe sont plus semblables les unes aux autres qu’avec celles de tout autre groupe. De nombreux algorithmes de clustering ont été proposés, mais aucun d’entre eux ne s’avère fournir une partition des données pertinente dans toutes les situations. Le clustering par consensus vise à améliorer le processus de regroupement en combinant différentes partitions obtenues à partir de divers algorithmes afin d’obtenir une solution de consensus de meilleure qualité. Dans ce travail, une nouvelle méthode de clustering par consensus, appelée MultiCons, est proposée. Cette méthode utilise la technique d’extraction des itemsets fréquents fermés dans le but de découvrir les similitudes entre les différentes solutions de clustering dits de base. Les similitudes identifiées sont représentées sous une forme de motifs de clustering, chacun définissant un accord entre un ensemble de clusters de bases sur le regroupement d’un ensemble d’instances. En traitant ces motifs par groupes, en fonction du nombre de clusters de base qui définissent le motif, la méthode MultiCons génère une solution de consensus pour chaque groupe, générant par conséquence plusieurs consensus candidats. Ces différentes solutions sont ensuite représentées dans une structure arborescente appelée arbre de consensus, ou ConsTree. Cette représentation graphique facilite la compréhension du processus de construction des multiples consensus, ainsi que les relations entre les instances et les structures d’instances dans l’espace de données. Cinq approches de clustering par consensus, permettant de construire une solution de consensus à partir des motifs de clustering, sont proposées dans ce travail. La première approche fusionne simplement successivement tous les motifs de clustering qui se recoupent. La seconde approche va soit fusionner, soit diviser les motifs qui se recoupent selon le résultat d’une nouvelle mesure appelée ratio d’intersection. La troisième approche diffère des approches précédentes en recherchant, pour chaque motif, le motif le plus similaire parmi ceux qui se recoupent avant de faire une fusion ou division ; de plus, cette approche utilise la mesure du ratio moyen d’intersection afin de décider de fusionner ou diviser les motifs. Alors que la troisième approche traite les motifs de clustering séquentiellement, la quatrième approche utilise une matrice de similarité des ratios d’intersection pour rechercher la meilleure fusion ou division. La cinquième approche se base sur un processus de partitionnement de graphe afin de créer des regroupements de motifs de clustering. Les expérimentations qui ont menées avec ces cinq approches concernent de nombreux ensembles de données utilisés usuellement pour les comparaisons de performances d’approches traitant divers problèmes de clustering.

Mots clés : Clustering ; Classification non-supervisée ; Clustering par consensus ; Ensembles clustering ; Itemsets fréquents fermés.

PhD Thesis Defense - Romaric Pighetti

Salle de conférence I3S, bâtiment Euclide B, Algorithmes. 28/11/2016 15h

Abstract

Title: Hybrid Method for Fine-Grained Content Based Image Retrieval

Given the ever growing amount of visual content available on the Internet, the need for systems able to search through this content has grown. Content based image retrieval systems have been developed to address this need. But with the growing size of the databases, new challenges arise. In this thesis, the fine grained classification problem is studied in particular. It is first shown that existing techniques, and in particular the support vector machines which are one of the best image classification technique, have some difficulties in solving this problem. They often lack of exploration in their process. Then, evolutionary algorithms are considered to solve the problem, for their balance between exploration and exploitation. But their performances are not good enough either. Finally, an hybrid system combining an evolutionary algorithm and a support vector machine is proposed. This system uses the evolutionary algorithm to iteratively feed the support vector machine with training samples. The experiments conducted on Caltech-256, a state of the art database containing around 30 000 images, show very encouraging results.

Keywords: CBIR, Evolutionary Algorithm, SVM, Fine Grained Classification

Résumé

Titre : Une méthode hybride pour la classification d'images à grain fin

La quantité d'images disponible sur Internet ne fait que croître, engendrant un besoin d'algorithmes permettant de fouiller ces images et retrouver de l'information. Les systèmes de recherche d'images par le contenu ont été développées dans ce but. Mais les bases de données grandissant, de nouveaux défis sont apparus. Dans cette thèse, la classification à grain fin est étudiée en particulier. Elle consiste à séparer des images qui sont relativement semblables visuellement mais représentent différents concepts, et à regrouper des images qui sont différentes visuellement mais représentent le même concept. Il est montré dans un premier temps que les techniques classiques de recherche d'images par le contenu rencontrent des difficultés à effectuer cette tâche. Même les techniques utilisant les machines à vecteur de support (SVM), qui sont très performants pour la classification, n'y parviennent pas complètement. Ces techniques n'explorent souvent pas assez l'espace de recherche pour résoudre ce problème. D'autres méthodes, comme les algorithems evolutionnaires sont également étudiées pour leur capacité à identifier des zones intéressantes de l'espace de recherche en un temps raisonnable. Toutefois, leurs performances restent encore limitées. Par conséquent, l'apport de la thèse consiste à proposer un système hybride combinant un algorithme évolutionnaire et un SVM a finalement été développé. L'algorithme évolutionnaire est utilisé pour construire itérativement un ensemble d'apprentissage pour le SVM. Ce système est évalué avec succès sur la base de données Caltech-256 contenant envieront 30 000 images réparties en 256 catégories.

Mots clés : Recherche d'images par le contenu, machine à vecteur de support, algorithmes évolutionnaires, classification fine

PhD Thesis Defense - Zide Meng

Euler Bleue, Inria Sophia Antipolis, 07/11/2016 14h

Abstract

Title: Temporal and semantic analysis of richly typed social networks from user-generated content sites on the Web

We propose an approach to detect topics, overlapping communities of interest, expertise, trends and activities in user-generated content sites and in particular in question-answering forums such as StackOverFlow. We first describe QASM (Question & Answer Social Media), a system based on social network analysis to manage the two main resources in question-answering sites: users and contents. We also introduce the QASM vocabulary used to formalize both the level of interest and the expertise of users on topics. We then propose an efficient approach to detect communities of interest. It relies on another method to enrich questions with a more general tag when needed. We compared three detection methods on a dataset extracted from the popular Q&A site StackOverflow. Our method based on topic modeling and user membership assignment is shown to be much simpler and faster while preserving the quality of the detection. We then propose an additional method to automatically generate a label for a detected topic by analyzing the meaning and links of its bag of words. We conduct a user study to compare different algorithms to choose the label. Finally we extend our probabilistic graphical model to jointly model topics, expertise, activities and trends. We performed experiments with real-world data to confirm the effectiveness of our joint model, studying the users’ behaviors and topics dynamics.

Résumé

Titre : Analyse temporelle et sémantique des réseaux sociaux typés à partir du contenu de sites généré par des utilisateurs sur le Web

Nous proposons une approche pour détecter les sujets, les communautés d'intérêt non disjointes, l'expertise, les tendances et les activités dans des sites où le contenu est généré par les utilisateurs et en particulier dans des forums de questions-réponses tels que StackOverFlow. Nous décrivons d'abord QASM (Questions & Réponses dans des médias sociaux), un système basé sur l'analyse de réseaux sociaux pour gérer les deux principales ressources d’un site de questions-réponses: les utilisateurs et le contenu. Nous présentons également le vocabulaire QASM utilisé pour formaliser à la fois le niveau d'intérêt et l'expertise des utilisateurs. Nous proposons ensuite une approche efficace pour détecter les communautés d'intérêts. Elle repose sur une autre méthode pour enrichir les questions avec un tag plus général en cas de besoin. Nous comparons trois méthodes de détection sur un jeu de données extrait du site populaire StackOverflow. Notre méthode basée sur le se révèle être beaucoup plus simple et plus rapide, tout en préservant la qualité de la détection. Nous proposons en complément une méthode pour générer automatiquement un label pour un sujet détecté en analysant le sens et les liens de ses mots-clefs. Nous menons alors une étude pour comparer différents algorithmes pour générer ce label. Enfin, nous étendons notre modèle de graphes probabilistes pour modéliser conjointement les sujets, l'expertise, les activités et les tendances. Nous le validons sur des données du monde réel pour confirmer l'efficacité de notre modèle intégrant les comportements des utilisateurs et la dynamique des sujets.

PhD Thesis Defense - Papa Fary Diallo

Euler Bleue, Inria Sophia Antipolis Méditerranée, 16/09/2016 14h

Abstract

Title: Sociocultural and Temporal Aspects in Ontologies dedicated to Virtual Communities

Keywords: Semantic web, Social web, Ontologies, Virtual Communities, Society, Culture, Temporal Annotation, Co-construction and Share.

This thesis is set in a research effort that aims to model sociocultural and temporal aspects to allow Senegalese communities to share and to co-construct their sociocultural knowledge. Indeed, with the globalization it is very common to meet African youth and particularly Senegalese youth knowing more about the geography of the West than their own countries. Thus, to refresh the memory of our fellow citizens and revive the many stories that accompany the creation and daily life of the different Senegalese territories, we initiated the establishment of an online application that allows Senegalese communities to share and co-construct their cultural heritage.

Our proposals are based on social and semantic web technologies. indeed, social web proposes a framework where value is created by the aggregation of many individual user contributions. Thereby, social web makes easier corpus co-construction. The semantic web enables to find, to combine and to share resources, not only between humans but also between machines. The combination of these two technologies enables Senegalese communities to share and co-construct their cultural heritage in a collaborative and semantic environment .

Our contributions include to (i) propose ontologies to annotate sociocultural resources and (ii) provide a framework for communities to share and co-construct their knowledge. Ontologies are backbone of the semantic web and allow to characterize a domain by describing the basic concepts and the relations between them. Thus, we have defined two ontologies : 1) a sociocultural ontology based on cultural-historical activity theory and 2) a temporal ontology to annotate temporally sociocultural resources. We also proposed a virtual community called cultural knowledge-building community which is an adaptation of the knowledge-building community in the cultural field.

Résumé

Titre : Aspects Socioculturels et Temporels dans les Ontologies pour les Communautés Virtuelles résumé

Mots clés : Web sémantique, Web social, Ontologies, Communautés Virtuelles, Société, Culture, Annotation temporelle, Co-construction et Partage.

Les travaux que nous présentons dans cette thèse concernent la modélisation des aspects socioculturels et temporels pour permettre aux communautés sénégalaises de partager et de co-construire leur connaissances socioculturelles. En effet, avec la mondialisation la nouvelle génération africaine et particulièrement sénégalaise a de moins en moins de connaissances sur les aspects socioculturels de leur environnement. Ainsi pour rafraîchir la mémoire de nos concitoyens et redonner vie aux nombreux récits qui accompagnent la création et la vie au quotidien des différents terroirs sénégalais, nous avons initié la mise en place d'une application en ligne pour permettre aux communautés sénégalaises de partager et de co-construire leur patrimoine socioculturel.

Nos propositions s'appuient sur les technologies du Web social et du Web sémantique. En effet, le Web social propose un cadre qui permet à tout utilisateur de participer à la création de contenu dans le Web. De ce fait, le Web social facilite la co-construction de corpus. Les technologies du Web sémantique permettent d'annoter et de raisonner sur ce corpus. Le Web sémantique rend accessible les connaissances d'un domaine aux agents logiciels pour une meilleure recherche d'informations. La combinaison de ces deux technologies permet aux communautés sénégalaises de partager et de co-construire leur patrimoine culturel dans un environnement collaboratif et sémantique.

Nos contributions consistent à (i) proposer des ontologies pour annoter des ressources socioculturelles et (ii) proposer un cadre permettant aux communautés de partager et de co-construire leur connaissances. Les ontologies représentent le socle du Web sémantique et permettent de caractériser un domaine en décrivant les concepts fondamentaux et les relations entre eux. Ainsi, nous avons défini deux ontologies : 1) une ontologie socioculturelle reposant sur la théorie historico-culturelle de l'activité et 2) une ontologie temporelle pour annoter les ressources socioculturelles. Nous avons aussi proposé un type de communauté virtuelle appelé communauté de co-élaboration de connaissances socioculturelle qui est une adaptation des communautés de co-élaboration de connaissances dans le domaine culturel.

2015

Soutenances

PhD Thesis Defense - NGUYEN Thi Hoa Hue

Salle Salle de Conférence I3S, Algorithmes, 23/06/2015 14h

Jury

Directeur: Monsieur Nhan LE-THANH, Université Nice Sophia Antipolis
Examinateurs: Monsieur SANDER Peter, Université Nice Sophia Antipolis
Rapporteurs:

Abstract

Title: Control flow-based business workflow templates checking: An Approach using the Knowledge-based Systems

This thesis tackles the problem of modelling semantically rich business workflow templates and proposes a process for developing workflow templates. The objective of the thesis is to transform a business process into a control flow-based business workflow template that guarantees syntactic and semantic validity. The main challenges are: (i) to define a formalism for representing business processes; (ii) to establish automatic control mechanisms to ensure the correctness of a business workflow template based on a formal model and a set of semantic constraints; and (iii) to organize the knowledge base of workflow templates for a workflow development process.

We propose a formalism which combines control flow (based on Coloured Petri Nets (CPNs)) with semantic constraints to represent business processes. The advantage of this formalism is that it allows not only syntactic checks based on the model of CPNs, but also semantic checks based on Semantic Web technologies.

We start by designing an OWL ontology called the CPN ontology to represent the concepts of CPN-based business workflow templates. The design phase is followed by a thorough study of the properties of these templates in order to transform them into a set of axioms for the CPN ontology. In this formalism, a business process is syntactically transformed into an instance of the CPN ontology. Therefore, syntactic checking of a business process becomes simply a verification by inference, by concepts and by axioms of the CPN ontology on the corresponding instance.

We also introduce the formal definition of semantic constraints, which express dependencies between the activities of a business process. We present an algorithm to check redundant and conflicting semantic constraints. A set of well-checked semantic constraints is transformed into an instance of a business process ontology called the BP ontology. A business workflow template is then developed by creating correspondences between the BP ontology and the CPN ontology. This enables semantic checks related to a specific business process.

We represent the set of axioms of the CPN ontology related to syntactic checks as well as the semantic verification issues related to semantic checks as SPARQL queries. In order to verify workflow templates, we use the Jena semantic engine to match an RDF graph representing a business workflow template to graph patterns of these SPARQL queries. If there are no matches, i.e., no shortcomings, a workflow template is then stored in a knowledge base.

In addition, to provide additional support for specifying business rules, we introduce Event Condition Action (ECA)-like rules that express business level correctness requirements. The sets of ECA-like rules are stored along with the corresponding business workflow template in the same knowledge base. The knowledge base is organized to facilitate the shareability and reusability of workflow templates. Finally, a prototype is developed to demonstrate the feasibility and benefits of the approach.

Résumé

Titre: Techniques d'Extraction de Connaissances en Biodiversité

Cette thèse traite le problème de la modélisation des patrons de workflow semantiquement riche et propose un processus pour développer des patrons de workflow. L'objectif est de transformer un processus métier en un patron de workflow métier basé sur les flux de contrôle qui garantit la vérification syntaxique et sémantique. Les défis majeurs sont : (i) de définir un formalisme permettant de représenter les processus métiers; (ii) d'établir des mécanismes de contrôle automatiques pour assurer la conformité des patrons de workflow métier basés sur un modèle formel et un ensemble de contraintes sémantiques; et (iii) d’organiser la base de patrons de workflow métier pour le développement de patrons de workflow.

Nous proposons un formalisme qui combine les flux de contrôle (basés sur les Réseaux de Petri Colorés (CPNs)) avec des contraintes sémantiques pour représenter les processus métiers. L'avantage de ce formalisme est qu'il permet de vérifier non seulement la conformité syntaxique basée sur le modèle de CPNs mais aussi la conformité sémantique basée sur les technologies du Web sémantique.

Nous commençons par une phase de conception d'une ontologie OWL appelée l’ontologie CPN pour représenter les concepts de patrons de workflow métier basés sur CPN. La phase de conception est suivie par une étude approfondie des propriétés de ces patrons pour les transformer en un ensemble d'axiomes pour l'ontologie. Ainsi, dans ce formalisme, un processus métier est syntaxiquement transformé en une instance de l’ontologie. La vérification syntaxique d'un processus métier devient simplement une vérification par inférence, par concepts et par axiomes de l'ontologie sur l'instance correspondante.

Nous introduisons aussi la définition formelle de contraintes sémantiques, qui exprime les dépendances entre les activités d'un processus métier. Nous présentons un algorithme pour la vérification des contraintes sémantiques redondantes et conflictuelles. Un ensemble de contraintes sémantiques vérifiées est transformé en une instance de l’ontologie de processus métier appelée BP-ontology. Un patron de workflow métier est ensuite développé en créant des correspondances entre l’ontologie BP et l’ontologie CPN. Il permet les vérifications sémantiques d’un processus métier spécifique.

Nous représentons l'ensemble des axiomes de l’ontologie CPN lié à la conformité syntaxique ainsi que les questions de vérification sémantique liées à la conformité sémantique en utilisant des requêtes SPARQL. Afin de vérifier les patrons de workflow, nous utilisons le moteur sémantique Jena pour l'adaptation d'un graphe RDF représentant un patron de workflow métier de ces requêtes SPARQL. Si un patron de workflow métier est vérifié, il sera stocké dans une base de connaissances.

De plus, dans l’objectif de fournir un soutien supplémentaire pour la définition de règles métiers, nous introduisons des règles sous forme de Condition Action Événement (CEA), qui expriment l’exactitude des processus au niveau métier. Les ensembles de règles CEA sont stockés avec le patron de workflow métier correspondant dans la même base de connaissances. La base est organisée pour faciliter la capacité de partage et de réutilisation des patrons de workflow. Enfin, un prototype est conçu pour démontrer la faisabilité et les avantages de l'approche.

PhD Thesis Defense - Somsack INTHASONE

Salle du conseil, bat. Templiers Ouest, 02/04/2015 10h30

Jury

Dario MALCHIODI (Rapporteurs) - University of Milan, Italy
Engelbert MEPHU NGUIFO (Rapporteurs) - Blaise Pascal University, France
Patrick COQUILARD (Rapporteurs) - INRA-PACA, UNS CNRS
Frederic PRECIOSO (Examinateurs) - I3S, UNS CNRS
Nicolas PASQUIER (Directeurs) - I3S, UNS CNRS
Andrea G. B. TETTAMANZI (Directeurs) - I3S, UNS CNRS
Célia DA COSTA PEREIRA (Invité)- I3S, UNS CNRS

Abstract

Title: Biodiversity Knowledge Extraction Techniques (BioKET)

Biodiversity data are generally stored in different formats. This makes it difficult for biologists to combine and integrate them in order to retrieve useful information and discover novel knowledge for the purpose of, for example, efficiently classifying specimens. In this work, we present the BioKET data warehouse which is a consolidation of heterogeneous data stored in different formats and originating from different sources. For the time being, the scope of BioKET is botanical. Its construction required, among others things, to identify and analyze existing botanical ontologies, to standardize and relate terms in BioKET. We also developed a methodology for mapping and defining taxonomic terminologies, that are controlled vocabularies with hierarchical structures from authoritative plant ontologies, Google Maps, and OpenStreetMap geospatial information system. Data from four major biodiversity and botanical data providers and from the two previously mentioned geospatial information systems were then integrated in BioKET. The usefulness of such a data warehouse was demonstrated by applying classical knowledge pattern extraction methods, based on the classical Apriori and Galois closure based approaches, to several datasets generated from BioKET extracts. Using these methods, association rules and conceptual bi-clusters were extracted to analyze the risk status of plants endemic to Laos and Southeast Asia. Besides, BioKET is interfaced with other applications and resources, like the GeoCAT Geospatial Conservation Assessment Tool, to provide a powerful analysis tool for biodiversity data.

Keywords: Biodiversity, Data Mining, Knowledge Integration, Data Warehouse, Information Technology, Ontologies.

Résumé

Titre: Techniques d'Extraction de Connaissances en Biodiversité

Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique.

Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité.

Mots clés : Biodiversity, Data Mining, Knowledge Integration, Data Warehouse, Information Technology, Ontologies.

PhD Thesis Defense - Simon Urli

Salle de réunion Euclide B, Algorithmes, 26/02/2015 9h30

Jury

Directrice de thèse : Mme Mireille Blay-Fornarino - Professeur à l'Université Nice Sophia Antipolis

Président :
M. Michel Riveill - Professeur à l'Université Nice Sophia Antipolis

Rapporteurs :
Mme Marianne Huchard - Professeur à l'Université de Montpellier 2
M. Olivier Barais - Maître de Conférence HDR à l'Université de Rennes 1

Examinateur :
M. Patrick Heymans - Professeur à l'Université de Namur

Abstract

Title: Flexible Configuration Process for Complex Software Product Lines

The necessity of producing high quality softwares and the specific software market needs raise new approaches such as Software Product Lines (SPL). However in order to satisfy the growing requirements of new information systems, we need to consider those systems as a composition of many interconnected sub-systems called systems-of-systems. As a SPL, it implies to support the modularity and the large variability of such systems, from the definition of sub-systems to their composition, ensuring the consistency of final systems.

To support design and usage of such a complex SPL, we propose a new approach based on (i) the definition of a SPL domain model, (ii) the formalization of variability using feature models (FM) and (iii) the representation of dependencies between those different FM. In order to manage the complexity of this SPL we complete our approach by in one hand algorithms ensuring the consistency of the SPL and on the other hand the definition of a configuration process which guarantees the consistency of products without imposing order in user choices and authorizing to cancel any choice.

This thesis presents a formalization of these works and demonstrates the expected properties of those SPL, like the control of the product line consistency with incremental algorithms exploiting the domain model topology, the formal definition and the proof of the configuration process flexibility, and the consistency concepts of the process itself. On these basis, we propose a first implementation containing additionnal elements in order to support the design and the use of the SPL like a generic graphical user interface dedicated to the configuration process, which helps us during our experiments. We validate our works on a SPL dedicated to an industrial scale system-of-systems for producing digital signage systems.

Résumé

Title: Processus Flexible de Configuration pour Lignes de Produits Logiciels Complexes

La nécessité de produire des logiciels de qualité en adéquation avec les besoins spécifiques du marché a conduit à l'émergence de nouvelles approches de développements telles que les Lignes de Produits Logiciels (LPL). Cependant pour répondre aux exigences croissantes des nouveaux systèmes informatiques, il convient aujourd'hui d'envisager la production de ces systèmes comme des compositions d’un grand nombre de systèmes interconnectés que l'on nomme aujourd'hui des systèmes-de-systèmes. En terme de lignes de produits, il s'agit de supporter la modularité et la très grande variabilité de ces systèmes, aussi bien du point de vue de la définition des sous-systèmes, que du point de vue de leur composition tout en garantissant la viabilité des systèmes construits.

Pour supporter la construction et l'utilisation de lignes de produits logiciels complexes, nous proposons une nouvelle approche basée sur (i) la définition du modèle du domaine de la ligne, (ii) la formalisation de la variabilité des éléments du domaine par des feature models (FM) et (iii) l’expression des dépendances entre ces différents FM. Pour maîtriser la complexité de telles lignes nous avons complété cette approche de modélisation par d'une part, des algorithmes visant à assurer la cohérence des lignes ainsi modélisées et d'autre part, la conception d'un processus de configuration des produits logiciels complexes garantissant la cohérence des produits sans imposer d'ordre dans les choix utilisateurs et en autorisant l'annulation des choix.

Cette thèse présente une formalisation de ces travaux démontrant ainsi les propriétés attendues de ces LPL comme la maîtrise de la complexité de la ligne par des algorithmes incrémentiels exploitant la topologie du modèle du domaine, la définition formelle et la preuve de la flexibilité du processus de configuration ou les notions de cohérence du processus lui-même. Sur cette base bien fondée, nous proposons une implémentation possible intégrant des éléments additionnels pour supporter le développement de telles lignes tels qu’une interface graphique de configuration générique qui nous a servi de support aux expérimentations. Nous validons nos travaux sur une LPL dédiée à un système-de-systèmes de portée industrielle pour la production de systèmes de diffusion d’informations.

Séminaires

Valerio Basile: Sentiment Analysis on Twitter: The Case of Italian Language

When: 28th Aug. 2015, 11h-12h
Where: EURECOM, room Fourier
By: Valerio Basile

Abstract Sentiment Analysis, also referred to as Opinion Mining, is the branch of Natural Language Processing that deals with the identification of personal opinions and emotions in natural language. With the rise in popularity of Web-based social media platform such as Facebook and Twitter, the dimension of user-generated content has grown exponentially, thus representing a goldmine of information available to the researcher as well as to industries and institutions interested in monitoring the public opinion.

In this talk I will present the work done on the collection of a large quantity of tweets written in Italian, and the result of the first experiments of sentiment analysis on such tweets. In the second part, I will talk about the experience of the Sentiment Polarity Classification shared task, the most popular task at the EVALITA evaluation campaign of 2014. The results of the participant systems show how the analysis of subjective, sometimes ironic, opinions on social media is far from being a solved problem. Finally, I will spend a few words on what could be the future of sentiment analysis on social media and how it could beneficially interact with related areas of natural language analysis such as Entity Linking.

About the speaker
Valerio Basile is a computer scientist turned to Natural Language Processing, with particular focus on semantics. Up to June 2015 he was at the University of Groningen where he obtained his PhD and helped building the Groningen Meaning Bank, a large collection of semantically annotated text, and Wordrobe, a Game With A Purpose to collect linguistic knowledge from the crowd. He is also involved in social media analysis with TWITA, the collection of Italian tweets, and in Sentiment Analysis, with the organization of the EVALITA shared task on polarity classification of Italian tweets (SENTIPOLC). He recently joined the Wimmics team at INRIA Sophia Antipolis to work on Knowledge Representation and Information Extraction.

Seminary by Claudia d'Amato: On extracting Rules from Ontological Knowledge Bases: Purposes and Approach

When: 12th Mar. 2015, 16h-17h
Where: EURECOM, room 101
By: Claudia d'Amato of University of Bari

Abstract
The Linked Open Data (LOD) cloud could be seen as a huge portion of assertional knowledge whose intentional part is formally defined by existing OWL ontologies freely available on the Web. LOD constitutes a tremendous source of knowledge, that as such needs effective and efficient methods for its management. Data mining techniques could play a key role with this respect. The focus of this talk will be on the discovery and extraction of knowledge patterns that are hidden in the (often noisy and inherently incomplete) data. Specifically, by exploiting the volume of the information within an ontology, machine learning and data mining methods could be of great help for discovering hidden knowledge patterns (also possibly exploiting other sources of information) in the form of relational association rules. Moving from methods at the state of the art, that as such necessarily need a further and deeper investigation for really scaling on very large data sets, the main focus of the talk will be on the potential that the extracted rules may have for: enriching existing ontological knowledge bases, for complementing heterogeneous sources of information, and for empowering the deductive reasoning process.

Speaker's bio
Claudia d'Amato is a research assistant at the University of Bari - Computer Science Department. She obtained her PhD in 2007 from the University of Bari, Italy, defending the thesis titled “Similarity Based Learning Methods for th Semantic Web for which she obtained the AI*IA nomination as one of the best AI PhD theses in 2005-2007. She pioneered the research on Machine Learning methods for ontology mining that still represents her main research interest. Her research activity has been disseminated through 15 journal papers, 12 book chapters, 47 papers in international collections, 24 papers in international workshop proceedings and 13 articles in national conference and workshop proceedings. She edited 22 books and proceedings and 2 journal special issues. She has been also awarded for the best paper in several conference venue. She is member of the editorial board of the Semantic Web, Web Semantics and Semantic Web and Information Systems international Journals. She served/is serving as Program Chair at ESWC 2014, Vice-Chair at ISWC'09, Machine Learning Track Co-Chair at ESWC'12-'13, PhD Symposium chair at ESWC'15 and Workshop and Tutorial Co-Chair at ISWC'12, EKAW'12, ICSC'12. She served/is serving as aprogram committee member of a number of international conferences in the area ofArtificial Intelligence, Machine Learning and Semantic Web such as AAAI, IJCAI, ECAI,ECML, ISWC, WWW, ESWC. She was/is organizing also several workshops concerning uncertainty Reasoning, Machine Learning and Data Mining for the Semantic Web.

Seminary by Claudia d'Amato, Inductive Learning for the Semantic Web

When: 18th Feb 2015, 16h-17h
By: Claudia d'Amato of University of Bari

Abstract
In the Semantic Web view, ontologies play a key role. They act as shared vocabularies to be used for semantically annotating Web resources and they allow to perform deductive reasoning for making explicit knowledge that is implicitly contained within them. However, noisy/inconsistent ontological knowl- edge bases may occur, being the Web a shared and distributed environment, thus making deductive reasoning no more straightforwardly applicable. Machine learning techniques, and specifically inductive learning methods, could be fruit- fully exploited in this case. Additionally, inductive learning methods (jointly with standard reasoning procedure) could be usefully employed for discovering new knowledge from an ontological knowledge base, that is not logically derivable. The focus of the talk will be on how inductive learning methods could be ex- ploited for coping with various ontology mining problems. For ontology mining is meant all those activities that allow to discover hidden knowledge from on- tological knowledge bases, by possibly using only a sample of data. Indeed, by exploiting the volume of the information within an ontology, inductive learning methods could be of great help for instance for (semi-)automatically enriching and refining existing ontologies, for detecting concept drift and novelties within ontologies and for discovering hidden knowledge patterns (also possibly exploit- ing other sources of information).

If on one hand this means to abandon sound and complete reasoning procedures for the advantage of uncertain conclusions, on the other hand this could allow to reason on large scale and to dial with the intrinsic uncertainty characterizing the Web, that, for its nature, could have incomplete and/or contradictory information.

2014

Séminaires

Seminary by Leila Alem, Wearable computing & Augmented Reality to support maintenance operations and services: a HCI perspective

When: 4th July 2014, 10:30-12h

Abstract
In this talk I will provide an overview of the work conducted within my research team at CISRO in the area of Computer supported collaborative work using wearable and augmented reality technologies.

The work draws on industry needs and technology drivers to design, deploy and evaluate innovative remote collaboration solutions. In this talk I will present ReMoTe , CSIRO platform for remote mobile tele assistance ( www.csiro.au/remote) and the range of user studies that we have conducted including usability, mobility, spatial awareness, telepresence.

The use of wearable computing and AR offer new forms of interaction and collaboration with promising strong uptake by industry.

Seminary by Igor Boguslavsky - Semantic Analysis of Natural Language Aided by an Ontology

When: 26th June 2014, 09:00–10:30
By Igor Boguslavsky, IITP Russian Academy of Sciences & Universidad Politécnica de Madrid

Abstract
Modern search engines such as Google or Yahoo have long come into our everyday life and we hardly imagine how we could do without them. Nevertheless, however useful these applications may be, they are rightfully reproached for “not understanding” the texts they are dealing with. They find far too many texts, while the overwhelmingly most part of them has nothing to do with what the user is asking about. On the other hand, if a text conveys the relevant meaning but it is expressed by words different from the ones used in the user’s query, this text will hardly be found at all. For many NL applications, first of all, for Information Retrieval and Extraction as well as for Question Answering, it is essential that they should be able to discover semantic similarity between the texts if they express the meaning in different ways. Cf. synonymous sentences (1) – (3): (1) Real Madrid and Barcelona will meet in the semi-finals on Thursday. (2) The semi-final match between Real Madrid and Barcelona will take place on Thursday. (3) The adversary of Real Madrid in the semi-finals on Thursday will be Barcelona. If we wish to extract the meaning from the text irrespective of the way it is conveyed, we should construct a semantic analyzer capable of producing identical semantic structures for sentences (1) – (3), or at least semantic structures whose equivalence can be demonstrated. To account for the equivalence (1) – (3), one needs to formalize linguistic knowledge. The problem becomes much more difficult if text understanding includes access to language-external world knowledge. For example, sentence (4) describes the same situation as (1) – (3) and, ideally, all four sentences should be returned as the answer to the same questions. (4) The semi-finals on Thursday will see the winner of the UEFA Champions League 201 3 -201 4 and the team of Luis Enrique Martínez . To be able to discover the equivalence (4) Û (1)-(3), the system should know that it was the football club Real Madrid who won the UEFA Champions League in 2013-2014, and that Luis Enrique Martínez is the coach of FC Barcelona . This implies that linguistic knowledge should be linked with language-external information. The creation of a semantic analyzer of this type requires a powerful linguistic processor capable of building coherent semantic structures, a knowledge-extensive lexicon, which contains different types of lexical information, an ontology, which describes objects in the domain and their properties, a repository of ground-level facts (such as “Coach of FC Barcelona in 201 4 : Luis Enrique Martínez ”) , and an inference engine capable of manipulating all these data. I will present a project aiming at developing a semantic analyzer along these lines. I will show how the text is analyzed, how its meaning is represented and how the interface between linguistic and world knowledge is established. Feel free to join. Kind regards,

Visite de Nguyen Thanh Binh

When: 17th June 2014
By Nguyen Thanh Binh, Département de Technologie de l'Information de l'Université Polytechnique de Danang, Vietnam

Nguyen Thanh Binh, “dean” du Département de Technologie de l'Information de l'Université Polytechnique de Danang, Vietnam, avec laquelle notre Université vient de signer une convention de coopération de formation 3e cycle et de recherche, outre à être partenaire dans des projets de mobilité internationale (notamment le projet EMMA), sera en visite à l'I3S le 17 juin prochain (matin et début d'après-midi). En l'occurrence on lui demandera de tenir un séminaire, mais le vrai but de la visite est de discuter de collaborations de recherche.

Privcay from an engineering point of view

Where: Polytech Templiers, Room 140 (ex E+157)
When: 23th Janurary 2014, 13h30-15h30
By Frank Dawson, Nokia

Title: Privcay from an engineering point of view

Abstract

Jeudi 23 janvier de 13h30 à 15h30, Frank Dawson de Nokia donnera un cours sur la vie privée d'un point de vue engineering le vendredi 24 janvier dans le cadre du module Security and Privcay 3.0 en SI5.

Je lui ai donné demander de faire une conférence la veille sur une vulgarisation de la vie privée (Privacy), en partant du point de vue légal (la régulation Européenne pour la protection des données personnelles, d'exemples concrets, etc..

L'objectif de cette conférence : * Vulgariser “la vie privée” de différents points de vues. * Faire une introduction à la vie privée pour le cours du lendemain après-midi (Privcay from an engineering point of view): SI5

Extraction de relations sémantiques à partir d’un texte brut

Where: Polytech Templiers 1, 4th floor, Salle du Conseil
When: 16th Jan. 2014, 11h-12h
By Julien Plu, Semantic Web developer at AEpsilon for Orange

Title: Extraction de relations sémantiques à partir d’un texte brut

Abstract

Le but de ce projet était d’extraire des données sous forme de triplets à partir d’un texte écrits venant de diverses sources (Wikipédia, Le Parisien, Closer, Le Nouvel Observateur,…) pour diverses raisons comme : * compléter les données d’une base de connaissance (comme DBpedia) * améliorer la pertinence d’un moteur de recherche * détecter et faire émerger du buzz (évènements éphémères souvent annoncés sur les sites d’actu « people »)

Soutenances

PhD Thesis Defense - Oumy Seye

Salle Euler Bleu, INRIA Sophia Antipolis, 15/12/2014 14h

Encadrants:
Olivier CORBY, Chargé de recherche, INRIA Sophia Antipolis
Catherine FARON ZUCKER, Maître de conférence, Université Nice Sophia Antipolis

Jury

Directeurs :
Fabien GANDON, Directeur de Recherche, INRIA Sophia
Moussa LO, Professeur, Université Gaston Berger de Saint Louis, Sénégal

Rapporteurs :
Sylvie DESPRÈS, Professeur, Université Paris 13
Ollivier HAEMMERLÉ, Professeur, Université Toulouse Jean Jaurès

Examinateurs :
Chantal Reynaud , Professeur, INRIA Saclay
Cheikh Talibouya Diop , Maître de conférence, Université Gaston Berger de Saint Louis, Sénégal
Nhan Le Thanh, Professeur, Université Nice Sophia Antipolis

Abstract

In this thesis we we address the problem of publishing, sharing and reusing rules on the Web of data. The approach adopted for sharing rules on the Web is to consider rule bases as particular data sources. Thus, we propose to publish rules using RDF, the standard representation language on the Web of data. We use the standard SPARQL language to query these particular RDF data that represent rules. We propose a translation of a subset of RIF (Rule Interchange Format), the W3C standard for the exchange of rules on the Web, into a subset of SPARQL queries. Then we use the SPIN langage for translating these SPARQL representations of rules into RDF.

In other words, we consider the problem of publishing and reusing rules on the Web as a classical problem in knowledge engineering : sharing and reusing knowledge. We propose an approach based on (1) the representation in RDF of rule content and metadata, (2) the interoperability of this representation with the W3C recommandation RIF, (3) the publication of rules on the Web of data and (4) reusing rules by querying RDF data sources representing them with the SPARQL query language. We built a set of SPARQL queries enabling (1) to build specific rule bases for a given context or application, (2) to optimize inference engines based on rule selection with respect to target RDF data sources, (3) to validate and update rule bases.We used the Corese/KGRAM semantic engine to implement and evaluate our proposals.

Keywords : Linked Open Data, Rules, SPARQL, SPIN, RIF

Résumé

Titre: Partage et réutilisation de règles pour le Web de données

Dans cette thèse nous nous intéressons à la publication, au partage et à la réutilisation de règles sur le Web de données. L’approche que nous avons adoptée pour permettre la réutilisation de règles sur le Web, est de considérer des bases de règles comme des sources de données particulières. Il s’agit de les publier dans le langage RDF, le standard de représentation du Web de données. Nous utilisons des requêtes SPARQL, le standard du Web de données, pour interroger ces données RDF particulières qui représentent des règles. Nous proposons une traduction d’un sous-ensemble du langage RIF, le standard pour l’échange de règles sur le Web, en un sous-ensemble du langage SPARQL (les requêtes de la forme CONSTRUCT). Nous utilisons ensuite le langage SPIN pour traduire en RDF ces représentations de règles dans le langage SPARQL.

En d’autres termes, pour répondre au problème de la publication et la réutilisation de règles sur le Web, nous l’envisageons comme un problème classique en ingénierie des connaissances de partage et de réutilisation de connaissances. Nous proposons une approche basée sur (1) la représentation en RDF à la fois du contenu et des méta-données associées aux règles, (2) l’interopérabilité de cette représentation avec la recommandation RIF du W3C, (3) leur publication sur le Web de données et (4) la réutilisation de ces règles basée sur l’interrogation de sources de données RDF représentant des règles à l’aide de requêtes SPARQL. Nous avons construit un ensemble de requêtes SPARQL qui permettent (1) la construction de bases de règles spécifiques à un contexte ou une application particuliers, (2) l’optimisation des raisonnements par la sélection des seules règles pertinentes pour un jeu de données, (3) la validation de bases de règles par rapport à une source de données RDF et (4) la mise à jour de bases de règles. L’implémentation et l’évaluation de nos travaux a été réalisée avec le moteur sémantique Corese/KGRAM.

Mots clés : Web de données liées, règles, SPARQL, SPIN, RIF

PhD Thesis Defense - Nicolas Marie

12/12/2014 14h, salle Jaune, 5ème étage, antenne INRIA 23 av. d’Italie, Paris 13. Visio INRIA Sophia-Antipolis, salle Kahn K4

Titre: Linked data based exploratory search

Jury

Directeur :
Fabien GANDON, Directeur de Recherche, INRIA Sophia

Rapporteurs :
John Breslin, Professeur, National University of Ireland
Guy Melançon, Professeur, Université de Bordeaux
Harald Sack, Senior Researcher, Universität Potsdam

Examinateur :
Johan Montagnat, Directeur de recherche CNRS, I3S, Nice Sophia Antipolis

Invité :
Johann Daigremont, Manager de Recherche, Alcatel-Lucent Bell Labs, Paris

Abstract

The general topic of the thesis is web search. It focused on how to leverage the data semantics for exploratory search. Exploratory search refers to cognitive consuming search tasks that are open-ended, multi-faceted, and iterative like learning or topic investigation. Semantic data and linked data in particular offer new possibilities to solve complex search queries and information needs including exploratory search ones. In this context the linked open data cloud plays an important role by allowing advanced data processing and innovative interactions model elaboration. First, we detail a state-of-the-art review of linked data based exploratory search approaches and systems. Then we propose a linked data based exploratory search solution which is mainly based on an associative retrieval algorithm. We started from a spreading activation algorithm and proposed new diffusion formula optimized for typed graph. Starting from this formalization we proposed additional formalizations of several advanced querying modes in order to solve complex exploratory search needs. We also propose an innovative software architecture based on two paradigmatic design choices. First the results have to be computed at query-time. Second the data are consumed remotely from distant SPARQL endpoints. This allows us to reach a high level of flexibility in terms of querying and data selection. We specified, designed and evaluated the Discovery Hub web application that retrieves the results and present them in an interface optimized for exploration. We evaluate our approach thanks to several human evaluations and we open the discussion about new ways to evaluate exploratory search engines

Keywords: exploratory search, semantic web, linked data, linked data based exploratory search system, DBpedia, semantic spreading activation, Discovery Hub, human evaluations

Résumé

Cette thèse s’intéresse à l’exploitation de la sémantique des données pour la recherche exploratoire. La recherche exploratoire se réfère à des tâches de recherche qui sont très ouvertes, avec de multiples facettes, et itératives. Les données sémantiques et les données liées en particulier, offrent de nouvelles possibilités pour répondre à des requêtes de recherche exploratoire et des besoins d’information complexes. Dans ce contexte, le nuage de données ouvertes liées (LOD) joue un rôle important en permettant des traitements de données avancés et des interactions innovantes. Nous détaillons un état de l’art de la recherche exploratoire sur les données liées. Puis nous proposons un algorithme de recherche exploratoire à base de données liées basé sur une recherche associative. A partir d’un algorithme de propagation d’activation nous proposons une nouvelle formule de diffusion adaptée au cas des graphes typés. Nous proposons ensuite des formalisations supplémentaires de plusieurs modes d’interrogation avancée. Nous présentons également une algorithmique et une architecture logicielle innovantes basées sur deux choix de conception paradigmatiques. Premièrement, les résultats doivent être calculés à la demande. Deuxièmement, les données sont consommées à distance à partir de services SPARQL distribués. Cela nous permet d’atteindre un niveau élevé de flexibilité en termes d’interrogation et de sélection des données. L’application Discovery Hub implémente ces résultats et les présente dans une interface optimisée pour l’exploration. Nous évaluons notre approche grâce à plusieurs campagnes avec des utilisateurs et nous ouvrons le débat sur de nouvelles façons d’évaluer les moteurs de recherche exploratoire.

Mots clés : recherche exploratoire, web sémantique, données liées, système de recherche exploratoire à base de données liées, DBpedia, activation propagation sémantique, Discovery Hub, évaluations utilisateurs

PhD Thesis Defense - Christian Delettre

Salle 101, bâtiment Forum niveau 1, Sophi@Tech campus, 12/12/2014 10h

Advisor: Mme. Karima BOUDAOUD (Maître de conférences, Université Nice Sophia Antipolis)

Jury

Présidente du jury :
Mme. Mireille BLAY-FORNARINO (Professeur des universités, Université Nice Sophia Antipolis)

Rapporteurs :
Mr. Noel DEPALMA (Professeur des universités, LIG Grenoble)
Mme. Maryline LAURENT (Professeur des universités, Telecom SudParis)

Examinateurs :
Mr. Jean Marc LAMBERT (Ingénieur, Gemalto)
Mr. Michel RIVEILL (Professeur des universités, Université Nice Sophia Antipolis)

Invités :
Mr. Luc BILLOT (Ingénieur sécurité, CISCO Systems Inc)
Mr. Mouhssine JEROUNDI (Co-gérant Vivadia)

Abstract

Title: Open, scalable, secure and user-centric platform for e-commerce

Nowadays, e-commerce has become a complex ecosystem where multiple solutions (in terms of platforms) are possible and feasible for e-merchant. Concurrently, a new paradigm called Cloud Computing has emerged. Despite some advantages it brings, few of these platforms have been designed to operate on a Cloud architecture. Thus, because of the complexity to design a flexible and scalable e-commerce platform (EP), based on existing heterogeneous applications/services and fulfilling the needs of e-merchants, it is legitimate to ask ourself if a PE based on the Cloud would really simplify the difficulties faced by e-merchants.

This thesis aims to validate the relevance of using the Cloud Computing in the e-commerce context and propose the architectural principles of an open, scalable and secure EP based on a Cloud architecture. In addition, the EP used by e-merchants are not user-centric EP. As a consequence, we propose a user-centric mechanism simplifying the design and implementation of an EP while ensuring a high security level. Finally, we tried to answer the following question: How to ensure that no activity inference on a database size, in an e-commerce context, can be achieved by unauthorized entities? As a response, we propose a user-centric security solution of data concealment to resolve the property of strong data confidentiality within relational database management system (RDBMS).

Résumé

Titre: Plateforme ouverte, évolutive, sécurisée et orientée utilisateur pour l’e-commerce

De nos jours, l’e-commerce est devenu un écosystème complexe où de multiples solutions (en termes de plateforme) sont possibles et réalisables pour un e-commerçant. En parallèle, un nouveau paradigme a fait son apparition, celui du Cloud Computing. Malgré les avantages certains qu’il apporte, peu des plateformes existantes sont pensées pour fonctionner sur une architecture Cloud. De plus, face à la complexité d’obtenir une plateforme d’e-commerce (PE) sécurisée, flexible et évolutive s’appuyant sur des applications et services hétérogènes existants et répondant aux besoins des e-commerçants, il est légitime de se demander si une PE basée sur le Cloud permettrait de réellement simplifier les difficultés rencontrées par les e-commerçants.

Cette thèse propose de valider la pertinence de l’utilisation du Cloud dans un contexte d’e-commerce avant de proposer les principes architecturaux d’une PE ouverte, évolutive et sécurisée basée sur une architecture de Cloud. De plus, la mise en œuvre d’une PE par un e-commerçant, n’est pas orientée utilisateur. Face à ceci, nous proposons un mécanisme orienté utilisateur simplifiant la mise en œuvre d’une PE tout en assurant un haut degré de sécurité au sein de celle-ci. Enfin, nous nous sommes également intéressés à répondre à la question suivante dans un contexte d’e-commerce : Comment assurer qu’aucune inférence d’activités sur une taille constatée d’une BD ne puisse être réalisée par des entités non autorisées ? Pour y répondre, nous proposons une solution de sécurité de dissimulation de données orientée utilisateur permettant de résoudre la propriété de confidentialité forte des données au sein des SGBDR.

PhD Thesis Defense - Rakebul Hasan

Salle Euler Violet, Inria Sophia Antipolis, 04/11/2014 14h

Advisor: DR. Fabien Gandon, Inria Sophia Antipolis-Méditerranée
Co-advisor: Dr. Pierre-Antoine Champin, LIRIS, UCBL, Lyon, France

Jury

Prof. Pascal Molli, University of Nantes, France, reviewer
Prof. Philippe Cudré-Mauroux, University of Fribourg, Switzerland, reviewer
Dr. Johan Montagnat, CNRS (I3S), Sophia Antipolis, France, examiner

Abstract

Title: Predicting query performance and explaining results to assist Linked Data consumption

Our goal is to assist users in understanding SPARQL query performance, query results, and derivations on Linked Data. To help users in understanding query performance, we provide query performance predictions based on the query execution history. We present a machine learning approach to predict query performances. We do not use statistics about the underlying data for our predictions. This makes our approach suitable for the Linked Data scenario where statistics about the underlying data is often missing such as when the data is controlled by external parties. To help users in understanding query results, we provide provenance-based query result explanations. We present a non-annotation-based approach to generate why-provenance for SPARQL query results. Our approach does not require any re-engineering of the query processor, the data model, or the query language. We use the existing SPARQL 1.1 constructs to generate provenance by querying the data. This makes our approach suitable for Linked Data. We also present a user study to examine the impact of query result explanations. Finally to help users in understanding derivations on Linked Data, we introduce the concept of Linked Explanations. We publish explanation metadata as Linked Data. This allows explaining derived data in Linked Data by following the links of the data used in the derivation and the links of their explanation metadata. We present an extension of the W3C PROV ontology to describe explanation metadata. We also present an approach to summarize these explanations to help users filter information in the explanation, and have an understanding of what important information was used in the derivation.

Résumé

Titre: Prédire les performances des requêtes et expliquer les résultats pour assister la consommation de données liées

Notre objectif est d'aider les utilisateurs à comprendre les performances d'interrogation SPARQL, les résultats de la requête, et dérivations sur les données liées. Pour aider les utilisateurs à comprendre les performances des requêtes, nous fournissons des prévisions de performances des requêtes sur la base de d’historique de requêtes et d'apprentissage symbolique. Nous n'utilisons pas de statistiques sur les données sous-jacentes à nos prévisions. Ce qui rend notre approche appropriée au Linked Data où les statistiques sont souvent absentes. Pour aider les utilisateurs des résultats de la requête dans leur compréhension, nous fournissons des explications de provenance. Nous présentons une approche sans annotation pour expliquer le “pourquoi” des résultats de la requête. Notre approche ne nécessite pas de reconception du processeur de requêtes, du modèle de données, ou du langage de requête. Nous utilisons SPARQL 1.1 pour générer la provenance en interrogeant les données, ce qui rend notre approche appropriée pour les données liées. Nous présentons également une étude sur les utilisateurs motrant l'impact des explications. Enfin, pour aider les utilisateurs à comprendre les dérivations sur les données liées, nous introduisons le concept d’explications liées. Nous publions les métadonnées d’explication comme des données liées. Cela permet d'expliquer les résultats en suivant les liens des données utilisées dans le calcul et les liens des explications. Nous présentons une extension de l'ontologie PROV W3C pour décrire les métadonnées d’explication. Nous présentons également une approche pour résumer ces explications et aider les utilisateurs à filtrer les explications.

PhD Thesis Defense - Maxime Lefrançois

Salle Euler Violet, Inria Sophia Antipolis, 24/06/2014 14h

Advisor: DR. Fabien Gandon, Inria Sophia Antipolis-Méditerranée
Co-advisor: Pr. Christian Boitet, Université Joseph Fourier, LIG, Grenoble

Jury

DR. Nathalie Aussenac-Gilles, Université de Toulouse, IRIT, CNRS, Toulouse, reviewer
Pr. Igor Boguslavsky, Universidad Politécnica de Madrid & Russian Academy of Sciences, Moscow, reviewer
Pr. Marie-Laure Mugnier, Université Montpellier 2, LIRMM/Inria, reviewer
Pr. Andrea Tettamanzi, Université de Nice-Sophia Antipolis, examiner

Abstract

Title: Meaning-Text Theory Lexical Semantic Knowledge Representation: Conceptualization, Representation, and Operationalization of Lexicographic Definitions

We present our research in applying knowledge engineering to linguistics. In particular, to linguistic predicates, linguistic representations, and lexicographic definitions of the Meaning-Text Theory (MTT). We adopt a three-step methodology.

We first study the MTT conceptualization, and show how it should be extended to ease its formalization. We therefore justify the need of defining a new deep semantic, graph-based, representation level for the Meaning-Text model. We define the notion of deep semantic unit types and its actantial structure: a set of signed obligatory, optional or forbidden actant slots with lexicalized semantic roles as labels. We show that their hierarchical organization may correspond to a hierarchy of meanings, inside which actantial structures are inherited and specialized. We re-conceptualize lexicographic definitions at the deep semantic level, and at the level of dictionaries. Finally, we present a definition editor prototype based on graph direct manipulation, which will allow us, in future work, to integrate our formal model into explanatory combinatorial lexicographic projects.

We then propose a knowledge representation formalism adapted for this conceptualization. We demonstrate that Description Logics and the Conceptual Graphs formalism do not fit our needs. This leads us to construct a new knowledge representation formalism: the Unit Graphs formalism.

Finally, we operationalize the Unit Graphs formalism. We assign it a formal semantic model, which we create based on model theory and relational algebra. We then show that the reasoning decidability conditions match the intuitions that lexicographers have. We also provide an implementation using semantic web standards, which enable us to use existing architectures for sharing, interoperability, and knowledge querying over the web of lexical linked data.

Résumé

Titre: Représentation des connaissances sémantiques lexicales de la Théorie Sens-Texte: Conceptualisation, représentation, et opérationnalisation des définitions lexicographiques

Nous présentons notre recherche en ingénierie des connaissances appliquée à la linguistique. Plus particulièrement, aux prédicats linguistiques, aux représentations linguistiques, et aux définitions lexicographiques de la théorie linguistique Sens-Texte (TST). Nous adoptons une méthodologie en trois étapes.

Nous étudions dans un premier temps la conceptualisation de la TST, et montrons en quoi elle devrait être étendue pour faciliter une formalisation ultérieure. Nous justifions en particulier la nécessité de définir un nouveau niveau de représentation sémantique profond, basé sur des graphes. Nous y définissons la notion de type d'unité sémantique profonde et sa structure actancielle: un ensemble de positions actancielles signées, qui peuvent être obligatoires, optionnelles, ou interdites, et étiquetées par des rôles sémantiques lexicalisés. Nous montrons que l'organisation hiérarchique des types d'unités sémantiques profondes peut correspondre à une hiérarchie de sens au sein de laquelle les structures actancielles sont héritées et spécialisées. Nous reconceptualisons les définitions lexicographiques au niveau sémantique profond, et au niveau du dictionnaire. Finalement, nous présentons un prototype d'éditeur de définitions basé sur la manipulation directe de graphes, qui permettera une intégration future de nos travaux dans des projets de lexicographie explicative et combinatoire.

Ensuite, nous proposons un formalisme de représentation des connaissances adapté à cette conceptualisation. Nous démontrons que les logiques de description et le formalisme des Graphes Conceptuels ne sont pas adaptés pour représenter les connaissances de la TST. Nous construisons alors un nouveau formalisme de représentation des connaissances adapté, dit des Graphes d'Unités.

Enfin nous étudions l'opérationnalisation du formalisme des Graphes d'Unités. Nous lui associons une sémantique formelle basée sur la théorie des modèles et l'algèbre relationnelle, et montrons que les conditions de décidabilité du raisonnement logique correspondent aux intuitions des lexicographes. Nous proposons également une implémentation du formalisme avec les standards du web sémantique, ce qui permet de profiter des architectures existantes pour le partage, l'interopérationnalisation, et l'interrogation des connaissances sur le web des données lexicales liées.

2013

Journées du Pôle GLC

Séminaire mené par Xavier Blanc

Présentation d'Anne-Marie Dery, Alain Giboin, Philippe Renevier-Gonin

Soutenances

PhD Thesis Defense - Nadia Cerezo

Salle de conférence I3S, bat. Les Algorithmes, 20/12/2013 14h

Jury

M. Hugues Benoit-Cattin, Professeur à l'INSA de Lyon, Rapporteur
Mme. Mireille Blay-Fornarino, Professeur à l'Université de Nice Sophia-Antipolis, Présidente du jury
M. Oscar Corcho, Associate Professor à l'Université Polytechnique de Madrid, Espagne, Rapporteur
M. Johan Montagnat, Directeur de recherche au CNRS, Directeur
M. Gabriele Pierantoni, Research Fellow au Trinity College de Dublin, Irlande, Examinateur

Abstract

Title: Conceptual Workflows

Workflows are increasingly adopted to describe large-scale data- and compute-intensive scientific simulations which leverage the wealth of distributed data sources and computing infrastructures. Nonetheless, most scientific workflow formalisms remain difficult to exploit for scientists who are neither experts nor enthusiasts of distributed computing, because they mix the scientific processes they model with their implementations, blurring the lines between what is done and how it is done, as well as between what is and what is not infrastructure-dependent.

Our objective is to improve scientific workflow accessibility and ease scientific workflow design and reuse, by elevating the abstraction level, emphasizing the scientific experiment over technicalities, ensuring proper separation between functional and non-functional concerns and leveraging domain knowledge and know-how.

The main contributions of this work are: (i) a multi-level structurally flexible semantic scientific workflow model, called the Conceptual Workflow Model, which lets users design simulations at a computation-independent level and focus on domain goals and methods; and (ii) a computer-assisted Transformation Process relying on knowledge engineering technologies to help users transform their high-level simulation models into executable workflow artifacts which can be delegated to third-party frameworks for enactment.

Résumé

Titre: Workflow Conceptuels

Les workflows sont de plus en plus souvent adoptés pour la modélisation de simulations scientifiques de grande échelle, aussi bien en matière de données que de calculs. Ils profitent de l’abondance de sources de données et infrastructures de calcul distribuées. Néanmoins, la plupart des formalismes de workflows scientifiques restent difficiles à exploiter pour des utilisateurs n’ayant pas une grande expertise de l’algorithmique distribuée, car ces formalismes mélangent les processus scientifiques qu’ils modélisent avec leurs implémentations. Ainsi, ils ne permettent pas de distinguer entre les objectifs et les méthodes, ni de repérer les particularités d’une implémentation ou de l’infrastructure sous-jacente.

Le but de ce travail est d’améliorer l’accessibilité aux workflows scientifiques et de faciliter leur création et leur réutilisation. Pour ce faire, nous proposons d’élever le niveau d’abstraction, de mettre en valeur l’expérience scientifique plutôt que les aspects techniques, de séparer les considérations fonctionnelles et non-fonctionnelles et de tirer profit des connaissances et du savoir-faire du domaine.

Les principales contributions de ce travail sont : (i) un modèle de workflows scientifiques a structure flexible, sémantique et multi-niveaux appelé “Conceptual Workflow Model”, qui permet aux utilisateurs de construire des simulations indépendamment de leur implémentation afin de se concentrer sur les objectifs et les méthodes scientifiques; et (ii) un processus de transformation assisté par ordinateur pour aider les utilisateurs à convertir leurs modèles de simulation de haut niveau en workflows qui peuvent être délégués à des systèmes externes pour l’exécution.

PhD Thesis Defense - Sana Fathallah

Salle de conférence I3S, bat. Les Algorithmes, 19/12/2013 10h15

Titre: Interference Resolution for dynamic service composition in Ubiquitous computing

Jury

- Lionel SEINTURIER - Professeur,Université Lille1 (Rapporteur)
- Mokrane BOUZEGHOUB - Professeur, Université Versailles SQY (Rapporteur)
- Kamel HAMROUNI - Professeur, Université Tunis el Manar (Président)
- Georges DA COSTA - Docteur, Université Toulouse III (Examinateur)
- Jean-Yves TIGLI - Docteur, Université Nice Sophia Antipolis (Invité)
- Michel RIVEILL - Professeur, Université Nice Sophia Antipolis (Directeur)
- Stéphane LAVIROTTE - Docteur, Université Nice Sophia Antipolis(Co-Directeur)

Abstract

Like many other fields, application construction in ubiquitous computing is done by reuse of available software entities. For reasons of conductivity, breakdown, battery charge, but also many others reasons, the availability of these entities is unpredictable. As consequence, the self-adaptation of applications becomes necessary. This requires the specification of parallel adaptations by experts from various fields. This parallel specification can cause interference problems when several adaptations are composed.

In this thesis, using graph formalism, we contribute to the definition of a formal approach for the detection and the resolution of interferences. The specification of adaptation uses connectors in order to assemble software entities. Graph rewriting rules are defined to solve the detected interferences. This resolution is guided by the knowledge of defined connectors. In addition, in order to extend dynamically and automatically our interference management mechanism, we propose behavioral modeling of these connectors. This allows us extending our mechanism without an a priori knowledge of connectors and allows afterwards to extend the set of available connectors used for adaptations’specifications.

Résumé

Comme dans de nombreux autres domaines, la construction des applications en Informatique Ambiantes (IAm) se fait par réutilisation d’entités logicielles disponibles. Pour des raisons de conductivités, de pannes, de charge de batterie mais aussi de nombreuses autres, la disponibilité de ces entités est imprévisible ce qui implique que l’auto-adaptation dynamique des applications est une nécessité. Cela passe par la spécification en parallèle des adaptations par des experts de divers domaines. Ce parallélisme de construction, peut amener des problèmes d’interférences lors de la composition dynamique de plusieurs adaptations.

Dans cette thèse, par l’utilisation de graphes, nous contribuons à la définition d’un cadre formel pour la détection et la résolution de ces interférences. L’assemblage des entités logicielles repose sur des connecteurs d’assemblage qui sont utilisés dans la spécification des adaptations. Des règles de réécriture de graphe permettront de résoudre les interférences détectées, cette résolution étant guidée par la connaissance de connecteurs définis. De plus, pour pouvoir étendre dynamiquement et automatiquement notre mécanisme de gestion des interférences, nous proposons la modélisation comportementale de ces connecteurs. Ceci permet de ne pas reposer sur une connaissance à priori des connecteurs et autorise par la même d’étendre dynamiquement l’ensemble des connecteurs disponibles pour la spécification des adaptations.

PhD Thesis Defense - Franck Berthelon

Salle de conférence I3S, bat. Les Algorithmes, 16/12/2013 14h

Titre: Emotion modelization and detection from expressive and contextual data

Jury

Frank Ferrie, Professeur à McGill, Canada (Rapporteur)
Claude Frasson, Professeur à l'université de Montréal, Canada (Rapporteur)
Ladjel Bellatreche, Professeur à LIAS, France (Examinateur)
Nhan Le Thanh, Professeur à l'université de Nice Sophia Antipolis (Examinateur)
Peter Sander, Professeur à l'université de Nice Sophia Antipolis (Directeur)

Abstract

We present a computational model for emotion detection based on human behavioural expression. For this work, we use the two-factor theory of Schachter and Singer to map our architecture onto natural behavior, using both expressive and contextual data to build our emotion detector. We focus our effort on expression interpretation by introducing Personalized Emotion Maps (PEMs), and on emotion contextualisation via an Emotion Ontology for Contex Awareness (EmOCA). PEMs are motivated by Scherer’s complex system model of emotions and represent emotion values determined from multiple sensors. PEMs are calibrated to individuals, then a regression algorithm uses individual-specific PEMs to determine a person’s emotional feeling from sensor measurements of their bodily expressions. The aim of this architecture is to dissociate expression interpretation from sensor measurements, thus allowing flexibility in the choice of sensors. Moreover, PEMs can also be used in facial expression synthesis.

EmOCA brings context into the emotion-modulating cognitive input to weight predicted emotion. We use a well known interoperable reasoning tool, an ontology, allowing us to describe and to reason about philia and phobia in order to modulate emotion determined from expression. We present a prototype using facial expressions to evaluate emotion recognition from real-time video sequences. Moreover, we note that, interestingly, the system detects the sort of hysteresis phenomenon in changing emotion state as suggested by Scherer’s psychological model.

Résumé

Modélisation et détection des émotions à partir de données expressives et contextuelles

Nous proposons un modèle informatique pour la détection des émotions basé sur le comportement humain. Pour ce travail, nous utilisons la théorie des deux facteurs de Schachter et Singer pour reproduire dans notre architecture le comportement naturel en utilisant à la fois des données expressives et contextuelles. Nous concentrons nos efforts sur l’interprétation d’expressions en introduisant les Cartes Emotionnelles Personnalisées (CEPs) et sur la contextualisation des émotions via une ontologie du contexte émotionnel(EmOCA). Les CEPs sont motivées par le modèle complexe de Scherer et représentent les émotions déterminées par de multiple capteurs. Les CEPs sont calibrées individuellement, puis un algorithme de régression les utilises pour définir le ressenti émotionnel à partir des mesures des expressions corporelles. L’objectif de cette architecture est de séparer l’interprétation de la capture des expressions, afin de faciliter le choix des capteurs. De plus, les CEPs peuvent aussi être utilisées pour la synthétisation des expressions émotionnelles.

EmOCA utilise le contexte pour simuler la modulation cognitive et pondérer l’émotion prédite. Nous utilisons pour cela un outil de raisonnement interopérable, une ontologie, nous permettant de décrire et de raisonner sur les philies et phobies pour pondérer l’émotion calculée à partir des expressions. Nous présentons également un prototype utilisant les expressions faciales pour évaluer la reconnaissance des motions en temps réel à partir de séquences vidéos. De plus, nous avons pu remarquer que le système décrit une sorte d’hystérésis lors du changement émotionnel comme suggéré par Scherer pour son modèle psychologique.

PhD Thesis Defense - Luca Costabello

Room Euleur Violet at Inria Sophia Antipolis, 29/11/2013 14h00

Titre: Context Aware Access Control and Presentation of Linked Data

Advisor: Fabien Gandon, Inria
Co-Advisor: Ivan Herman, CWI/W3C

Jury

- Peter Sander, Université de Nice-Sophia Antipolis, jury’s president
- Stefan Decker, National University of Ireland, Galway, examiner
- Jérôme Euzenat, Inria Grenoble, examiner
- Fabien Gandon, Inria Sophia Antipolis, advisor
- Ivan Herman, CWI/W3C, co-advisor

Abstract

The thesis discusses the influence of mobile context awareness in accessing the Web of Data from handheld devices. The work dissects this issue into two research questions: how to enable context-aware adaptation for Linked Data consumption, and how to protect access to RDF stores from context-aware devices.

The thesis contribution to this first research question is PRISSMA, an RDF rendering engine that extends Fresnel with context-aware selection of the best presentation according to mobile context. This operation is performed by an error-tolerant subgraph matching algorithm based on the notion of graph edit distance. The algorithm takes into account the discrepancies between context descriptions and the sensed context, supports heterogeneous context dimensions, and runs on the client-side - to avoid disclosing sensitive context information.

The second research activity presented in the thesis is the Shi3ld access control framework for Linked Data servers. Shi3ld has the advantage of being a pluggable filter for generic triple stores, with no need to modify the endpoint itself. It adopts exclusively Semantic Web languages and it does not add new policy definition languages, parsers nor validation procedures. Shi3ld provides protection up to triple level. The thesis describes both PRISSMA and Shi3ld prototypes. Test campaigns show the validity of PRISSMA results, along with memory and response time performance. The Shi3ld access control module has been tested on different triple stores, with and without SPARQL engines. Results show the impact on response time, and demonstrate the feasibility of the approach.

Résumé

La thèse concerne le rôle joué par le contexte dans l'accès au Web de données depuis les dispositifs mobiles. Le travail analyse ce problème de deux points de vue distincts: adapter au contexte la présentation de données liées, et protéger l'accès aux bases des donnés RDF depuis les dispositifs mobiles.

La première contribution est PRISSMA, un moteur de rendu RDF qui étend Fresnel avec la sélection de la meilleure représentation pour le contexte physique ou on se trouve. Cette opération est effectuée par un algorithme de recherche de sous-graphes tolérant aux erreurs basé sur la notion de distance d'édition sur les graphes. L'algorithme considère les différences entre les descriptions de contexte et le contexte détecté par les capteurs, supporte des dimensions de contexte hétérogènes et est exécuté sur le client pour ne pas révéler des informations privées.

La deuxième contribution concerne le système de contrôle d'accès Shi3ld. Shi3ld supporte tous les triple stores et il ne nécessite pas de les modifier. Il utilise exclusivement les langages du Web sémantique, et il n'ajoute pas des nouveaux langages de définition de règles d'accès, y compris des analyseurs syntaxiques et des procédures de validation. Shi3ld offre une protection jusqu'au niveau des triplets. La thèse décrit les modèles, algorithmes et prototypes de PRISSMA et de Shi3ld. Des expériences montrent la validité des résultats de PRISSMA ainsi que les performances au niveau de mémoire et de temps de réponse. Le module de contrôle d'accès Shi3ld a été testé avec différents triple stores, avec et sans moteur SPARQL. Les résultats montrent l'impact sur le temps de réponse et démontrent la faisabilité de l'approche.

PhD Thesis Defense - Filip Krikava

Salle de conférence I3S, 11/09/2013 14h30

Titre: Langage de Modélisation Spécifique au Domaine pour les Architectures Logicielles Auto-Adaptatives

Jury

- Philippe Collet, Professor, University of Nice-Sophia Antipolis (Adviser)
- Johan Montagnat, Research Director, I3S - CNRS (Adviser)
- Bernhard Rumpe, Professor, RWTH Aachen University (Reviewer)
- Lionel Seinturier, Professor, University of Lille 1 (Reviewer)
- Jacques Malenfant, Professor, University of Pierre et Marie Curie (Examiner)
- Michel Riveill, Professor, Université Nice Sophia Antipolis (Examiner)

Abstract

The vision of Autonomic Computing and Self-Adaptive Software Systems aims at realizing software that autonomously manage itself in presence of varying environmental conditions. Feedback Control Loops (FCL) provide generic mechanisms for self-adaptation, however, incorporating them into software systems raises many challenges.

The first part of this thesis addresses the integration challenge, i.e., forming the architecture connection between the underlying adaptable software and the adaptation engine. We propose a domain-specific modeling language, FCDL, for integrating adaptation mechanisms into software systems through external FCLs. It raises the level of abstraction, making FCLs amenable to automated analysis and implementation code synthesis. The language supports composition, distribution and reflection thereby enabling coordination and composition of multiple distributed FCLs. Its use is facilitated by a modeling environment, ACTRESS, that provides support for modeling, verification and complete code generation. The suitability of our approach is illustrated on three real-world adaptation scenarios.

The second part of this thesis focuses on model manipulation as the underlying facility for implementing ACTRESS. We propose an internal Domain-Specific Language (DSL) approach whereby Scala is used to implement a family of DSLs, SIGMA, for model consistency checking and model transformations. The DSLs have similar expressiveness and features to existing approaches, while leveraging Scala versatility, performance and tool support.

To conclude this thesis we discuss further work and further research directions for MDE applications to self-adaptive software systems.

Résumé

Le calcul autonome vise à concevoir des logiciels qui prennent en compte les variations dans leur environnement d'exécution. Les boucles de rétro-action (FCL) fournissent un mécanisme d'auto-adaptation générique, mais leur intégration dans des systèmes logiciels soulève de nombreux défis.

Cette thèse s'attaque au défi d'intégration, c.à.d. la composition de l'architecture de connexion reliant le système logiciel adaptable au moteur d'adaptation. Nous proposons pour cela le langage de modélisation spécifique au domaine FCDL. Il élève le niveau d'abstraction des FCLs, permettant l'analyse automatique et la synthèse du code. Ce langage est capable de composition, de distribution et de réflexivité, permettant la coordination de plusieurs boucles de rétro-action distribuées et utilisant des mécanismes de contrôle variés. Son utilisation est facilitée par l'environnement de modélisation ACTRESS qui permet la modélisation, la vérification et la génération du code. La pertinence de notre approche est illustrée à travers trois scénarios d'adaptation réels construits de bout en bout.

Nous considérons ensuite la manipulation de modèles comme moyen d'implanter ACTRESS. Nous proposons un Langage Spécifique au Domaine interne qui utilise Scala pour implanter une famille de DSLs. Il permet la vérification de cohérence et les transformations de modèles. Les DSLs résultant ont des propriétés similaires aux approches existantes, mais bénéficient en plus de la souplesse, de la performance et de l'outillage associés à Scala.

Nous concluons avec des pistes de recherche découlant de l'application de l'IDM au domaine du calcul autonome.

PhD Thesis Defense - Khalil Riad Bouzidi

Salle de conférence I3S, 11/09/2013 14h30

Titre: Aide à la création et à l'exploitation de réglementations basée sur les modèles et techniques du web sémantique

Jury

- Gilles Kassel, Professeur, Université de Picardie Jules Verne (Rapporteur)
- Habib Abdulrab, Professeur, Institut National des Sciences Appliquées de Rouen (Rapporteur)
- Bruno Fies, Ingénieur R&D, CSTB (Examinateur)
- Catherine Faron Zucker, Maître de Conférence, Université Nice Sophia Antipolis (Co-directeur)
- Nhan Le Thanh, Professeur, Laboratoire I3S, Université Nice Sophia Antipolis (Co-directeur)

Abstract

Regulations in the Building industry are becoming increasingly complex and involve more than one technical area. They cover products, components and project implementation. They also play an important role to ensure the quality of a building, and to minimize its environmental impact. For more than 30 years, CSTB has proved its expertise in this field through the development of the complete encyclopaedia of French technical and regulatory texts in the building domain: the REEF. In the framework of a collaboration between CSTB and the I3S laboratory, we are carrying on research on the acquisition of knowledge from the technical and regulatory information contained in the REEF and the automated processing of this knowledge with the final goal of assisting professionals in the use of these texts and the creation of new texts. We are implementing this work in CSTB to help industrials in the writing of Technical Assessments. The problem is how to specify these assessments and standardize their structure using models and adaptive semantic services.

The research communities of Knowledge Engineering and Semantic Web play a key role in providing the models and techniques relevant for our research, whose main objective is to simplify access to technical regulatory information, to support professionals in its implementation, and to facilitate the writing of new regulations while taking into account constraints expressed in the existing regulatory corpus. We focus on Technical Assessments based on technical guides capturing both regulations and knowledge of CSTB experts when producing these documents. A Technical Assessment (in French: Avis Technique or ATec) is a document containing technical information on the usability of a product, material, component or element of construction, which has an innovative character. We chose this Technical Assessment as a case study because CSTB has the mastership and a wide experience in these kinds of technical documents. We are particularly interested in the modeling of the regulatory constraints derived from the Technical Guides used to validate the Assessment. These Guides are regulatory complements offered by CSTB to the various industrials to enable easier reading of technical regulations. They collect execution details with a wide range of possible situations of implementations. Our work aims to formalize the Technical Guides in a machine-processable model to assist the creation of Technical Assessments by automating their validation.

- For this purpose, we first constructed a domain-ontology, which defines the main concepts involved in the Technical Guides. This ontology called “OntoDT” is coupled with domain thesauri. Several are being developed at CSTB among which one seems the most relevant by its volume and its semantic approach: the thesaurus from the REEF project.
- Our second contribution is the use of standard SBVR (Semantics of Business Vocabulary and Business Rules) and SPARQL to reformulate the regulatory requirements of guides both in a controlled and formal language
- Third, our model incorporates expert knowledge on the verification process of Technical Documents. We have organized the SPARQL queries representing regulatory constraints into several processes. Each component involved in the Technical Document corresponds to a elementary process of compliance checking. An elementary process contains a set of SPARQL queries to check the compliance of an elementary component. A full complex process for checking a Technical Document is defined recursively and automatically built as a set of elementary processes relative to the components which have their semantic definition in OntoDT.
- Finally, we represent in RDF the association between the SBVR rules and SPARQL queries representing the same regulatory constraints. We use annotations to produce a compliance report in natural language to assist users in the writing of Technical Assessments.

Résumé

Les réglementations concernant l’industrie de la construction deviennent de plus en plus complexes et touchent plus d’un domaine à la fois. Elles portent sur les produits, les composants et l'exécution des projets. Elles jouent aussi un rôle important pour garantir la qualité d'un bâtiment, ses caractéristiques et minimiser son impact environnemental. Depuis 30 ans, le CSTB prouve son savoir-faire en la matière au travers du développement du REEF, l’encyclopédie complète des textes techniques et réglementaires de la construction. Dans le cadre d’une collaboration entre le CSTB et le laboratoire I3S, nous avons travaillé à la formalisation et au traitement automatisé des informations technico-réglementaires contenues dans le REEF.

Nous avons mis en œuvre notre approche pour aider à la création de nouveaux Avis Techniques. Il s'agit de préciser comment ils sont rédigés et comment standardiser leur structure grâce à la mise en œuvre de services sémantiques adaptés. Nous avons réussi à identifier et à comprendre les problèmes liés à la rédaction d'avis techniques et nous nous sommes focalisés sur le renseignement des dossiers techniques par les industriels. Nos contributions sont les suivantes :

- Nous avons construit manuellement une ontologie du domaine, qui définit les principaux concepts impliqués dans l’élaboration des Avis Technique. Cette ontologie appelée “OntoDT” est couplée avec le thésaurus du projet REEF. Nous l’avons définie à partir de l’étude des dossiers techniques existants, du thesaurus REEF et en interviewant les instructeurs du CSTB.
- Nous utilisons conjointement les standards SBVR et SPARQL pour reformuler, à la fois dans un langage contrôlé et dans un langage formel, les contraintes réglementaires présentes dans les Guides pratiques. SBVR représente une assurance de la qualité du texte des contraintes réglementaires présentées à l’utilisateur et SPARQL permet l’automatisation de la vérification de ces contraintes. Ces deux représentations reposent sur l’ontologie de domaine que nous avons développée.
- Nous intégrons des connaissances expertes sur le processus même de vérification des dossiers techniques. Nous avons organisé en différents processus les requêtes SPARQL représentant des contraintes réglementaires. A chaque composant intervenant dans un dossier technique correspond un processus de vérification de sa conformité à la réglementation en vigueur. Les processus sont représentés de manière déclarative en RDF et un moteur de processus interprète ces descriptions RDF pour ordonner et déclencher l’exécution des requêtes nécessaires à la vérification d’un dossier technique particulier.
- Enfin, nous représentons de façon déclarative en RDF l’association des représentations SBVR et SPARQL des réglementations et nous utilisons ces annotations pour produire à l’utilisateur un rapport de conformité en langue naturelle pour l’assister dans la rédaction d’un avis technique.

PhD Thesis Defense - André Kalawa

Salle 317 bâtiment Templiers 1, 02/09/2013 14h

Title: Migration des applications vers les tables interactives par recherche d'équivalences

Jury

Rapporteurs :
- Daniel HAGIMONT - Professeur, INPT/ENSEEIHT de Toulouse
- Jacky ESTUBLIER - Professeur, LIG Grenoble
Directeur :
- Michel RIVEILL - Professeur, Université de Nice Sophia Antipolis
Co Encadrante :
-Audrey OCCELLO - Docteur, Université de Nice Sophia Antipolis
Président :
- Mireille BLAY-FORNARINO - Professeur, Université de Nice Sophia Antipolis

Abstract

The migration of user interface (UI) is a way to reuse existing applications on platforms with different interactions modalities. The existing approaches for UI migration can be manual, automatic (for adapt UI based on usage context) or semi automatic (providing a flexible migration process driven by a conceptor). This thesis proposes a semi automatic approach to transform the UI of desktop to support further collaboration and usage of tangible objects. The interactive tables (IT) are platforms with interactions devices which allow the description of tangible and multi users UIs. Considering that the functional core (FC) of source applications can be reused on target platforms without transformation, any UI can be characterized with three dimensions: the dialogues between the users and the system, the structure and the layout of graphical components, and the visual style of graphical elements. In this context, the problematic regarding the UI migration is how to transform or re inject these different dimensions of source UI into the target, while considering the UI design criteria for the target. This thesis proposes an abstract interactions model to establish equivalences (independent of modalities of interactions) between the source, the dialogue and structure of the target. This abstract model is used to describe equivalence operators to find and to rank equivalent graphical elements. Furthermore, this thesis proposes substitution and concretization rules to increase the accessibility of graphical elements and to facilitate the usage of tangible objects. The ranking process and the rules are based on guidelines for UI migration to IT.

Résumé

Les approches de migration des interfaces utilisateurs (UI) existantes sont manuelles, automatiques ou semi automatiques. Les approches automatiques sont utilisées dans le cadre des services d'adaptation des UI aux contextes d'usage. Elles permettent une migration flexible et dirigée par un concepteur. Nous nous intéressons à cette dernière approche dans le but de transformer des UI Desktop pour favoriser la collaboration et l'utilisation des objets tangibles. Les tables interactives disposent des instruments d'interactions permettant de décrire des UI tangibles et multi-utilisateurs. En considérant que le noyau fonctionnel (NF) des applications de départ peut être réutilisé sur les cibles sans changement, les UI sont caractérisées par trois dimensions: les dialogues entre les utilisateurs et le système, la structure et le positionnement des éléments graphiques ainsi que le style des éléments visuels. La migration d'une UI consiste à transformer ou à recréer les différentes dimensions d'une UI source pour la cible tout en considérant les critères de conception de la cible. Nous proposons dans cette thèse un modèle d'interactions abstraites pour établir les équivalences entre les dialogues et la structure des UI indépendamment des modalités d'interactions des plateformes source et cible. Ce modèle permet de décrire des opérateurs d'équivalences pour retrouver et classer les éléments graphiques équivalents en prenant en compte les guidelines des tables interactives. Nous proposons aussi des règles de substitution et de concrétisation pour accroître l'accessibilité des éléments graphiques et favoriser l'utilisation des objets tangibles.

PhD Thesis Defense - Kartick Chandra Mondal

Salle de conference I3S 12/07/2013 14h

Titre: Algorithmes pour la Fouille de Données et la Bio-informatique
Title: Algorithms for Data Mining and Bioinformatics

Jury

Rapporteurs :
- Madame COLLARD Martine, P rofesseur, Université des Antilles et de la Guyane
- Monsieur PONCELET Pascal, Professeur, Université Montpellier II
Examinateurs :
- Monsieur LACHICHE Nicolas, Maître de Conférences HDR, ICube - UMR 7357
- Monsieur TETTAMANZI Andrea, Professeur, Laboratoire I3S
- Monsieur PRECIOSO Frederic, Professeur, Laboratoire I3S

Abstract

Knowledge pattern extraction is one of the major topics in the data mining and background knowledge integration domains. Out of several data mining techniques, association rule mining and bi-clustering are two major complementary tasks for these topics. These tasks gained much importance in many domains in recent years. However, no approach was proposed to perform them in one process. This poses the problems of resources required (memory, execution times and data accesses) to perform independent extractions and of the unification of the different results. We propose an original approach for extracting different categories of knowledge patterns while using minimum resources. This approach is based on the frequent closed patterns theoretical framework and uses a novel suffix-tree based data structure to extract conceptual minimal representations of association rules, bi-clusters and classification rules. These patterns extend the classical frameworks of association and classification rules, and bi-clusters as data objects supporting each pattern and hierarchical relationships between patterns are also extracted. This approach was applied to the analysis of HIV-1 and human protein-protein interaction data. Analyzing such inter-species protein interactions is a recent major challenge in computational biology. Databases integrating heterogeneous interaction information and biological background knowledge on proteins have been constructed. Experimental results show that the proposed approach can efficiently process these databases and that extracted conceptual patterns can help the understanding and analysis of the nature of relationships between interacting proteins.

Résumé

L'extraction de règles d'association et de bi-clusters sont deux techniques de fouille de données complémentaires majeures, notamment pour l'intégration de connaissances. Ces techniques sont utilisées dans de nombreux domaines, mais aucune approche permettant de les unifier n'a été proposée. Hors, réaliser ces extractions indépendamment pose les problèmes des ressources nécessaires (mémoire, temps d'exécution et accès aux données) et de l'unification des résultats. Nous proposons une approche originale pour extraire différentes catégories de modèles de connaissances tout en utilisant un minimum de ressources. Cette approche est basée sur la théorie des ensembles fermés et utilise une nouvelle structure de données pour extraire des représentations conceptuelles minimales de règles d'association, bi-clusters et règles de classification. Ces modèles étendent les règles d'association et de classification et les bi-clusters classiques, les listes d'objets supportant chaque modèle et les relations hiérarchiques entre modèles étant également extraits. Cette approche a été appliquée pour l'analyse de données d'interaction protéomiques entre le virus VIH-1 et l'homme. L'analyse de ces interactions entre espèces est un défi majeur récent en bio-informatique. Plusieurs bases de données intégrant des informations hétérogènes sur les interactions et des connaissances biologiques sur les protéines ont été construites. Les résultats expérimentaux montrent que l'approche proposée peut traiter efficacement ces bases de données et que les modèles conceptuels extraits peuvent aider à la compréhension et à l'analyse de la nature des relations entre les protéines interagissant.

PhD Thesis Defense - Christian Brel

Salle de conference I3S 28/06/2013 10h30

Titre: Composition d'applications multi-modèles dirigée par la composition des interfaces graphiques
Title: Multi-models application composition driven by user interface composition

Jury

Rapporteurs :
- Gaëlle CALVARY, Professeur, INP Grenoble
- Jean VANDERDONCKT, Professeur, Université Catholique de Louvain
Examinatrice :
- Sophie LEPREUX, Docteur, Université de Valenciennes
Présidente du jury:
- Mireille BLAY-FORNARINO, Professeur, Université Nice Sophia Antipolis
Directeur :
- Michel RIVEILL, Professeur, Université Nice Sophia Antipolis
Co-Encadrant :
- Philippe RENEVIER-GONIN, Docteur, Université Nice Sophia Antipolis

Abstract

One has to note that composing existing applications by completely or partly reusing them is a complex task. Nevertheless with the daily appearance of new available applications on any media, the application editors need to perform such compositions more and more to answer the increasing users’ requests. Modeling an application for composition or just determining by which point of view on applications make this composition is not easy. Works exist, but generally deal or ensue from only a single point of view : the “Functional Core” point of view in Software Engineering field, the “Task” one or “User Interface” one in Human Computer Interaction (HCI) field. This thesis defines a new approach based on a complete application model (functionnal, task and user interface). It enables an user to navigate between those different models in order to select consistent sets. These last ones are composable by substitution. An implementation of this approach was used to perform user tests whose results consolidate benefits of a complete model.

Keywords : application composition, complete model, user interface, tasks, software components, ontologies

Résumé

Force est de constater que composer des applications existantes afin d’en réutiliser tout ou une partie est une tâche complexe. Pourtant avec l’apparition quotidienne d’applications, les éditeurs d’applications ont de plus en plus besoin d’effectuer de telles compositions pour répondre à la demande croissante des utilisateurs. Les travaux existants ne traitent généralement que d’un seul point de vue : celui du “Noyau Fonctionnel” dans le domaine du Génie Logiciel, celui des “Tâches” ou celui de l’”Interface Graphique“ dans le domaine des Interactions Homme-Machine (IHM). Cette thèse propose une nouvelle approche basée sur un modèle d’application complet (fonctionnel, tâche et interface graphique). Elle permet à un utilisateur de naviguer entre ces différents modèles pour sélectionner des ensembles cohérents pouvant être composer par substitution. Une implémentation de cette approche a permis d’effectuer des tests utilisateurs confortant les bienfaits d’une modélisation complète.

Mots clefs : composition d’applications, modèle complet, interface graphique, tâches, composants logiciels, ontologies

PhD Thesis Defense - Imen Tayari Meftah

Salle de conference I3S 12/04/2013 14h30

Title: Modélisation, détection et annotation des états émotionnels à l'aide d'un espace vectoriel multidimensionnel

Résumé

Notre travail s'inscrit dans le domaine de “l'affective computing” et plus précisément la modélisation, détection et annotation des émotions. L'objectif est d'étudier, d'identifier et de modéliser les émotions afin d'assurer l'échanges entre applications multimodales. Notre contribution s'axe donc sur trois points. En premier lieu, nous présentons une nouvelle vision de la modélisation des états émotionnels basée sur un modèle générique pour la représentation et l'échange des émotions entre applications multimodales. Il s'agit d'un modèle de représentation hiérarchique composé de trois couches distinctes : la couche psychologique, la couche de calcul formel et la couche langage. Ce modèle permet la représentation d'une infinité d'émotions et la modélisation aussi bien des émotions de base comme la colère, la tristesse et la peur que les émotions complexes comme les émotions simulées et masquées.

Le second point de notre contribution est axé sur une approche monomodale de reconnaissance des émotions fondée sur l'analyse des signaux physiologiques. L'algorithme de reconnaissance des émotions s'appuie à la fois sur l'application des techniques de traitement du signal, sur une classification par plus proche voisins et également sur notre modèle multidimensionnel de représentation des émotions. Notre troisième contribution porte sur une approche multimodale de reconnaissance des émotions. Cette approche de traitement des données conduit à une génération d'information de meilleure qualité et plus fiable que celle obtenue à partir d'une seule modalité. Les résultats expérimentaux montrent une amélioration significative des taux de reconnaissance des huit émotions par rapport aux résultats obtenus avec l'approche monomodale.

Enfin nous avons intégré notre travail dans une application de détection de la dépression des personnes âgées dans un habitat intelligent. Nous avons utiliser les signaux physiologiques recueillis à partir de différents capteurs installés dans l'habitat pour estimer l'état affectif de la personne concernée.

PhD Thesis Defense - Alban Gaignard

Salle de conference I3S 15/03/2013 14h

Title: Distributed knowledge sharing and production through collaborative e-Science platforms

Jury

Andrea Tettamanzi, Professeur, Université Nice Sophia Antipolis (Président du jury)
Oscar Corcho, Associate Professor, Universidad Politécnica de Madrid (Rapporteur)
Ollivier Haemmerlé, Professeur, Université Toulouse le Mirail (Rapporteur)
Olivier Corby, CR INRIA, Laboratoire I3S (Examinateur)
Bernard Gibaud, CR INSERM, Laboratoire LTSI (Examinateur)
Catherine Faron Zucker, Maître de Conférence, Université Nice Sophia Antipolis (Invitée)
Johan Montagnat, DR CNRS, Laboratoire I3S (Directeur de thèse)

Abstract

This thesis addresses the issues of coherent distributed knowledge production and sharing in the Life-science area. In spite of the continuously increasing computing and storage capabilities of computing infrastructures, the management of massive scientific data through centralized approaches became inappropriate, for several reasons: (i) they do not guarantee the autonomy property of data providers, constrained, for either ethical or legal concerns, to keep the control over the data they host, (ii) they do not scale and adapt to the massive scientific data produced through e-Science platforms.
In the context of the NeuroLOG and VIP Life-science collaborative platforms, we address on one hand, distribution and heterogeneity issues underlying, possibly sensitive, resource sharing ; and on the other hand, automated knowledge production through the usage of these e-Science platforms, to ease the exploitation of the massively produced scientific data. We rely on an ontological approach for knowledge modeling and propose, based on Semantic Web technologies, to (i) extend these platforms with efficient, static and dynamic, transparent federated semantic querying strategies, and (ii) to extend their data processing environment, from both provenance information captured at run-time and domain-specific inference rules, to automate the semantic annotation of in silico experiment results.
The results of this thesis have been evaluated on the Grid'5000 distributed and controlled infrastructure. They contribute to addressing three of the main challenging issues faced in the area of computational science platforms through (i) a model for secured collaborations and a distributed access control strategy allowing for the setup of multi-centric studies while still considering competitive activities, (ii) semantic experiment summaries, meaningful from the end-user perspective, aimed at easing the navigation into massive scientific data resulting from large-scale experimental campaigns, and (iii) efficient distributed querying and reasoning strategies, relying on Semantic Web standards, aimed at sharing capitalized knowledge and providing connectivity towards the Web of Linked Data.

Keywords: Scientific workflows, Semantic web services, Provenance, Semantic web, Web of Linked Data, Federated knowledge bases, Distributed data integration, e-Science, e-Health.

Résumé

Cette thèse s'intéresse à la production et au partage cohérent de connaissances distribuées dans le domaine des sciences de la vie. Malgré l'augmentation constante des capacités de stockage et de calcul des infrastructures informatiques, les approches centralisées pour la gestion de grandes masses de données scientifiques multi-sources deviennent inadaptées pour plusieurs raisons: (i) elles ne garantissent pas l'autonomie des fournisseurs de données qui doivent conserver un certain contrôle sur les données hébergées pour des raisons éthiques et/ou juridiques, (ii) elles ne permettent pas d'envisager le passage à l'échelle des plateformes en sciences computationnelles qui sont la source de productions massives de données scientifiques.
Nous nous intéressons, dans le contexte des plateformes collaboratives en sciences de la vie NeuroLOG et VIP, d'une part, aux problématiques de distribution et d'hétérogénéité sous-jacentes au partage de ressources, potentiellement sensibles ; et d'autre part, à la production automatique de connaissances au cours de l'usage de ces plateformes, afin de faciliter l'exploitation de la masse de données produites. Nous nous appuyons sur une approche ontologique pour la modélisation des connaissances et proposons à partir des technologies du web sémantique (i) d'étendre ces plateformes avec des stratégies efficaces, statiques et dynamiques, d'interrogations sémantiques fédérées et (ii) d'étendre leur environnent de traitement de données pour automatiser l'annotation sémantique des résultats d'expérience in silico, à partir de la capture d'informations de provenance à l'exécution et de règles d'inférence spécifiques au domaine.
Les résultats de cette thèse, évalués sur l'infrastructure distribuée et contrôlée Grid'5000, apportent des éléments de réponse à trois enjeux majeurs des plateformes collaboratives en sciences computationnelles : (i) un modèle de collaborations sécurisées et une stratégie de contrôle d'accès distribué pour permettre la mise en place d'études multi-centriques dans un environnement compétitif, (ii) des résumés sémantiques d'expérience qui font sens pour l'utilisateur pour faciliter la navigation dans la masse de données produites lors de campagnes expérimentales, et (iii) des stratégies efficaces d'interrogation et de raisonnement fédérés, via les standards du Web Sémantique, pour partager les connaissances capitalisées dans ces plateformes et les ouvrir potentiellement sur le Web de données.

Mots-clés : Flots de services et de données scientifiques, Services web sémantiques, Provenance, Web de données, Web sémantique, Fédération de bases de connaissances, Intégration de données distribuées, e-Sciences, e-Santé.

Séminaires

From Networked Knowledge to Insight(s)

Where: Campus Sophi@ Tech, Polytech Templiers 1, 4th floor, Salle du Conseil
When: 29th November 2013, 10h-11h
By Stefan Decker, Director Insight at NUI Galway, Director DERI, http://www.stefandecker.org

Title: From Networked Knowledge to Insight(s)…

Abstract

The development of linked open data provided us with a wealth of data to experiment and extract value from. In my talk I will summarise work that has been conducted in DERI and now in Insight at NUI Galway to manage linked data, to summarise it and to extract value from it. I will also indicate that there may be an alternative to the classic class-instance based way to knowledge representation on the Web, which may be a step towards enabling a real network of Knowledge.

The dynamic knowledge medium

Where: Campus Sophi@ Tech, Polytech Templiers 1, 4th floor, Salle du Conseil
When: 29th November 2013, 11h-12h
By Jérôme Euzenat, DR, INRIA and LIG, Grenoble (France), http://exmo.inria.fr/~euzenat/

Title: From Networked Knowledge to Insight(s)…

Abstract

The development of semantic technologies has largely succeeded in grounding shared formalised representations. Ontologies expressed in logics are proliferating and data expressed with these ontologies are flooding the web. Networks of ontologies allow us to interpret ontologies together such that their connections reinforce them. But far from being static, networks of ontologies are a priceless tool for interpreting this magma of ever evolving and distributed ontologies connected through evolving and distributed alignments. This semantic web, like the web, can be considered as a medium: a milieu which supports communication. In this talk, I will try to consider what kind of medium the semantic web is, i.e., how it supports or obstructs communication through characteristics of being formal, dynamic, pervasive and active. I will connect this to typical operations developed in knowledge representation and specifically in the Exmo team.

Quelques success-stories de l'apprentissage automatique durant la dernière décennie

Where: Inria - salle cafétéria extension
When: November 21st, 13h-14h
By Frédéric Precioso

Résumé

Ce café-in sera l'occasion de présenter certains des succès de l'apprentissage automatique (machine learning) depuis le début des années 2000, de la détection de visage en passant par la détection des piétons et la reconnaissance d'objets. La description des algorithmes et des cadres d'application permettront de mieux cerner la puissance et les limites de ces méthodes et de faire un point sur certains enjeux de la recherche d'information.

Context-Aware Presentation of Linked Data on Mobile

Where: Templiers, salle du conseil
When: November 15th, 11h-12h
By Luca Costabello

Context-Aware Presentation of Linked Data on Mobile

Where: Templiers, salle du conseil
When: November 15th, 11h-12h
By Luca Costabello

A Computer Aided Question Answering System

Where: Templiers, salle du conseil
When: October 11th, 10h-11h
By Mathieu Lacage

Extending Linked Open Data resources exploiting Wikipedia as source of information

Where: Templiers, salle du conseil
When: Monday 7th October, 14h
By Alessio Palmero Aprosio

Title: Extending Linked Open Data resources exploiting Wikipedia as source of information

Abstract

DBpedia is a project aiming at representing Wikipedia content in RDF triples. It plays a central role in the Semantic Web, due to the large and growing number of resources linked to it. Currently, the information contained in DBpedia is mainly collected from Wikipedia infoboxes, a set of subject-attribute-value triples that represent a summary of the Wikipedia page. The extraction procedure requires to manually map Wikipedia infoboxes to the DBpedia ontology.

Thanks to crowdsourcing, a large number of infoboxes in the English Wikipedia has been mapped to the corresponding classes in DBpedia. Subsequently, the same procedure has been applied to other languages to create the localized versions of DBpedia. However, (i) the number of accomplished mappings is still small and limited to most frequent infoboxes, (ii) mappings need maintenance due to the constant and quick changes of Wikipedia articles, and (iii) infoboxes are manually compiled by the Wikipedia contributors, therefore in more than 50% of the Wikipedia articles the infobox is missing. As a demonstration of these issues, only 1.7M Wikipedia pages are “deeply” classified in the DBpedia ontology, although the English Wikipedia contains almost 4M pages. This shows a clear problem of coverage, and this issue is even worse in other languages (like French and Spanish).

In this seminar, we define a methodology to increase the coverage of DBpedia in different languages, using various techniques to reach two different goals: automatic mapping generation and DBpedia dataset completion. A key aspect of our research is multi-linguality in Wikipedia: we bootstrap the available information through cross-language links, starting from the available mappings in some pivot languages, and then extending the existing DBpedia datasets (or create new ones from scratch) comparing the classifications in different languages. When the DBpedia classification is missing, we train a supervised classifier using the original DBpedia as training. We also use the Distant Supervision paradigm to extract the missing properties directly from Wikipedia articles. We evaluated our system using a manually annotated test set and some existing DBpedia mappings excluded from the training. The results demonstrate the suitability of the approach in extending the DBpedia resource. Finally, the resulting resources are made available through a SPARQL endpoint and a downloadable package.

Short bio

Alessio Palmero Aprosio is a PhD student in Information Technology at the University of Milan and Fondazione Bruno Kessler (Trento). In 2006 he graduated in Mathematics, and in 2012 he achieved a first-level Master in Communication of Science at SISSA (Trieste). His current interests cover Semantic Web and Natural Language Processing.

The KNOWLEDGE STORE: an Integrated Framework for Ontology Population

Where: Templiers, salle du conseil
When: Friday 6th September, 14h
By Bernardo Magnini

Title: The KNOWLEDGE STORE: an Integrated Framework for Ontology Population

Abstract

Ontology Population from Text aims at building a Knowledge Base from large amount of unstructured information (e.g. corpora, web pages), in order to make such information available for applications, including Semantic Web scenarios. In this talk we suggest that there are aspects of the Ontology Population process that have not yet been deeply investigated so far. They include (i) the need to consider a larger variety of facts that can populate an Ontology, particularly events and the temporal relations among them; (ii) the role of “coreference” among textual mentions and its overlapping with the “linking” process; (iii) the fact that often unstructured data occurs in streams (for instance news) and, as a consequence, the Ontology Population process is an incremental one, where the temporal dimension is crucial.

Some of the research directions mentioned above have been addressed in the KNOWLEDGE STORE framework, a large-scale infrastructure for the combined storage and interlinking of multimedia resources and ontological knowledge. The KNOWLEDGE STORE builds on top of state of art technologies for language processing, including document tagging, named entity extraction and cross-document coreference. We discuss the KNOWLEDGE STORE capability to adapt to new types of content and application scenarios, and to provide reasoning and semantic queries services on top of stored contents. Finally, we shortly report on its use in two application scenarios.

Short bio

Bernardo Magnini is senior researcher at FBK in Trento, where he is co-responsible of the Research Unit on Human Language Technology. His interests are in the field of Natural Language Processing, particularly lexical semantics, question answering and textual entailment, areas in which he has published more than 130 scientific papers. He has coordinated several international research projects, including QALL-ME (Question Answering), LiveMemories (content extraction and integration), and EXCITEMENT (textual inferences). He has launched and has coordinated EVALITA, the evaluation campaign for both NLP and speech tools for Italian. He is contract professor at the University of Bolzano, and member of the Scientific Committee of several initiatives, both academic and industrial. He currently coordinates the special interest group on NLP of the Italian Association for Artificial Intelligence.

Oscar Corcho

Where: Templiers, salle du conseil
When: Thursday 14th March, 14h30

Oscar Corcho (http://www.oeg-upm.net/index.php/en/teachers/11-ocorcho) de l'Université Polytechnique de Madrid nous rendra visite à l'occasion de la soutenance de thèse d'Alban (dont il est le rapporteur). Il sera présent le jeudi 14 mars à l'I3S pour un après midi de travail. Il fera une présentation de ses travaux sur l'intégration de données hétérogènes et les requêtes distribuées en salle du conseil à 14h30. En outre, vous êtes les bienvenus pour participer aux discussions qui suivront (et éventuellement présenter certains travaux dont vous aimeriez discuter): merci de m'en informer le cas échéant.

Scalability Issues in Multimedia Information Retrieval

Where: I3S conference room (level 0)
When: Monday, 11th February, at 2pm
By Eduardo do Valle, http://eduardovalle.com/

Title: Scalability Issues in Multimedia Information Retrieval

Abstract

The Millennium marked a turning point for textual Information Retrieval, a moment when Search Engines and Social Networks changed our relationship to World Wide Web: gigantic corpora of knowledge suddenly felt friendly, accessible and manageable. Ten years later, the same phenomenon is happening for complex non-textual data, including multimedia. The challenge is how to provide intuitive, convenient, fast services for those data, in collections whose size and growing rate is so big, that our intuitions fail to grasp.

Two issues have dominated the scientific discourse when we aim at that goal: our ability to represent multimedia information in a way that allows answering the high-level queries posed by the users, and our ability to process those queries fast.

In this talk, I will focus on the latter issue, examining similarity search in high-dimensional spaces, a pivotal operation found a variety of database applications — including Multimedia Information Retrieval. Similarity search is conceptually very simple: find the objects in the dataset that are similar to the query, i.e., those that are close to the query according to some notion of distance. However, due to the infamous “curse of the dimensionality”, performing it fast is challenging from both the theoretical and the practical point-of-view.

I have selected for this talk Hypercurves, my latest research endeavor, which is a distributed technique aimed at hybrid CPU-GPU environments. Hypercurves' goal is to employ throughput-oriented GPUs to keep answer times optimal, under several load regimens. The parallelization also poses interesting theoretical questions of how much can we optimize the parallelization of approximate k-nearest neighbors, if we relax the equivalence to the sequential algorithm from exact to probabilistic.

Bio: Eduardo Alves do Valle Junior

Professor at the School of Electrical and Computer Engineering (FEEC) of the State University of Campinas (UNICAMP), in the Department of Computer Engineering and Industrial Automation (DCA). Eduardo Valle has a Ph.D. on Computer Sciences at the University of Cergy-Pontoise, França (UCP, 2008) and a M.Sc. on Computer Sciences at the Federal University of Minas Gerais (UFMG, 2003). He is interested on the subjects of Databases, Information Retrieval, Classification and Machine Learning, with emphasis on the indexing of high-dimensional data, large-scale multimedia databases and content-based information retrieval (CBIR). He is especially interested on the applications of IT to the preservation and access of the Cultural Heritage.

2012

Soutenances

Soutenance thèse Adien Basse

Salle de conference I3S 10/12/2012 10h

Title: Extraction de motifs de graphes pour caractériser des sources de données RDF

Résumé

Nombreuses sont les applications web sémantique qui s?intéressent à la problématique de l'intégration de données issues de sources RDF distribuées. Pour l?exécution de requêtes distribuées, par exemple, plusieurs solutions sont ainsi proposées comme SPARQL 1.1 Federation qui définit un ensemble d?extensions au langage de requête SPARQL. Si ces extensions permettent de déléguer une partie de requête à un ensemble de services, un problème majeur subsiste encore pour déterminer automatiquement en amont les services disposant de réponses pour une requête donnée. La résolution de ce problème est particulièrement cruciale dans un contexte comme le Linking Open Data où de nombreuses sources RDF hétérogènes sont publiées. Pour pouvoir envoyer une requête uniquement aux sources de données concernées, une description complète et compacte de chaque source est nécessaire. Pour connaitre le contenu d?une source RDF nous pouvons nous baser sur les motifs de graphes qui la composent. Dans cette thèse nous nous intéressons à l?extraction de ces motifs de graphes. Nous proposons pour cela une extension du codage DFS (Depth-First Search) de [Yan02] aux motifs de graphes RDF qui sont orientés et étiquetés et une opération de jointure entre codes DFS pour construire itérativement les différents niveaux d'une structure d'index de sources de données RDF. La structure d'index ainsi générée est constituée d'une hiérarchie de graphes RDF et permet d'identifier les types de données contenus dans la source indexée.

Le choix du codage DFS pour représenter les motifs de graphe facilite entre autres les tests isomorphes et les opérations de jointure entre motifs de graphe mais pose un réel problème d'exploitation de la structure d'index. En effet, les hiérarchies de codes DFSR issues du processus de construction de structures d'index sont difficiles à lire (succession d'entiers) et à interroger. Pour palier cela, nous proposons une interface de visualisation des structures d'index générées et un ensemble d'algorithmes de transformation des codes DFSR dans des formats comme RDF plus “lisibles” et plus facilement exploitables.

L?ajout ou la suppression d?annotations de la source de données RDF peut entrainer des changements dans la structure d'index. A la place d?une reconstruction totale de la structure d'index nous proposons une procédure qui identifie d'abord les répercussions des mises à jour de la source dans le premier niveau de la structure d'index et ensuite propage ses modifications si nécessaires aux niveaux supérieurs.

Pour la manipulation des sources de données RDF, notre algorithme utilise le moteur de recherche sémantique CORESE/KGRAM de [Corby08] par l'intermédiaire de son API. Nous avons testé notre algorithme en générant des structures d'index à partir de plusieurs sources de données RDF choisies pour la diversité des motifs de graphes qu'elles contiennent.

Journées du Pôle GLC

Séminaires

Présentation Ubisense

Salle du conseil Templiers, 12/12/2012 à 11h

Des représentants de la société Ubisense seront dans nos locaux mercredi 12/12/12.

Ils feront une présentation devant l'ensemble des membres du pôle, en salle du conseil (bâtiment des templier de 11h00 à 12h00).

Ubisense est éditeur et fournisseur de solutions RTLS (Real Time Location System) présent en Amérique du Nord, en Europe et en Asie, avec plus de 500 clients dans le monde. Plus de 130 personnes participent au développement du groupe qui a dégagé en 2010 un chiffre d'affaire annuel de 20 millions d'euros. Les principaux marchés où les solutions d'Ubisense sont déployées sont l?automobile, le transport, l'aéronautique, la sécurité et le militaire.

http://www.ubisense.net/

Seminaire Carlos Valera

Salle de conference I3S 09/07/2012 à 10h30

Title: A Programming Model for Spatio-Temporal Data Streaming Applications
We describe a programming model to enable reasoning about spatio-temporal data streams. A spatio-temporal data stream is one where each datum is related to a point in space and time. For example, sensors in a plane record airspeeds (Va) during a given flight. Similarly, GPS units record an airplane’s flight path over the ground including ground speeds (Vg) at different locations. An aircraft’s airspeed and ground speed are related by a simple mathematical formula that correlates them with the wind speed and direction. Wind speeds and directions are typically forecast in 3,000-foot height intervals over discretely located fix points in 6-12 hour ranges. Modeling the relationship between these spatio-temporal data streams allows us to estimate with high probability the likelihood of sensor failures and consequent erroneous data. Tragic airplane accidents (such as Air France’s Flight 447 on June 1st, 2009 killing all 216 passengers and 12 aircrew aboard) could have been avoided by giving pilots better information which can be derived from inferring stochastic knowledge about spatio-temporal data streams. This work is a first step in this direction.

Bio:
Dr. Carlos A. Varela is Associate Professor of Computer Science and Founding Director of the Worldwide Computing Laboratory at Rensselaer Polytechnic Institute. Dr. Varela received his B.S with honors, M.S., and Ph.D. degrees in Computer Science, all from the University of Illinois at Urbana-Champaign. Before joining RPI, Dr. Varela worked as a Research Staff Member at IBM’s T.J. Watson Research in 2000-2001. Dr. Varela is Associate Editor and Information Director of the ACM Computing Surveys journal. Dr. Varela is the Program Committee co-Chair for the 5th IEEE/ACM International Conference on Utility and Cloud Computing (UCC 2012), Dr. Varela was the Program Committee Chair for the 2011 IEEE/ACM International Conference on Cluster, Cloud, and Grid Computing (CCGrid 2011) and has been a member of of approximately forty other conference and workshop Program Committees. Dr. Varela has given ten invited plenary lectures at international and national venues. He has supervised three Ph.D. dissertations and seven M.S. theses. Dr. Varela received Best Paper awards at HPDC-GECO’2006, eScience’2007, and CCGrid’2007. He is also a recipient of the NSF CAREER Award and two IBM Innovation Awards. The research reported in this talk is partially funded by the Air Force Office of Scientific Research.

Séminaire Florent Perronnin

Salle de conference I3S 06/07/2012 à 10h00

Titre : Large-Scale Visual Recognition with Fisher Vectors
The bag-of-visual-words (BOV) is certainly one of the most popular image representations. It consists in representing an image as a histogram of quantized local descriptor counts. I will present the Fisher vector (FV), an extension of the BOV which includes higher order statistics, i.e. which goes beyond counting. I will show that the FV enjoys several benefits with respect to the BOV: it is very efficient to compute and process and it yields to state-of-the-art results in large-scale retrieval and classification tasks. Especially, I will show retrieval results on up to 100M images and classification results on up to 9M images and 10K classes.

Team: Textual and Visual Pattern Analysis
Xerox Research Center Europe, Grenoble, France

2011

Journées du Pôle GLC

Slides des présentations de la journée du pôle du 01/07/11 (private space)

Soutenances

PhD Thesis Defense - VU Viet-Hoang

Salle de conference I3S 19/12/2011 10h

Titre : Contribution To Abductive Reasoning With Concepts In Description Logics - An Application To Ontology-based Semantic Matchmaking For Tourism Information Systems

Résumé
Aujourd'hui, le tourisme devient un secteur économique important. Afin de supporter le développement du marché électronique du tourisme, nous adoptons une méthode de Matchmaking Sémantique basés sur l'ontologie récemment proposées dans la littérature pour traiter le problème de l'hétérogénéité du domaine. L'idée est d'utiliser les Logiques de Descriptions (LDs) pour représenter la sémantique des demandes et des offres disponibles en référence à une ontologie et d'employer des services d'inférence automatique pour classer et proposer les meilleures solutions. De cette manière, la méthode facilite les processus de découverte et de négociation sur le marché. En outre, elle peut aussi être utilisée pour aider à la création des correspondances sémantiques, un processus important qui assure l'interopérabilité entre des systèmes d'information touristique hétérogènes. Pour réaliser le matchmaking, une nouvelle méthode d'inférence, Concept Abduction, a été développée pour la LD ALN. Parce que la représentation des ontologies du tourisme nécessite en général plus de l'expressivité, le premier objectif de cette thèse est d'étendre cette méthode d'inférence pour la LD plus expressive SHIQ. D'ailleurs, il est reconnu que le tourisme est tellement hétérogène qu'une seule ontologie ne peut pas couvrir entièrement le domaine. Pour ce but, multiple ontologies distribués et modulaires doivent être utilisées. Cela conduit au deuxième objectif de la thèse: développer Concept Abduction pour SHIQP, une extension de SHIQ pour les ontologies modulaires distribuées. Enfin, nous proposons une architecture pour réaliser un Sémantique Matchmaker pour les systèmes d'information touristique distribués.

Abstract
Today, travel and tourism is a sector that plays a more and more important role in the modern economy. To support the development of an electronic marketplace for tourism, we adopt an ontology-based Semantic Matchmaking method proposed so far in the literature to deal with the heterogeneity of the domain. The idea is to use Description Logics (DLs) to represent the semantics of demands and supplies available on the marketplace with reference to an ontology and then employ automated reasoning services to classify and then propose the best potential matches. Using Semantic Matchmaking thereby facilitates the discovery and negotiation process in the marketplace. Besides, the method can also be used to assist in the ontology mapping, an important process for providing the semantic interoperability between heterogeneous tourism systems. To realize the matchmaking process, a new non-standard inference, Concept Abduction, is developed for a quite inexpressive DL ALN. Because the representation of ontologies in the tourism domain requires generally more expressivity, we have to extend this inference method to a more expressive DL SHIQ and that is the first main objective of this thesis. Furthermore, it was acknowledged that travel and tourism is so highly heterogeneous that no one single global ontology can cover the whole domain. Instead, distributed and modular ontologies have to be used. That leads to the second objective of this thesis: developing Concept Abduction for the Package-based DL SHIQP, an extension of SHIQ for distributed and modular ontologies. Finally, we propose an architecture to realize a Semantic Matchmaker for distributed tourism information systems.

VU Viet-Hoang
Equipe Laboratoire I3S , Sophia-Antipolis / France

Le jury est composé de :
- Mme. Parisa GHODOUS (Professeur des universités, Université de Lyon 1, Rapporteur)
- M. Richard CHBEIR (Maitre de Conférences HDR 2010, Université de Bourgogne, Rapporteur)
- M. Olivier HAEMMERLE (Professeur des universités, Université Toulouse le Mirail)
- Mme. Catherine FARON-ZUCKER (Maitre de Conférences, Université de Nice Sophia Antipolis)
- M. Serge MIRANDA (Professeur des universités, Université de Nice Sophia Antipolis)
- M. Nhan LE-THANH (Professeur des universités, Université de Nice Sophia Antipolis, Directeur de thèse)

Soutenance HDR Collet Philippe

Salle de conference I3S 06/12/2011 16h

Titre : Soutenance HDR : Taming Complexity of Large Software Systems: Contracting, Self-Adaptation and Feature Modeling

Our work stands in the field of software engineering for large scale software intensive systems. We aim at providing techniques and tools to help software architects master the ever-increasing complexity of these systems. Using mainly model-driven engineering approaches, our contribution is organised around three axes.
The first axis concerns the developement of reliable and flexible hierarchical component-based systems with dynamic reconfiguration capabililities. Through the use of novel forms of software contracts, the proposed systems and frameworks support several specification formalisms and maintain up-to-date contracts at runtime.
A second part of our work consists in providing self-adaptive capabilities to these contracting systems, through negotiation mechanisms over contracts and self-adaptive monitoring sub-systems.
A third axis is related to software product lines in which feature models are widely used to model variability. Our contribution consists in providing a set of sound and efficiently implemented composition operators for feature models, as well as a dedicated language for their large scale management.

Collet Philippe, équipe Modalis, laboratoire I3S , Sophia-Antipolis / France http://www.i3s.unice.fr/~collet

Jury composé de :
Betty H.C. CHENG, Professor, Michigan State University, USA : rapporteur
Ivica CRNKOVIC, Professor, Mälardalen University, Sweden : rapporteur
Patrick HEYMANS, Professeur, Université de Namur FUNDP, Belgique : rapporteur
Jean-Claude BERMOND, Directeur de Recherche, CNRS I3S Sophia Antipolis : examinateur
Laurence DUCHIEN, Professeur, Université de Lille 1 : examinateur
Philippe LAHIRE, Professeur, Université Nice - Sophia Antipolis : examinateur
Jacques MALENFANT, Professeur, Université Pierre et Marie Curie, Paris : examinateur

Slides de la présentation : HDR_Philippe_Collet

PhD Thesis Defense - Ferry Nicolas

Salle de conference I3S - Mercredi 7 Décembre 2011 - 10h

Titre : Adaptations dynamiques au contexte en informatique ambiante : propriétés logiques et temporelles

Résumé
En informatique ambiante, les applications sont construites en faisant interagir entre eux des objets informatisés et communicants appelés dispositifs. Parce que ces dispositifs peuvent être mobiles ou subir des pannes, cette infrastructure évolue dynamiquement et de manière imprévisible. Aussi, pour s'insérer de manière transparente dans leur environnement et fournir les fonctionnalités attendues par les utilisateurs, bien souvent plus pérennes que l'environnement sur lequel elles reposent, les applications doivent s'adapter dynamiquement à ces évolutions. Ces phénomènes variables poursuivant leur propre dynamique, le défi proposé aux mécanismes d'adaptation est d'être capable de les prendre en compte, avec une dynamique adaptée à chacun d'entre eux.
Dans cette optique, nous proposons un modèle architectural ainsi qu'un mécanisme d'adaptation. Le modèle architectural repose sur quatre niveaux organisés hiérarchiquement en fonction de leur complexité et de la dynamique qu'ils peuvent offrir. Nous lui associons un mécanisme d'adaptation qui, à partir du principe de séparation des préoccupations, permet d'exprimer la variabilité du système. En raison de l'imprévisibilité de l'environnement, les ensembles d'adaptations qui seront déployées par les niveaux supérieurs de l'architecture ne peuvent pas nécessairement être anticipés à la conception. Aussi, grâce à un ensemble de propriétés logiques et temporelles, ces adaptations peuvent être composées de manière non-anticipée dans des temps de réponse adaptés. Le mécanisme d'adaptation proposé, appelé cascade d'aspects, est expérimenté en se basant sur les Aspects d'Assemblages et la plateforme d'exécution WComp.

Abstract
In ubiquitous computing, applications are built as a collaboration of computerized and communicating objects called devices. Because these devices can be mobile or subject to failures, this infrastructure evolves dynamically and unpredictably. Thus, to fit seamlessly into their environment and to provide the functionalities expected by users, which are often more sustainable than the environment, applications must dynamically adapt to these changes. Each of these variable phenomena pursues its own dynamic. The challenge offered to adaptation mechanisms is to be able to consider them, with suitable dynamics.
For this purpose, we propose an architectural model and an adaptation mechanism. The architectural model is based on four levels organized hierarchically according to their complexity and to the dynamics they can offer. We combine to this architectural model an adaptation mechanism. Based on the separation of concerns principle, our mechanism allows us to consider the variability of the system. Due to the unpredictability of the environment, the sets of adaptations that will be deployed by the upper levels of the architecture may not have been anticipated at design time. Also, thanks to some logical and temporal properties, these adaptations can be composed in non-anticipated way and with appropriate response time. The proposed mechanism, called cascaded aspects, is implemented using Aspects of Assembly and the WComp execution platform.

Ferry Nicolas
Equipe Laboratoire I3S , Sophia Antipolis (France)

Composition du Jury
Yves DENNEULIN - Professeur, ENSIMAG (rapporteur)
Philippe ROOSE - Docteur H.D.R., IUT de Bayonne (rapporteur)
Pascal ESTRAILLER - Professeur, Université de La Rochelle (président)
Jean-Michel BRUEL - Professeur, Université de Toulouse (examinateur)
Michel RIVEILL - Professeur, Université de Nice (directeur)
Stéphane LAVIROTTE - Docteur, Université de Nice (co-directeur)
Jean-Yves TIGLI - Docteur, Université de Nice (invité)

Eric PASCUAL - Ingénieur, CSTB (invité)

Slides de la présentation : Slides de These de Nicolas Ferry

Journées Thématiques

Le pôle GLC organise des événements locaux ou nationaux ou internationaux.

Journée Démonstrations / Tests : session ??

Le principe consiste à faire des stands et les membres du pôle / du labo / les étudiants passent pour essayer vos démos ou passer vos tests utilisateurs.

L'objectif est de permettre à chacun de prendre connaissance du travail des autres à travers des démonstrations, de faciliter l'évaluation avec des utilisateurs (tests) de nos travaux en regroupant ces tests : une personne pourra alors passer d'un test (ou démo) à un autre.

Si la journée fonctionne bien, nous pourrions en refaire environ tous les 6 mois (ou chaque année) et ouvrir à des personnes “extérieures” (d'autres labos, d'entreprises, etc.)

Suite au discussion à la journée du pôle, voici les étapes : -

Les étapes de l'organisation sont :

1) Pour fin aout, un correspondant par équipe recense les démos.

2) déterminer la date

3)faire la journée :-)

IHM 2011

La 23ième Conférence Francophone Sur l'IHM (http://ihm2011.unice.fr/ )

Thèmes généraux

Les thèmes de la conférence sont tous les thèmes de recherche ayant attrait à l'IHM. Les différents mots-clefs sont :

De plus compte tenu du contexte de travail à Sophia Antipolis autour des IHM, nous aimerions mettre l'accent sur les liens entre l'IHM et le contexte, l'IHM et le Web Sémantique, l'IHM et la partie métier. Ces thèmes ne sont nullement limitatifs, et nous vous invitons à participer à la conférence

Thèmes spécifiques

Parmi les différents thèmes faisant partie intégrante de l'IHM, nous aimerions en particulier mettre en avant une approche transversale de l'IHM. En effet, nos travaux de recherche sont dédiés au domaine de l'IHM, cependant nos préoccupations trouvent des sources dans des domaines variés :

Au travers de ces approches transverses, nous espérons pouvoir mettre en valeur les richesses du domaine de l'IHM.