Differences

This shows you the differences between two versions of the page.

--- public:seminars_manifestations [2016/11/07 08:10]
fmichel
+++ public:seminars_manifestations [2017/03/08 10:17] (current)
fmichel
@@ Line 5: / Line 5: @@
 **SPARKS public calendar**: in [[https://calendar.google.com/calendar/embed?src=6qaafnv87osnqct6hb4ruskkcc%40group.calendar.google.com&ctz=Europe/Paris|HTML]] or in [[https://calendar.google.com/calendar/ical/6qaafnv87osnqct6hb4ruskkcc%40group.calendar.google.com/public/basic.ics|iCal]].
+====== 2017 ======
+===== Séminaires =====
+==== Marie-Christine ROUSSET: Datalog revisited for reasoning in Linked Data ====
+When: 3rd March 2017, 10h00 \\
+Where: POLYTECH, Templiers 2, room 307\\
+**Abstract**\\
+Linked Data provides access to huge, continuously growing amounts of open data and ontologies in RDF format that describe entities, links and properties on those entities. Equipping Linked Data with inference paves the way to make the Semantic Web a reality. In this presentation, I will describe a unifying framework for RDF ontologies and databases that we call deductive RDF triplestores. It consists in
+equipping RDF triple stores with Datalog inference rules. This rule language allows to capture in a uniform manner OWL constraints that are
+useful in practice, such as property transtivity or symmetry, but also domain-specific rules with practical relevance for users in many domains of interest. I will illustrate the expressivity of this framework for modeling Linked Data applications and its genericity for developing inference algorithms. In particular, we will show how it allows to model the problem of data linkage in Linked Data as a reasoning problem on possibly decentralized data. I will also explain how it makes possible to efficiently extract expressive modules from Semantic Web ontologies and databases with formal guarantees, whilst effectively controlling their succinctness. Experiments conducted on real-world datasets have demonstrated the feasibility of this approach and its usefulness in practice for data integration and information extraction.
+===== Soutenances =====
+==== PhD Thesis Defense - Franck MICHEL ====
+''Salle Euler Violet, Inria. 03/03/2017 14h''
+=== Abstract ===
+**Title: Integrating Heterogeneous Data Sources in the Web of Data**
+To a great extent, RDF-based data integration as well as the Web of Data depend on the ability to reach out legacy data locked in data silos where they are invisible to the web. In the last 15 years, various works have tackled the problem of exposing structured data in the Resource Description Framework (RDF), starting with relational databases (RDB), spreadsheets and the XML data format. Meanwhile, the overwhelming success of NoSQL databases has made the database landscape more diverse than ever. So far, though, these databases remain inaccessible to RDF-based data integration systems, and although the data they host may be of interest to a large audience, they remain invisible to the Web of Data. Hence, to harness the potential of NoSQL databases and more generally non-RDF data sources, the objective of this thesis is to enable RDF-based data integration over heterogeneous databases and, in particular, to reconcile the Semantic Web with the NoSQL family of databases.
+Firstly, we propose a generic mapping language, xR2RML, able to describe the mapping of varying types of databases into an arbitrary RDF representation. This language relies on and extends previous works on the translation of RDBs, CSV and XML into RDF. Secondly, we propose to use such an xR2RML mapping either to materialize RDF data or to dynamically evaluate SPARQL queries on the native database. To spur the development of SPARQL interfaces over legacy databases, we propose a two-step approach. The first step performs the translation of a SPARQL query into a pivot abstract query based on the xR2RML mapping of the target database to RDF. In the second step, the abstract query is translated into a concrete query, taking into account the specificities of the database query language. Great care is taken of the query optimization opportunities, both at the abstract and the concrete levels. To demonstrate the effectiveness of our approach, we have developed a prototype implementation for MongoDB, the popular NoSQL document store. We have validated the method using a real-life use case in Digital Humanities.
 ====== 2016 ======
@@ Line 51: / Line 78: @@
 ===== Soutenances =====
+==== PhD Thesis Defense - Atheer AL-NAJDI ====
+''Salle de conférence I3S, bâtiment Euclide B, Algorithmes. 30/11/2016 10h''
+=== Abstract ===
+**Title:  A Closed Patterns-based Approach to the Consensus Clustering Problem**
+Clustering is the process of partitioning a dataset into groups, so that the instances in the same group are more similar to each other than to instances in any other group. Many clustering algorithms were proposed, but none of them proved to provide good quality partition in all situations. Consensus clustering aims to enhance the clustering process by combining different partitions obtained from different algorithms to yield a better quality consensus solution. In this work, a new consensus clustering method, called MultiCons, is proposed. It uses the frequent closed itemset mining technique in order to discover the similarities between the different base clustering solutions. The identified similarities are presented in a form of clustering patterns, that each defines the agreement between a set of base clusters in grouping a set of instances. By dividing these patterns into groups based on the number of base clusters that define the pattern, MultiCons generates a consensus
+solution from each group, resulting in having multiple consensus candidates. These different solutions are presented in a tree-like structure, called ConsTree, that facilitates understanding the process of building the multiple consensuses, and also the relationships between the data instances and their structuring in the data space.
+Five consensus functions are proposed in this work in order to build a consensus solution from the clustering patterns. Approach 1 is to just merge any intersecting clustering patterns. Approach 2 can either merge or split intersecting patterns based on a proposed measure, called intersection ratio. Approach 3 differs from the previous approaches by searching for the best similar pattern before making a merge/split decision, and, in addition, it uses the average intersection ratio. While approach 3 works sequentially on the clustering patterns, approach 4 uses a similarity matrix of intersection ratios to search for the best merge/split. Approach 5 is a simple graph partitioning process to build clusters of clustering patterns. These five approaches are tested with many benchmark datasets to compare their performance on different clustering problems.
+**Keywords**: Clustering; Unsupervised learning; Consensus clustering; Clusterings ensemble; Frequent closed itemsets.
+=== Résumé ===
+**Titre : Une approche basée sur les motifs fermés pour résoudre le problème de clustering par consensus**
+Le clustering est le processus de partitionnement d’un ensemble de données en groupes, de sorte que les instances du même groupe sont plus semblables les unes aux autres qu’avec celles de tout autre groupe. De nombreux algorithmes de clustering ont été proposés, mais aucun d’entre eux ne s’avère fournir une partition des données pertinente dans toutes les situations. Le clustering par consensus vise à améliorer le processus de regroupement en combinant différentes partitions obtenues à partir de divers algorithmes afin d’obtenir une solution de consensus de meilleure qualité. Dans ce travail, une nouvelle méthode de clustering par consensus, appelée MultiCons, est proposée. Cette méthode utilise la technique d’extraction des itemsets fréquents fermés dans le but de découvrir les similitudes entre les différentes solutions de clustering dits de base. Les similitudes identifiées sont représentées sous une forme de motifs de clustering, chacun définissant un accord entre un ensemble de clusters de bases sur le regroupement d’un ensemble d’instances. En traitant ces motifs par groupes, en fonction du nombre de clusters de base qui définissent le motif, la méthode MultiCons génère une solution de consensus pour chaque groupe, générant par conséquence plusieurs consensus candidats. Ces différentes solutions sont ensuite représentées dans une structure arborescente appelée arbre de consensus, ou ConsTree. Cette représentation graphique facilite la compréhension du processus de construction des multiples consensus, ainsi que les relations entre les instances et les structures d’instances dans l’espace de données.
+Cinq approches de clustering par consensus, permettant de construire une solution de consensus à partir des motifs de clustering, sont proposées dans ce travail. La première approche fusionne simplement successivement tous les motifs de clustering qui se recoupent. La seconde approche va soit fusionner, soit diviser les motifs qui se recoupent selon le résultat d’une nouvelle mesure appelée ratio d’intersection. La troisième approche diffère des approches précédentes en recherchant, pour chaque motif, le motif le plus similaire parmi ceux qui se recoupent avant de faire une fusion ou division ; de plus, cette approche utilise la mesure du ratio moyen d’intersection afin de décider de fusionner ou diviser les motifs. Alors que la troisième approche traite les motifs de clustering séquentiellement, la quatrième approche utilise une matrice de similarité des ratios d’intersection pour rechercher la meilleure fusion ou division. La cinquième approche se base sur un processus de partitionnement de graphe afin de créer des regroupements de motifs de clustering. Les expérimentations qui ont menées avec ces cinq approches concernent de nombreux ensembles de données utilisés usuellement pour les comparaisons de performances d’approches traitant divers problèmes de clustering.
+**Mots clés** : Clustering ; Classification non-supervisée ; Clustering par consensus ; Ensembles clustering ; Itemsets fréquents fermés.
+==== PhD Thesis Defense - Romaric Pighetti ====
+''Salle de conférence I3S, bâtiment Euclide B, Algorithmes. 28/11/2016 15h''
+=== Abstract ===
+**Title:  Hybrid Method for Fine-Grained Content Based Image Retrieval**
+Given the ever growing amount of visual content available on the Internet, the need for systems able to search through this content has grown.
+Content based image retrieval systems have been developed to address this need.
+But with the growing size of the databases, new challenges arise.
+In this thesis, the fine grained classification problem is studied in particular.
+It is first shown that existing techniques, and in particular the support vector machines which are one of the best image classification technique, have some difficulties in solving this problem.
+They often lack of exploration in their process.
+Then, evolutionary algorithms are considered to solve the problem, for their balance between exploration and exploitation.
+But their performances are not good enough either.
+Finally, an hybrid system combining an evolutionary algorithm and a support vector machine is proposed.
+This system uses the evolutionary algorithm to iteratively feed the support vector machine with training samples.
+The experiments conducted on Caltech-256, a state of the art database containing around 30 000 images, show very encouraging results.
+**Keywords**: CBIR, Evolutionary Algorithm, SVM, Fine Grained Classification
+=== Résumé ===
+**Titre : Une méthode hybride pour la classification d'images à grain fin**
+La quantité d'images disponible sur Internet ne fait que croître, engendrant un besoin d'algorithmes permettant de fouiller ces images et retrouver de l'information.
+Les systèmes de recherche d'images par le contenu ont été développées dans ce but.
+Mais les bases de données grandissant, de nouveaux défis sont apparus.
+Dans cette thèse, la classification à grain fin est étudiée en particulier.
+Elle consiste à séparer des images qui sont relativement semblables visuellement mais représentent différents concepts, et à regrouper des images qui sont différentes visuellement mais représentent le même concept.
+Il est montré dans un premier temps que les techniques classiques de recherche d'images par le contenu rencontrent des difficultés à effectuer cette tâche.
+Même les techniques utilisant les machines à vecteur de support (SVM), qui sont très performants pour la classification, n'y parviennent pas complètement.
+Ces techniques n'explorent souvent pas assez l'espace de recherche pour résoudre ce problème.
+D'autres méthodes, comme les algorithems evolutionnaires sont également étudiées pour leur capacité à identifier des zones intéressantes de l'espace de recherche en un temps raisonnable.
+Toutefois, leurs performances restent encore limitées.
+Par conséquent, l'apport de la thèse consiste à proposer un système hybride combinant un algorithme évolutionnaire et un SVM a finalement été développé.
+L'algorithme évolutionnaire est utilisé pour construire itérativement un ensemble d'apprentissage pour le SVM.
+Ce système est évalué avec succès sur la base de données Caltech-256 contenant envieront 30 000 images réparties en 256 catégories.
+**Mots clés** : Recherche d'images par le contenu, machine à vecteur de support, algorithmes évolutionnaires, classification fine
 ==== PhD Thesis Defense - Zide Meng ====