mercredi 13 août 2014

Triple statement for data protection and security on the (semantic) web

The ESWC 2014 panel was about data protection and security. To bootstrap the panel, we were asked to chose three statements. My triple statement was:
  1. semantics are a double-edged weapon for security;
  2. deployment requires security on every floor;
  3. security is much more than a technical problem.
I also insisted on the fact that beyond prevention we need also to study ways to monitor, trace, detect, and chase leaks of data, because "copy" is a basic action in computer science and there will be leaks.


vendredi 13 juin 2014

Les trois « W » du World-Wide Web appellent les trois « M » d’une Méthodologie Massivement Multidisciplinaire

Je suis responsable de l’équipe de recherche Wimmics, chercheur et représentant d’Inria au WC3 mais ce que je vais dire ici n’engage que moi, un citoyen du web.

Le Web est devenu ce que nous en connaissons aujourd’hui avant tout parce que son architecture est celle d’une plateforme universelle, gratuite, décentralisée et ouverte.

L’architecture du Web est fondamentalement ouverte jusqu’au cœur de ses trois composants de base, à savoir:

  • des adresses ou identifiants ouverts qui font que l’on peut parler de tout sur le Web.
  • des langages ouverts qui font que l’on peut tout dire sur le Web.
  • des protocoles ouverts qui font que l’on peut communiquer sur le Web avec tout.
Pourquoi parle-t-on maintenant de plateforme web là où avant on parlait de pages web et de sites web et donc essentiellement de documents ?

Nous voyons tous que les pages web deviennent plus belles, plus interactives, plus puissantes, plus... applicatives.

Des langages comme HTML5, CSS3 ou JavaScript sont maintenant au cœur de la plateforme du Web. Avec leur intégration nous tournons définitivement la page d’un web perçu comme une toile documentaire, pour une toile de programmes liés entre eux. Chaque page est potentiellement une application, un service à l’utilisateur ou à un autre logiciel. Le Web relie toujours des documents mais aussi, et de plus en plus, des données, des logiciels, des objets. Le web est définitivement devenu une plateforme standardisée d’applications ouvertes sur internet.

Le panel des technologies du Web couvre toutes les dimensions d’une application et notamment:

  • L’accès aux ressources matérielles: géolocalisation, gyroscopes, caméras, NFC, ...
  • Les interactions multimédia: audio et vidéo, graphiques, animations, 3D.
  • Les interactions multimodales et indépendantes des terminaux: changement de résolutions, adaptation des claviers virtuels, analyse et synthèse de voix, interactions tactiles, vibration, applications web mobiles...
  • Les communications: client-serveur, en temps réel, pair à pair, sockets, ...
  • La sécurité : les clefs, les signatures, le cryptage, l’identité, l’authentification
  • Le traitement automatique des données: l'interopérabilité des formats, intégration des données, la sémantique de leurs formats...
  • etc.
Nous sommes passés de l’idée « D’écrire une fois et publier partout » à l’idée « De coder une fois et utiliser partout ». 

Cette plateforme du Web est constituée de technologies libres de droits qui permettent à tout le monde d’implémenter et publier un nouveau composant du Web sans avoir à obtenir ou à s’affranchir de licences. Ces technologies non-propriétaires et indépendantes du domaine d’application permettent une innovation ouverte et distribuée à l’échelle mondiale.

Si à travers les standards nous concevons l’architecture du web, sa nature participative fait que l’objet Web qui en émerge est ouvertement co-construit à l’échelle mondiale. Ceci en fait l’un des artefacts les plus complexes qu’ait produit l’humanité. Cette complexité lui donne à la fois richesse et difficulté. D’une certain façon nous ne connaissons pas le Web, ou si peu. Nous concevons son architecture mais l’objet Web qui en émerge et évolue à chaque instant nécessite d’être étudié et suivi dans toutes ses évolutions.

De plus, si le web est décentralisé en principe, il peut être recentralisé en pratique par les outils qui s’y déploient. La vigilance reste donc de mise. La concentration des applications, la mise en silo des données et toute forme de recentralisation par une organisation doivent être évitées autant que possible, l’intérêt d’une organisation n’étant pas toujours l’intérêt public.

Car le Web est d’intérêt public. L’ouverture du Web est d’intérêt public. Et c’est un enjeu à la fois d’architecture technique et de gouvernance du Web. Au-delà de la consultation, et même de la contribution de contenus, il nous faut tendre vers une participation plus complète des intéressés du Web, vers une gouvernance multi-participative. 

L’ouverture du Web, c’est l’ouverture d’esprits,... au singulier et au pluriel. Le Web est devenu un des artefacts très puissants de notre cognition située, de  notre intelligence augmentée. Se pose donc comme un enjeu majeur la préservation de cette nouvelle capacité cognitive. Et se pose aussi l’enjeu de préserver activement ses soutiens, notamment le consortium W3C qui donne au web un forum ouvert et des experts veillant sur son avenir.

Le Web est maintenant utilisé par 40% de la population mondiale. C’est à la fois colossal, près de 3 milliards de personnes. Et c’est aussi un rappel de l’un des enjeux majeurs de l’ouverture du web à savoir donner l’accès aux 60% qui n’ont pas accès au web, soit plus de 4 milliards de personnes. Il est important de ne pas écarter et au contraire de réduire la fracture numérique. Au-delà des technologies, ouvrir le Web c’est donc aussi promouvoir des outils et méthodologies permettant d’assurer que le web s’ouvre bien à tous. Je parle ici d’accessibilité, d’internationalisation, de mobilité, de multilinguisme, etc.

En établissant une conversation mondiale le web participe considérablement à l’établissement de la liberté d'expression. Garder le web et son architecture ouverts c’est aussi se donner une chance de préserver cette conversation mondiale qu’il a établie. 

Cette plateforme mondiale ouverte du Web appelle des évolutions dans toutes les dimensions de nos sociétés (juridique, économique, politique, etc.). Et notamment pour assurer un juste équilibre entre le bien des individus et le bien des collectifs.

La perception du Web doit une fois pour toute dépasser sa nature et son évolution initialement techniques pour aller vers le développement réellement pluridisciplinaire du web qui est la seule façon pour lui d’atteindre son plein potentiel.
 
Pour cela je suis convaincu que les trois « W » du World-Wide Web appellent les trois « M » d’une Méthodologie Massivement Multidisciplinaire.


dimanche 10 novembre 2013

Données de la culture et culture des données

Voici une présentation intitulée "données de la culture et culture des données" où j'introduis brièvement le web sémantique et les données liées sur le web dans le domaine de la culture à l'occasion de la conférence "Transmettre la culture à l’ère du numérique" dans le programme Automne Numérique du ministère de la Culture et de la Communication. Outre les rappels et quelques exemples, les points importants pour moi sont:
  • il ne s'agit pas tant d'essayer de faire un catalogue des applications envisageables que de souligner que l'ouverture des données permet l'innovation en rendant possible l'utilisation de données dans des applications que nous n'avions pas forcément prévues;
  • pour une culture ne pas avoir ses données et ses schémas ouverts et liés sur le web c'est se rendre invisibles aux applications qui utilisent ces données liées et la sémantique de leurs schémas, et à travers elles à leurs utilisateurs;
  • la donnée n'est pas uniquement là pour décrire la culture, elle participe à la culture, elle devient élément de culture et notamment un matériau artistique pour la création.


vendredi 23 septembre 2011

Open Data needs open standards and open research: an academic and standardization point of view at the Open World Forum.


Open Data needs open standards and open research: an academic and standardization point of view.
speech from Fabien L. Gandon at the Open World Forum.
see video from the Open World Forum 2011: Open Data: the big picture, panel discussion 

Open data needs open formats like XML to be stored and exchanged and in that sense having a neutral standardization body like W3C is vital to design and publish standard formats. Now in parallel the scale of the datasets opened on the web, their variety in content, lifecycles and usages call for research to develop efficient means of communication, parsing, storage, access, transformation, security, internationalization, and so on.

Open data also needs open data structures for instance the RDF standard is inherently open: not only is it a nonproprietary model with nonproprietary syntax, it is also designed to make datasets extensible and reusable. By design the RDF model ensures anyone can say anything about anything; there is no way in the model to prevent that.  As soon as you name something I can reuse that name and start to attach my data to it.

Now from a research perspective this creates very complex challenges for instance when calculating on those data we are in an open world assumption, I can’t be sure I am not missing an important piece of data somewhere. What kind of processing can I do in those circumstances, how can I efficiently crawl, index, link and ultimately find my way through this giant global graph of open data?

Open data also needs open protocols to be accessible to everyone from everywhere. But maybe not quite. Open data is sometimes reduced to data with public read access but things tend to be more complex in reality.

We may need more than read access we may want the C.R.U.D. operations, C.R.U.D. standing for Create new open data, Read open data, Update open data, Delete open data for instance to implement the right to oblivion. SPARQL 1.1 is a standardization effort in that direction. But then many hard problems remain open for instance temporality in these accesses to data: versioning, revisions, all kinds of changes and the chain reactions they trigger in a linked open data world.

Yet open access also needs to be secure and in particular to have open data you might need precise means to define what is open and what is closed. If I have data I might want to open some of it only, and I should be encouraged to open that part that can be opened. This raises the questions of fine-grain access control and licenses for data. As paradoxical as it may seems the absence of a license may eventually restrict the use of data by making it difficult to identify actually opened data. And then if I get some data I might want to make sure I can use it and this raises the questions of provenance, traceability and authenticity. In that context, many complex questions remain open like what happens when I mash up data with different provenances and licenses? What should be the provenance and license of the results of the inferences, aggregations, statistics, I did on these data?

Open data also needs open schemas to capture their meaning, ensure their interoperability and foster automated use and reuse. From the standardization point of view, RDFS or OWL languages are contributions in that direction allowing us to publish our schemas. The issue of fostering the emergence and stabilization of standard schemas in domains needing them remains complex. But on top of it the open nature of the schemas create new challenges like scaling the processing of these schemas to large datasets and allowing for approximation, incomplete data and incoherent data that we are bound to find in an open world.

From a standardization point of view it is clear that we need neutral places where to build open standard supporting open data including: open architectures, open formats, open languages, open protocols, open methodologies, and so on.  We also need subsequent standardization efforts in each application domain in particular to release compatible datasets and schemas.

Now I’d like to conclude with two last points from the academic perspective on open data.

First, with the web and beyond computer science, many academic disciplines face new research and education challenges and the open data initiative in itself uncovers several of them from legal issues to be solved to new economic models to be invented, from sociological approaches of the open data lifecycles to biological models that can inspire new data structures and algorithms.

And finally, there is a reciprocal perspective to be taken from the academic point of view since science and education produce and consume a fair amount of data themselves. Academia is an application domain itself of open data. For instance there is a need for more open science data initiatives, opening observations and results of scientific activities for other scientists to analyze and reuse, making academic and research material one-click away from being re-useful.

In other words, vice-versa, an open academic world needs open data.

vendredi 20 mai 2011

Les questions épistémologiques de la recherche en Ingénierie des Connaissances



[Transparent 2]

Qu'est-ce qu'une contribution scientifique en Ingénierie des Connaissances?
Je prends cette question comme « qu’est-ce qu’une contribution prototypique de l’IC ? » Sachant qu’il y a toujours des cas particuliers comme les méta-contributions : les contributions qui parlent de l’IC (ex. Bachimont, 2004) ou qui parlent des contributions à l’IC (exemples trop rares : les comparatifs).

[Transparent 3]

Une contribution typique de l’IC est transdisciplinaire et ne cherche pas forcément à faire une contribution dans les disciplines qu’elle mobilise, mais plus typiquement à articuler des résultats de plusieurs disciplines, à revisiter, critiquer ou assoir des résultats d’une discipline à la lumière des théories d’une autre, etc. Si elle contribue à une discipline particulière c’est typiquement par fertilisation croisée ou par retour d’expérience sur les usages.


[Transparent 4]


En particulier une contribution à l’IC va s’intéresser à marier sciences humaines et sciences formelles et notamment, à investir en fond théorique issu des sciences humaines des modèles ou méta-modèles issus des sciences formelles, à en piloter le choix ou l’évolution et en IC on s’intéressera en particulier : à des modèles ou méta-modèles d’inscription de connaissances et de traitement de connaissances et aux sciences formelles et sciences du numérique, notamment avec la préoccupation d’identifier des modèles informatiquement opérationnalisables.

Une contribution typique à l’IC cherchera donc une fertilisation croisée entre les sciences humaines, sciences formelles et les sciences du numérique et non une contribution dans une discipline singulière.


[Transparent 5]
Un certain nombre de disciplines mobilisées par l’IC ont une culture de sciences expérimentales où les modèles sont souvent explicatif, génératifs au sens de la simulation. Un des apports que j’attends d’une contribution à l’IC est l'articulation inter disciplinaire qui consiste à passer de tels modèles à des modèles prescriptifs et des modèles opérationnels et donc à passer de l’analyse, de l’explication à la spécification et la conception.


[Transparent 6]

Pour moi un corolaire important de la recherche active de fertilisation croisée est ce que j’appellerais le devoir de vulgarisation interdisciplinaire i.e. il ne s’agit pas seulement d’établir une contribution transdisciplinaire, il s’agit de la communiquer aux disciplines mobilisées en premier lieu et plus généralement à l’ensemble de la communauté IC. La vulgarisation est nécessaire notamment pour éviter un dos à dos disciplinaire, ces situations que certains d’entre nous ont vécues où en lieu et place d’une transdisciplinarité voulue nous avons des experts de disciplines qui se regardent en chiens de faïence. Il y a pour moi un enjeu important de faire percoler une problématique ou une évolution d’un domaine à l’autre, et une contribution à l’IC se doit donc de faire un triple exercice de mobilisation de résultats mono-disciplinaires spécifiques, d’articulation transdisciplinaire et de vulgarisation interdisciplinaire.


[Transparent 7]

Un point particulier qui me tient à cœur dans la notion de publication c’est ce que change aussi la présence du web.  Un point important qu’ont changé le web, le web de données et le web sémantique c’est la publication des données et modèles non confidentiels d’une contribution ; pour moi il ne s’agit plus maintenant uniquement de décrire et documenter nos modèles et leur logique de conception dans des articles, mais aussi de les publier en ligne dans des formalismes standardisés. La communauté IC produit des représentations de connaissances, produit systèmes à base de connaissances, etc. et à l’heure du web contribuer à IC devrait aussi souvent que possible se traduire aussi par une contribution au web en mettant modèles, données et outils en ligne.


[Transparent 8]

Enfin on peut aussi se demander ce que pourrait être une contribution à IC demain ? Nous avons tous des desiderata sur ce point je pense, mais personnellement j’aimerais voir des sujets, disciplines  et courants plus présents à IC par exemple : ou la question des bases épistémiques d’une nouvelle législation (ex. réflexion sur la propriété dans un monde de ressources non concourantes), l’évolution de l’éducation face à la disparition du besoin de mémoire, le droit à l’oubli dans un monde hypermnésique, plus d’opérationnalisations des courants philosophiques autres que ceux qui ont déjà percolé, le courant « human-based computing » que je n’ai pas su traduire de façon satisfaisante mais qui a beaucoup de résonnance avec certaines questions d’usage en IC, etc.

[Transparent 9]
Quelles sont les méthodes pour produire des connaissances en IC ?


[Transparent 10]


Méthodes centrées usages : sous l’influence d’Alain Giboin, notre équipe utilise souvent des approches comme l’analyse par scénarios et personas, mais ce pourrait-être de l’analyse de processus, etc.


[Transparent 11]
(1) Faire un état des lieux actuels : scénario a priori.
Identifier si une situation rencontrée relève d’un problème épistémique : il faut d’abord savoir si notre intervention est pertinente, établir si une situation est de notre ressort etc. Typiquement nos scénarios s’intéresse à concevoir, étudier, modifier un système épistémique numérique sous au moins deux angles disciplinaires différents.


[Transparent 12]


(2) Faire une projection : scénario à postériori
Cette deuxième étape s’adosse à la construction d’un état de l’art. On vérifie aussi si on est dans un cas où la modélisation et le traitement sont difficilement identifiables i.e. la modélisation est un verrou, le modèle n’est pas immédiat. Il s’agit aussi là d’investir en fond théorique par exemple de décider de s’appuyer sur le paradigme de l’épistémologie sociale pour proposer un prisme à travers lequel on va non seulement expliquer la situation mais aussi expliquer les changements envisagés et justifier qu’ils vont bien mener aux effets escomptés.  

[Transparent 13]


(3) Proposer une opérationnalisation (c’est en quelque sorte le propre de la nature ingénierique de l’IC) ; Il s’agit notamment dans cette phase d’identifier, comparer, sélectionner des outils formels utilisables ou adaptables à l’évaluation, la validation, l’application de la lecture et de l’intervention envisagés dans le paradigme précédemment fixé.
Et la première validation qui sera faite du point de vue de l’IC c’est le déroulé du scénario à postériori pour évaluer son effectivité en contexte et en usage.

[Transparent 14]

Comment valide-t-on une connaissance produite ?
Je commencerais par dépiler les critères que l’on trouve classiquement dans une grille de relecture:


[Transparent 15]

Qualité technique ou profondeur : quel couplage interdisciplinaire est envisagé et surtout pourquoi ? Les résultats et théories mobilisés sont-ils justifiés dans leurs choix, dans leur adéquation, dans leur applicabilité, etc.? La logique de conception est-elle capturée, expliquée et argumentée notamment en référence aux théories mobilisées? C’est un point particulièrement important puisque c’est là que se concrétise la transdisciplinarité de l’IC.


[Transparent 16]
     
Originalité et Etat de l’Art : états de l’art mono-disciplinaires mais aussi et surtout quels ont été les couplages transdisciplinaires précédents dans la littérature et pourquoi en envisager un nouveau. Puisque l’une des particularités de l’IC réside dans ces couplages, il faut positionner et motiver un nouveau couplage.


[Transparent 17]

Adéquation à la conférence: est-ce une contribution mono-disciplinaire ? la contribution est-elle accessible à un publique de non-initiés ? A-t-on un enjeu épistémique ? Y-a-il instrumentation d’une tâche cognitive et étude des inscriptions épistémiques impliquées dans cette tâche ? Ainsi, l’étude de complexité d’un fragment de logique n’est pas forcément très à sa place à IC s’il n’est pas relié à un usage.


[Transparent 18]

Présentation, forme : outre les critères classiques, j’inclue ici le critère de vulgarisation interdisciplinaire c'est-à-dire : l’articulation interdisciplinaire est-elle expliquée de façon à la rendre accessible à l’ensemble de la communauté ? Si je dois avoir lu Kant, Deleuze, Rastier, Wittgenstein et Pierce avant de pouvoir comprendre l’article je ne suis pas non plus certain que l’article soit à sa place à IC.


[Transparent 19]

Validation verticale et horizontale :


Validation verticale : la modification, l’évolution, l’adaptation, l’extension et de façon générale toute contribution à une discipline mobilisée par un travail de l’IC doit être évaluée par les méthodes de cette discipline. Cette évaluation n’est pas forcément exhaustivement incluse ou détaillée dans une contribution à IC elle peut être référencée. L’évaluation peut-être formelle, expérimentale, etc.

Validation horizontale : conceptuelle, quantitative et qualitative. Mais aussi au besoin aller chercher d’autres métriques ex. Khaled Khelif doctorant de Rose Dieng-Kuntz lorsqu’il travaillait sur l’extraction de connaissances sur des comptes-rendus d’expériences sur puces à ADN avait non seulement utilisé les sempiternels rappel et précision mais aussi une mesure d’utilité qui capturait le gain perçu par l’utilisateur.


[Transparent 20]
Enfin, quelques points particuliers sur lesquels je vais mettre un coup de projecteur, plus par affinité personnelle que par rapport à une importance relative :

 La contribution est-elle constructive ? Avoir une lecture critique est important et une contribution en soi que j’apprécie, mais si on me demande de lâcher une prise il faut que l’on m’en propose une autre sinon je tombe. En d’autres termes, parce qu’il y a un objectif d’ingénierie, de conception ou à minima de spécification je ne peux pas seulement constater les limites d’une approche je dois aussi pouvoir identifier des alternatives opérationnalisables. Bachimont disait que nous sommes des bricoleurs. Je veux bien que l’on fasse table rase sur mon établi à condition que l’on me donne au moins des pistes pour mes prochains outils.


[Transparent 21]

Le Web a-t-il ou aurait-il pu être exploité d’une façon ou d’une autre dans la contribution ? (1) Le web est devenu un système d’information ubiquitaire et il est de notre devoir de nous assurer que cette ressource qui est maintenant systématiquement inscrite à notre paysage n’est pas ignorée. Dès lors que l’on s’intéresse à un système d’information le web est un point fixe de l’état de l’art et, même s’il n’est pas utilisable dans le scénario considéré, le positionnement doit être fait et motivé. (2) Les résultats publiables sur le web l’ont-ils été notamment les modèles et les données non confidentiels et pouvant être réutilisés par d’autres ? Non seulement pour promouvoir leur réutilisation et l’interopérabilité mais aussi pour permettre de répéter l’expérience et de construire des comparatifs, activités essentielles dans la progression des résultats scientifiques.


[Transparent 22]