- semantics are a double-edged weapon for security;
- deployment requires security on every floor;
- security is much more than a technical problem.
mercredi 13 août 2014
Triple statement for data protection and security on the (semantic) web
The ESWC 2014 panel was about data protection and security. To bootstrap the panel, we were asked to chose three statements. My triple statement was:
vendredi 13 juin 2014
Les trois « W » du World-Wide Web appellent les trois « M » d’une Méthodologie Massivement Multidisciplinaire
Je suis responsable de l’équipe de recherche Wimmics,
chercheur et représentant d’Inria au WC3 mais ce que je vais dire ici n’engage que
moi, un citoyen du web.
Le Web est devenu ce que nous en connaissons aujourd’hui
avant tout parce que son architecture est celle d’une plateforme universelle,
gratuite, décentralisée et ouverte.
L’architecture du Web est fondamentalement
ouverte jusqu’au cœur de ses trois composants de base, à savoir:
- des adresses ou identifiants ouverts qui font que l’on peut parler de tout sur le Web.
- des langages ouverts qui font que l’on peut tout dire sur le Web.
- des protocoles ouverts qui font que l’on peut communiquer sur le Web avec tout.
Pourquoi parle-t-on maintenant de plateforme web là où avant
on parlait de pages web et de sites web et donc essentiellement de
documents ?
Nous voyons tous que les pages web deviennent plus belles,
plus interactives, plus puissantes, plus... applicatives.
Des langages comme HTML5, CSS3 ou JavaScript sont maintenant au
cœur de la plateforme du Web. Avec leur intégration nous tournons
définitivement la page d’un web perçu comme une toile documentaire, pour une
toile de programmes liés entre eux. Chaque page est potentiellement une
application, un service à l’utilisateur ou à un autre logiciel. Le Web relie
toujours des documents mais aussi, et de plus en plus, des données, des
logiciels, des objets. Le web est définitivement devenu une plateforme
standardisée d’applications ouvertes sur internet.
Le panel des technologies du Web couvre toutes les dimensions
d’une application et notamment:
- L’accès aux ressources matérielles: géolocalisation, gyroscopes, caméras, NFC, ...
- Les interactions multimédia: audio et vidéo, graphiques, animations, 3D.
- Les interactions multimodales et indépendantes des terminaux: changement de résolutions, adaptation des claviers virtuels, analyse et synthèse de voix, interactions tactiles, vibration, applications web mobiles...
- Les communications: client-serveur, en temps réel, pair à pair, sockets, ...
- La sécurité : les clefs, les signatures, le cryptage, l’identité, l’authentification
- Le traitement automatique des données: l'interopérabilité des formats, intégration des données, la sémantique de leurs formats...
- etc.
Nous sommes passés de l’idée « D’écrire une fois et publier
partout » à l’idée « De coder une fois et utiliser partout ».
Cette plateforme du Web est constituée de technologies libres
de droits qui permettent à tout le monde d’implémenter et publier un nouveau
composant du Web sans avoir à obtenir ou à s’affranchir de licences. Ces
technologies non-propriétaires et indépendantes du domaine d’application permettent
une innovation ouverte et distribuée à l’échelle mondiale.
Si à travers les standards nous concevons l’architecture du
web, sa nature participative fait que l’objet Web qui en émerge est ouvertement
co-construit à l’échelle mondiale. Ceci en fait l’un des artefacts les plus
complexes qu’ait produit l’humanité. Cette complexité lui donne à la fois
richesse et difficulté. D’une certain façon nous ne connaissons pas le Web, ou
si peu. Nous concevons son architecture mais l’objet Web qui en émerge et
évolue à chaque instant nécessite d’être étudié et suivi dans toutes ses
évolutions.
De plus, si le web est décentralisé en principe, il peut être
recentralisé en pratique par les outils qui s’y déploient. La vigilance reste donc
de mise. La concentration des applications, la mise en silo des données et
toute forme de recentralisation par une organisation doivent être évitées
autant que possible, l’intérêt d’une organisation n’étant pas toujours
l’intérêt public.
Car le Web est d’intérêt public. L’ouverture du Web est
d’intérêt public. Et c’est un enjeu à la fois d’architecture technique et de
gouvernance du Web. Au-delà de la consultation, et même de la contribution de
contenus, il nous faut tendre vers une participation plus complète des
intéressés du Web, vers une gouvernance multi-participative.
L’ouverture du Web, c’est l’ouverture d’esprits,... au
singulier et au pluriel. Le Web est devenu un des artefacts très puissants de notre
cognition située, de notre intelligence
augmentée. Se pose donc comme un enjeu majeur la préservation de cette nouvelle
capacité cognitive. Et se pose aussi l’enjeu de préserver activement ses
soutiens, notamment le consortium W3C qui donne au web un forum ouvert et des
experts veillant sur son avenir.
Le Web est maintenant utilisé par 40% de la population
mondiale. C’est à la fois colossal, près de 3 milliards de personnes. Et c’est aussi
un rappel de l’un des enjeux majeurs de l’ouverture du web à savoir donner
l’accès aux 60% qui n’ont pas accès au web, soit plus de 4 milliards de
personnes. Il est important de ne pas écarter et au contraire de réduire la
fracture numérique. Au-delà des technologies, ouvrir le Web c’est donc aussi
promouvoir des outils et méthodologies permettant d’assurer que le web
s’ouvre bien à tous. Je parle ici d’accessibilité, d’internationalisation, de
mobilité, de multilinguisme, etc.
En établissant une conversation mondiale le web participe considérablement
à l’établissement de la liberté d'expression. Garder le web et son architecture
ouverts c’est aussi se donner une chance de préserver cette conversation
mondiale qu’il a établie.
Cette plateforme mondiale ouverte du Web appelle des évolutions
dans toutes les dimensions de nos sociétés (juridique, économique, politique,
etc.). Et notamment pour assurer un juste équilibre entre le bien des individus
et le bien des collectifs.
La perception du Web doit une fois pour toute dépasser sa nature
et son évolution initialement techniques pour aller vers le développement
réellement pluridisciplinaire du web qui est la seule façon pour lui
d’atteindre son plein potentiel.
Pour cela je suis convaincu que les trois « W » du World-Wide Web appellent les trois « M » d’une Méthodologie Massivement Multidisciplinaire.
dimanche 10 novembre 2013
Données de la culture et culture des données
Voici une présentation intitulée "données de la culture et culture des données" où j'introduis brièvement le web
sémantique et les données liées sur le web dans le domaine de la culture
à l'occasion de la conférence "Transmettre la culture à l’ère du
numérique" dans le programme Automne Numérique du ministère de la
Culture et de la Communication. Outre les rappels et quelques exemples, les points importants pour moi sont:
- il ne s'agit pas tant d'essayer de faire un catalogue des applications envisageables que de souligner que l'ouverture des données permet l'innovation en rendant possible l'utilisation de données dans des applications que nous n'avions pas forcément prévues;
- pour une culture ne pas avoir ses données et ses schémas ouverts et liés sur le web c'est se rendre invisibles aux applications qui utilisent ces données liées et la sémantique de leurs schémas, et à travers elles à leurs utilisateurs;
- la donnée n'est pas uniquement là pour décrire la culture, elle participe à la culture, elle devient élément de culture et notamment un matériau artistique pour la création.
lundi 23 janvier 2012
vendredi 23 septembre 2011
Open Data needs open standards and open research: an academic and standardization point of view at the Open World Forum.
Open Data needs open standards and open research: an academic and
standardization point of view.
speech from Fabien L. Gandon at the Open World Forum.
see video from the Open World Forum 2011: Open Data: the big picture, panel discussion
see video from the Open World Forum 2011: Open Data: the big picture, panel discussion
Open data needs open formats like XML to be stored and exchanged and in that sense having a neutral
standardization body like W3C is vital to design and publish standard formats.
Now in parallel the scale of the datasets opened on the web, their variety in
content, lifecycles and usages call for research to develop efficient means of
communication, parsing, storage, access, transformation, security,
internationalization, and so on.
Open data also needs open data structures for instance the RDF standard is inherently open: not only is it a nonproprietary
model with nonproprietary syntax, it is also designed to make datasets
extensible and reusable. By design the RDF model ensures anyone can say
anything about anything; there is no way in the model to prevent that. As soon as you name something I can reuse
that name and start to attach my data to it.
Now from a research
perspective this creates very complex challenges for instance when calculating
on those data we are in an open world assumption, I can’t be sure I am not
missing an important piece of data somewhere. What kind of processing can I do in
those circumstances, how can I efficiently crawl, index, link and ultimately
find my way through this giant global graph of open data?
Open data also needs open protocols to be accessible to everyone from everywhere. But maybe not quite. Open
data is sometimes reduced to data with public read access but things tend to be
more complex in reality.
We may need more than read
access we may want the C.R.U.D. operations, C.R.U.D. standing for Create new
open data, Read open data, Update open data, Delete open data for instance to
implement the right to oblivion. SPARQL 1.1 is a standardization effort in that
direction. But then many hard problems remain open for instance temporality in
these accesses to data: versioning, revisions, all kinds of changes and the
chain reactions they trigger in a linked open data world.
Yet open access also needs to
be secure and in particular to have open data you might need precise means to
define what is open and what is closed. If I have data I might want to open
some of it only, and I should be encouraged to open that part that can be
opened. This raises the questions of fine-grain access control and licenses for
data. As paradoxical as it may seems the absence of a license may eventually
restrict the use of data by making it difficult to identify actually opened
data. And then if I get some data I might want to make sure I can use it and
this raises the questions of provenance, traceability and authenticity. In that
context, many complex questions remain open like what happens when I mash up
data with different provenances and licenses? What should be the provenance and
license of the results of the inferences, aggregations, statistics, I did on
these data?
Open data also needs open schemas to capture their meaning, ensure their interoperability and foster
automated use and reuse. From the standardization point of view, RDFS or OWL
languages are contributions in that direction allowing us to publish our
schemas. The issue of fostering the emergence and stabilization of standard
schemas in domains needing them remains complex. But on top of it the open
nature of the schemas create new challenges like scaling the processing of
these schemas to large datasets and allowing for approximation, incomplete data
and incoherent data that we are bound to find in an open world.
From a standardization point
of view it is clear that we need neutral places where to build open standard
supporting open data including: open architectures, open formats, open languages,
open protocols, open methodologies, and so on.
We also need subsequent standardization efforts in each application domain
in particular to release compatible datasets and schemas.
Now I’d like to conclude with
two last points from the academic perspective on open data.
First, with the web and beyond
computer science, many academic disciplines face new research and education
challenges and the open data initiative in itself uncovers several of them from
legal issues to be solved to new economic models to be invented, from
sociological approaches of the open data lifecycles to biological models that
can inspire new data structures and algorithms.
And finally, there is a
reciprocal perspective to be taken from the academic point of view since science
and education produce and consume a fair amount of data themselves. Academia is
an application domain itself of open data. For instance there is a need for more
open science data initiatives, opening observations and results of scientific
activities for other scientists to analyze and reuse, making academic and
research material one-click away from being re-useful.
In other words, vice-versa, an open academic world needs open data.
vendredi 20 mai 2011
Les questions épistémologiques de la recherche en Ingénierie des Connaissances
Les questions épistémologiques de la recherche en Ingénierie des Connaissances
View more presentations from Fabien Gandon.
[Transparent 2]
Qu'est-ce qu'une contribution scientifique en Ingénierie des Connaissances?
Je prends cette question comme « qu’est-ce qu’une contribution prototypique de l’IC ? » Sachant qu’il y a toujours des cas particuliers comme les méta-contributions : les contributions qui parlent de l’IC (ex. Bachimont, 2004) ou qui parlent des contributions à l’IC (exemples trop rares : les comparatifs).
[Transparent 3]
Une contribution typique de l’IC est transdisciplinaire et ne cherche pas forcément à faire une contribution dans les disciplines qu’elle mobilise, mais plus typiquement à articuler des résultats de plusieurs disciplines, à revisiter, critiquer ou assoir des résultats d’une discipline à la lumière des théories d’une autre, etc. Si elle contribue à une discipline particulière c’est typiquement par fertilisation croisée ou par retour d’expérience sur les usages.
[Transparent 4]
En particulier une contribution à l’IC va s’intéresser à marier sciences humaines et sciences formelles et notamment, à investir en fond théorique issu des sciences humaines des modèles ou méta-modèles issus des sciences formelles, à en piloter le choix ou l’évolution et en IC on s’intéressera en particulier : à des modèles ou méta-modèles d’inscription de connaissances et de traitement de connaissances et aux sciences formelles et sciences du numérique, notamment avec la préoccupation d’identifier des modèles informatiquement opérationnalisables.
Une contribution typique à l’IC cherchera donc une fertilisation croisée entre les sciences humaines, sciences formelles et les sciences du numérique et non une contribution dans une discipline singulière.
[Transparent 5]
Un certain nombre de disciplines mobilisées par l’IC ont une culture de sciences expérimentales où les modèles sont souvent explicatif, génératifs au sens de la simulation. Un des apports que j’attends d’une contribution à l’IC est l'articulation inter disciplinaire qui consiste à passer de tels modèles à des modèles prescriptifs et des modèles opérationnels et donc à passer de l’analyse, de l’explication à la spécification et la conception.
[Transparent 6]
Pour moi un corolaire important de la recherche active de fertilisation croisée est ce que j’appellerais le devoir de vulgarisation interdisciplinaire i.e. il ne s’agit pas seulement d’établir une contribution transdisciplinaire, il s’agit de la communiquer aux disciplines mobilisées en premier lieu et plus généralement à l’ensemble de la communauté IC. La vulgarisation est nécessaire notamment pour éviter un dos à dos disciplinaire, ces situations que certains d’entre nous ont vécues où en lieu et place d’une transdisciplinarité voulue nous avons des experts de disciplines qui se regardent en chiens de faïence. Il y a pour moi un enjeu important de faire percoler une problématique ou une évolution d’un domaine à l’autre, et une contribution à l’IC se doit donc de faire un triple exercice de mobilisation de résultats mono-disciplinaires spécifiques, d’articulation transdisciplinaire et de vulgarisation interdisciplinaire.
[Transparent 7]
Un point particulier qui me tient à cœur dans la notion de publication c’est ce que change aussi la présence du web. Un point important qu’ont changé le web, le web de données et le web sémantique c’est la publication des données et modèles non confidentiels d’une contribution ; pour moi il ne s’agit plus maintenant uniquement de décrire et documenter nos modèles et leur logique de conception dans des articles, mais aussi de les publier en ligne dans des formalismes standardisés. La communauté IC produit des représentations de connaissances, produit systèmes à base de connaissances, etc. et à l’heure du web contribuer à IC devrait aussi souvent que possible se traduire aussi par une contribution au web en mettant modèles, données et outils en ligne.
[Transparent 8]
Enfin on peut aussi se demander ce que pourrait être une contribution à IC demain ? Nous avons tous des desiderata sur ce point je pense, mais personnellement j’aimerais voir des sujets, disciplines et courants plus présents à IC par exemple : ou la question des bases épistémiques d’une nouvelle législation (ex. réflexion sur la propriété dans un monde de ressources non concourantes), l’évolution de l’éducation face à la disparition du besoin de mémoire, le droit à l’oubli dans un monde hypermnésique, plus d’opérationnalisations des courants philosophiques autres que ceux qui ont déjà percolé, le courant « human-based computing » que je n’ai pas su traduire de façon satisfaisante mais qui a beaucoup de résonnance avec certaines questions d’usage en IC, etc.
[Transparent 9]
Quelles sont les méthodes pour produire des connaissances en IC ?
[Transparent 10]
Méthodes centrées usages : sous l’influence d’Alain Giboin, notre équipe utilise souvent des approches comme l’analyse par scénarios et personas, mais ce pourrait-être de l’analyse de processus, etc.
[Transparent 11]
(1) Faire un état des lieux actuels : scénario a priori.
Identifier si une situation rencontrée relève d’un problème épistémique : il faut d’abord savoir si notre intervention est pertinente, établir si une situation est de notre ressort etc. Typiquement nos scénarios s’intéresse à concevoir, étudier, modifier un système épistémique numérique sous au moins deux angles disciplinaires différents.
[Transparent 12]
(2) Faire une projection : scénario à postériori
Cette deuxième étape s’adosse à la construction d’un état de l’art. On vérifie aussi si on est dans un cas où la modélisation et le traitement sont difficilement identifiables i.e. la modélisation est un verrou, le modèle n’est pas immédiat. Il s’agit aussi là d’investir en fond théorique par exemple de décider de s’appuyer sur le paradigme de l’épistémologie sociale pour proposer un prisme à travers lequel on va non seulement expliquer la situation mais aussi expliquer les changements envisagés et justifier qu’ils vont bien mener aux effets escomptés.
[Transparent 13]
(3) Proposer une opérationnalisation (c’est en quelque sorte le propre de la nature ingénierique de l’IC) ; Il s’agit notamment dans cette phase d’identifier, comparer, sélectionner des outils formels utilisables ou adaptables à l’évaluation, la validation, l’application de la lecture et de l’intervention envisagés dans le paradigme précédemment fixé.
Et la première validation qui sera faite du point de vue de l’IC c’est le déroulé du scénario à postériori pour évaluer son effectivité en contexte et en usage.
[Transparent 14]
Comment valide-t-on une connaissance produite ?
Je commencerais par dépiler les critères que l’on trouve classiquement dans une grille de relecture:
[Transparent 15]
Qualité technique ou profondeur : quel couplage interdisciplinaire est envisagé et surtout pourquoi ? Les résultats et théories mobilisés sont-ils justifiés dans leurs choix, dans leur adéquation, dans leur applicabilité, etc.? La logique de conception est-elle capturée, expliquée et argumentée notamment en référence aux théories mobilisées? C’est un point particulièrement important puisque c’est là que se concrétise la transdisciplinarité de l’IC.
[Transparent 16]
Originalité et Etat de l’Art : états de l’art mono-disciplinaires mais aussi et surtout quels ont été les couplages transdisciplinaires précédents dans la littérature et pourquoi en envisager un nouveau. Puisque l’une des particularités de l’IC réside dans ces couplages, il faut positionner et motiver un nouveau couplage.
[Transparent 17]
Adéquation à la conférence: est-ce une contribution mono-disciplinaire ? la contribution est-elle accessible à un publique de non-initiés ? A-t-on un enjeu épistémique ? Y-a-il instrumentation d’une tâche cognitive et étude des inscriptions épistémiques impliquées dans cette tâche ? Ainsi, l’étude de complexité d’un fragment de logique n’est pas forcément très à sa place à IC s’il n’est pas relié à un usage.
[Transparent 18]
Présentation, forme : outre les critères classiques, j’inclue ici le critère de vulgarisation interdisciplinaire c'est-à-dire : l’articulation interdisciplinaire est-elle expliquée de façon à la rendre accessible à l’ensemble de la communauté ? Si je dois avoir lu Kant, Deleuze, Rastier, Wittgenstein et Pierce avant de pouvoir comprendre l’article je ne suis pas non plus certain que l’article soit à sa place à IC.
[Transparent 19]
Validation verticale et horizontale :
Validation verticale : la modification, l’évolution, l’adaptation, l’extension et de façon générale toute contribution à une discipline mobilisée par un travail de l’IC doit être évaluée par les méthodes de cette discipline. Cette évaluation n’est pas forcément exhaustivement incluse ou détaillée dans une contribution à IC elle peut être référencée. L’évaluation peut-être formelle, expérimentale, etc.
Validation horizontale : conceptuelle, quantitative et qualitative. Mais aussi au besoin aller chercher d’autres métriques ex. Khaled Khelif doctorant de Rose Dieng-Kuntz lorsqu’il travaillait sur l’extraction de connaissances sur des comptes-rendus d’expériences sur puces à ADN avait non seulement utilisé les sempiternels rappel et précision mais aussi une mesure d’utilité qui capturait le gain perçu par l’utilisateur.
[Transparent 20]
Enfin, quelques points particuliers sur lesquels je vais mettre un coup de projecteur, plus par affinité personnelle que par rapport à une importance relative :
La contribution est-elle constructive ? Avoir une lecture critique est important et une contribution en soi que j’apprécie, mais si on me demande de lâcher une prise il faut que l’on m’en propose une autre sinon je tombe. En d’autres termes, parce qu’il y a un objectif d’ingénierie, de conception ou à minima de spécification je ne peux pas seulement constater les limites d’une approche je dois aussi pouvoir identifier des alternatives opérationnalisables. Bachimont disait que nous sommes des bricoleurs. Je veux bien que l’on fasse table rase sur mon établi à condition que l’on me donne au moins des pistes pour mes prochains outils.
[Transparent 21]
[Transparent 22]
samedi 26 juin 2010
Name That Graph !
presentation on named graphs at the RDF next step workshop
Name That Graph !
View more presentations from Fabien Gandon.
Inscription à :
Articles (Atom)