Christophe Le Bot

  • Navigation rapide
Pratique de la conception numérique

Derniers commentaires

  • Une excellente thèse sur Simile Exhibit
    • Olivier Rossel | Bonjour. Malgre les annees, avez vous toujours en memoire vos usages d’Exhibit? Je serais ravi d’en discuter avec vous. Cordialement, Olivier Rossel.
  • Utiliser le planificateur de tâches OVH (crontab) avec PHP
    • Max | Bonjour, comme faire pour appeler une version de PHP qui n’est plus proposée par défaut dans le manager ? J’essaie de lancer un cron avec php 5.3 mais le log affiche No such file...
    • Christophe | @absolument Merci pour ces précisions. Je n’ai pas mis en place de tâches cron récemment, mais j’ai reçu quelques notifications étranges d’OVH il y a quelques...
  • Récupérer le dernier auto-incrément MySQL avec PHP
    • Thy | Sujet toujours *très* utile en 2015 ! Je réponds à Serge tsimba qui récupère un « Resource id ». (Et à tous ceux qui ont le même souci mais qui ne le disent pas) :)...
  • Régler l’heure de serveurs virtuels sous Debian
    • Ares_XL | Il semble que sur Débian la commande « tzconfig &ra quo; soit dépréciée et remplacée par : « dpkg-reconfigure tzdata » elle donne accès à une...
 

Naviguer dans les graphes, un défi pour la conception d’interfaces ?

Le web sémantique est à la mode. Cette nouvelle « découverte » des notions fondamentales de l’informatique (le web est jeune, qu’il en soit pardonné…) entraîne une évolution des interfaces, à commencer par celles qui facilitent la compréhension et la manipulation de graphes de données.

Exemple avec le site dédié à l’exposition Design and the Elastic Mind du MoMA.

Interface du site web Design and the Elastic Mind
Interface du site web Design and the Elastic Mind.

L’interface (réalisée en Flash) permet de naviguer d’un article à un autre, grâce aux liens typés affichés sur chaque article sélectionné. L’idée est intéressante et l’aspect très réussi, mais l’ensemble manque d’efficacité (la destination d’un lien est imposée et la représentation mentale de l’ensemble est difficile).

Finalement, malgré son âge (7 ans), je trouve Kartoo plus efficace pour naviguer d’une information à l’autre, via leurs relations intrinsèques (même si ces dernières sont déduites de l’indexation des sites et ne gèrent ni l’orientation, ni la composition). Je l’utilise régulièrement quand un moteur « classique », comme Google, ne peut affiner une recherche floue.

Exemple de résultat Kartoo
Exemple de résultat de recherche avec Kartoo.

Autre approche, Visuwords qui tente de typer fortement les relations entre les données. Le résultat est exhaustif, mais, au-delà d’un item (ce que ne fait pas Visuwords), sa lecture nécessite du temps et un effort intellectuel important.

Visuwords
Recherche d’un mot dans le dictionnaire Visuwords.

Malgré le degré de finition de ces quelques exemples (et de tant d’autres glanés sur le web), je reste encore sur ma faim. Est-ce si difficile de concevoir une interface efficace pour naviguer dans des graphes complexes de données ? Je finis par le penser. A croire que notre (mon) cerveau n’a pas naturellement vocation à maîtriser ce type de représentation de l’information qui nous semble pourtant si intuitif…

Au bout du compte, j’en viens à me demander si la manipulation de graphes ne devrait pas être la chasse gardée des machines. Twine semble parfaitement tirer profit de cette approche.

Graphe de données Twine
Un graphe Twine… que l’utilisateur ne verra jamais !
Interface de Twine
L’interface de Twine, simple et pertinente.

Navicrawler transforme Firefox en fouine

Navicrawler

Depuis un certain temps, je cherche un outil qui assiste intelligemment ma navigation à travers le web. Il y a bien sûr les favoris, l’historique, les agrégateurs et autres services web 2.0, mais je n’ai encore rien trouvé d’idéal pour m’assister quand je navigue.

Enfin, je n’avais pas trouvé car je teste actuellement Navicrawler (une extension pour Firefox) et il se pourrait bien que ce soit la réponse à mes besoins. Dixit les auteurs de ce bijou, « le Navicrawler est un outil d’exploration du web qui analyse le contenu et la structure des pages et des liens hypertextes pour accompagner l’utilisateur au cours de sessions de navigation. »

La description sur le site officiel est très claire, mais j’en garde les meilleurs morceaux :

Il s’adresse en premier lieu à la recherche en Sciences Humaines et Sociales, mais il peut être utilisé à d’autres fins. Il permet notamment de mieux comprendre sa propre activité de navigation, de la contextualiser en indexant tous les liens hypertextes (même ceux qu’on n’a pas cliqués) et de constituer des prises pour interpréter le web. Le Navicrawler produit ainsi des graphes dans lesquels les sites sont les noeuds et les liens sont les arcs ; ces dessins à plat ou en trois dimensions manifestent le parcours web de la session de navigation, à condition de les visualiser dans un logiciel adapté (par exemple Guess ou Graphiltre). Les graphes produits par le Navicrawler sont enrichis de nombreuses données issues de la navigation, qui permettent une interprétation poussée du terrain-web qu’on a exploré.

[…]

Contrairement aux crawlers classiques qui produisent des graphes à interpréter dans un second temps hors du web, le Navicrawler fournit le graphe de l’exploration pendant laquelle l’utilisateur a essayé de comprendre quelque chose du web. Le Navicrawler accompagne l’utilisateur et capitalise sa navigation : toutes ses fonctionnalités sont pensées pour l’aider à s’orienter et à voir ce qui est caché.

[…]

Le Navicrawler permet d’enrichir les données à la main. L’utilisateur peut ainsi commenter et classer les sites dans des catégories qu’il crée d’après la compréhension qu’il a des sites sur lesquels il navigue. Petit à petit, il peut affiner cette couche de description pour construire une première interprétation du domaine web qui l’intéresse.

[…]

Il est possible d’exporter la session de navigation sous différents formats : Graphes en .gdf (Guess) ou .net (Pajek), ou encore données brutes au format .csv (tableurs comme Excel ou OpenOffice Calc).

Stop, n’en jetez plus ! Je craque ! Et je le garde !

Google is watching your server

Dans son blog Actulligence, Frédéric Martinet nous donne un excellent exemple de la puissance de Google. Son article Trouver des fichiers multimédias avec Google contient une requête permettant de trouver tous les fichiers sonores (MP3 et WMA) contenant le terme nirvana. Résultat fort démonstratif qui peut être appliqué dans un contexte de veille active (par exemple, recherche de documents sensibles ou de copies illicites).

J’aime bien cet exemple parce qu’il exploite un défaut de configuration des serveurs web. En effet, si on effectue une requête sur un dossier qui ne contient pas de page index, le serveur web va (trop souvent) nous en montrer le contenu. C’est le cas pour toutes les pages trouvées par la requête de Frédéric Martinet. « Et alors, quel est le problème ? C’est un site web public ! » Oui, sauf que je connais beaucoup de gens pressés qui placent des contenus privés dans des dossiers publics en se disant : « qui va deviner que je place ce fichier à cet endroit ? »

Google le saura.

Vous me prenez pour un parano, hein ? Alors voici un exemple. WordPress, le moteur de blog que j’utilise, place tous les fichiers que je lui envoie, dans le dossier wp-content/uploads/. Celui-ci n’étant pas interdit d’accès (configuration par défaut de la majorité des serveurs mutualisés), on peut obtenir la liste de tous les médias de mon blog. A priori, ce sont les médias qui illustrent mes articles, donc pas de soucis. Et pourtant, il y en a un énorme : les fichiers des articles privés ou en cours de rédaction sont visibles par n’importe qui ! Si vous placez des rapports, documents, images et autres fichiers rien que pour vous ou vos proches, tout le monde en profitera, sachez-le !

On peut appeler ça une faille de sécurité, non ? Et comme je suis très joueur, un fichier appartenant à un article privé est placé dans mes médias. Je donne 72h à Google pour le trouver. Vous pouvez essayer aussi.

Mise à jour : Je suis parano ! Google n’a pas trouvé mon fichier. Son robot d’indexation est pourtant passé à plusieurs reprises, sans prendre en compte le dossier wp-content/uploads/. Vu le nombre de blogs tournant sous WordPress, Google a peut-être pris l’initiative de ne jamais indexer ce dossier-là. Par contre, d’autres « visiteurs » moins sympathiques m’obligent à protéger mon dossier wp-content/ : visiblement la liste de extensions installées (wp-content/plugins/) semblaient beaucoup leur plaire… La récréation est finie !

Et vous ? Avez-vous constaté des comportements étranges ou des attaques directes sur votre blog ? Comment le protégez-vous ?

Google, Yahoo et Microsoft à l’unisson autour de Sitemap

Sitemap

Google, Yahoo et Microsoft, frères ennemis ? Pas toujours ! Ils savent aussi travailler ensemble quand cela favorise leurs intérêts respectifs. Un exemple : le protocole Sitemap, initié par Google, fait maintenant l’objet d’un site dédié (sitemaps.org) et d’une licence Creative Commons pour favoriser son adoption. Autant dire de suite que Sitemap sera LE standard d’indexation du contenu des sites web.

Avec Sitemap, le webmaster reprend la main sur l’indexation de son site : il peut en décrire la hiérarchie, favoriser l’importance d’une page ou indiquer la régularité des mises à jour. Ces données sont stockées dans un ou plusieurs fichiers XML soumis directement aux moteurs d’indexation.

C’est toujours mieux que le simple fichier robots.txt, mais ce n’est pas encore la panacée. Sitemap est parfait quand la structure du site évolue peu. Par contre, lorsqu’à l’occasion d’une refonte, des contenus changent de rubriques, sont fusionnés ou éclatés, changent de domaine, Sitemap ne sait pas décrire ces changements. Certes, les codes de statut HTTP peuvent y remédier, notamment les 301, 302, 303 et 307, mais ils sont souvent mal exploités (quand ils le sont…) par les systèmes de gestion de contenu et sont plutôt destinés aux navigateurs web qu’aux moteurs d’indexation.

La bonne idée serait donc d’ajouter quelques balises dans les fichiers XML Sitemap pour indiquer les changements de structuration du contenu (suppression, déplacement, fusion, éclatement, pages liées, etc.). On pourrait alors se passer du fichiers robots.txt et de quelques balises META dans le code HTML de chaque page. On pourrait même imaginer se passer des codes de statut HTTP si le navigateur web savait exploiter les fichiers XML Sitemap. Il me reste à contacter les frères ennemis pour mettre tout cela en place !

Krugle, un moteur de recherche pour les développeurs

Krugle

Encore en phase de test, Krugle est un moteur de recherche dédié aux développeurs. « Et un moteur de plus ! » Oui, mais celui-là fait bien plus que de donner une liste d’adresses web : il plonge dans le cœur des applications.

Vous voulez connaître les paramètres d’une méthode de Tomcat ou l’utilisation d’une variable d’environnement dans Apache ? Krugle affiche la liste des scripts concernés et leur code source ! Vous pouvez placer des marqueurs sur le code et partager les résultats avec d’autres développeurs.

Pour financer ce service, Krugle mise dans un premier temps sur la publicité. la société devrait à terme proposer des services pour les entreprises grâce à l’indexation de leurs projets internes.

Avec Retrievr, dessinez ce que vous cherchez !

Retrievr

La société autrichienne System One vous propose de tester Retrievr, un système de recherche d’images original et intuitif : pour trouver des photos, il suffit de les dessiner !

Autour d’un noyau codé en Python, Retrievr utilise Flash et le framework Javascript Helma pour l’interface utilisateur. Il est principalement basé sur les recherches conduites par Chuck Jacobs, Adam Finkelstein et David Salesin, de l’Université de Washington.

L’interface est simple et intuitive, les résultats sont étonnants !