L'un des thèmes phares de ces dernières années est la personnalisation, c'est-à-dire montrer à chaque utilisateur du site son contenu en fonction de ses goûts, idées et passe-temps. Cela s'applique déjà dans de nombreux endroits. Par exemple, plusieurs moteurs de recherche offrent la possibilité d'afficher des résultats personnalisés à partir de nos historiques de navigation : recherches effectuées précédemment, sur lequel des résultats de ces recherches nous avons cliqué, quel contenu nous avons sélectionné pour le partager sur les réseaux sociaux, etc. Les sites Web et les services pour écouter de la musique, à partir des chansons que nous avons écoutées ou nos amis, nous suggèrent de nouvelles chansons que nous aimons. Les magasins en ligne traitent de la même manière, en se basant sur nos achats précédents ou en s'occupant des achats d'autres clients qui ont acquis les mêmes que ceux achetés par nous. Certains médias ont également commencé à montrer une couverture différente à chaque utilisateur, en utilisant les informations des articles que nous avons lus ci-dessus.
En principe, bien que la personnalisation semble une bonne idée, il y a aussi ceux qui remettent en question leur adéquation. Lors d'une conférence TED vraiment recommandable, Eli Parise avertit que chacun d'eux risque de rester tranquille dans sa propre bulle, de recevoir uniquement des informations limitées et partielles de tout ce qui est dans le monde. Auparavant, les médias et les chaînes de télévision filtraient l'information pour nous, et si nous ne lisions et ne voyions qu'un type de journaux et de chaînes de télévision, nous ne recevons que des informations unilatérales. Internet nous a ouvert la vue, mais maintenant les filtres de personnalisation peuvent endommager la diversité.
D'autre part, afin de pouvoir afficher un contenu personnalisé, ces entreprises géantes recueillent des informations sur nous, ce qui génère une inquiétude pour la vie privée parmi de nombreuses personnes. L'opinion de Tim Berners-Lee, inventeur du web, et fondateur et directeur de W3C, dans son discours d'entrée sur www2012 est très intéressante. Selon lui, l'utilisation de l'information que les entreprises ont sur nous pour la vendre à d'autres ou pour d'autres usages incorrects n'est pas correcte et ne devrait pas être faite, mais elle ne pense pas que cette pratique est si habituelle, car en fin de compte ce n'est pas l'essence de l'entreprise de la plupart des entreprises, et ceux qui le font pénalise les marchés à long terme. Il ne partage pas la préoccupation de certains pour l'utilisation de l'information des entreprises sur nous, si elle se limite à l'utiliser pour offrir un meilleur service. Il a mis l'exemple d'un magasin de vêtements: le vendeur du magasin qui achète le pantalon rappelle la taille de son pantalon la fois précédente, toujours sans avoir à essayer (la maxime d'offrir un bon service a toujours été “connaissez votre client”).
Toutefois, il estime que les personnes intéressées par le fait que les entreprises n'enregistrent pas et n'utilisent pas leurs informations pour rien y ont droit et que les entreprises doivent le respecter, de sorte que W3C propose que le protocole HTTP inclut un en-tête « do not track » facultatif, car lorsqu'un site web reçoit une demande le contenant, il ne doit pas stocker de données client. Presque tous les navigateurs ont déjà mis en œuvre cette option, mais il faut voir si les entreprises respectaient...
La défense de la vie privée peut devenir défavorable. Dans l'Union européenne, par exemple, une loi interdit le stockage des cookies (système utilisé pour enregistrer les préférences de l'utilisateur et d'autres) sans le consentement de l'utilisateur. Sans cookies, il ne s'agit pas seulement d'un site Web qui ne peut pas être personnalisé, il ne peut même pas être lu ! Selon cette loi, plus de 90% des sites Web sont illégalisés. Jusqu'à présent, les États n'ont pas respecté la loi, mais ont récemment permis en Grande-Bretagne d'imposer des amendes allant jusqu'à un demi-million de livres, et certains de leurs sites ont commencé à faire une demande ennuyeuse d'autorisation de cookies.
Un autre sujet que l'on entend beaucoup ces dernières années est celui du web sémantique, et il l'a été aussi au congrès de cette année. Nous l'écrivons dans les numéros de mai et juin 2009. Il s'agit d'un site parallèle, composé d'informations structurées importantes au lieu de texte, contrairement à la textuelle, plus facile à comprendre et à traiter correctement les machines. Services avancés intelligents à son sujet, projets pour extraire du contenu structuré du texte, etc. Il y avait beaucoup de présentations de ce type.
Le produit Knowledge Graph, récemment présenté par Google, est également basé sur le web sémantique. Si nous avons recherché une personne, un lieu ou une chose spécifique, en plus de la liste des pages web habituelles, il affiche un tableau avec des informations structurées et liées.
Il s'agit d'un thème de mode qui ne fait aucun doute que dans les prochains mois et années apparaîtront de nombreux services de ce type. Bien que la vérité est que, il ya longtemps, il est dit que l'année où le web sémantique va exploser va être la suivante, et cette explosion ne vient pas, il est également vrai que progressivement apparaissent de plus en plus de services.
Une nouveauté au congrès de cette année a été la grande présence du Traitement du Langage Naturel et des technologies linguistiques. Ces technologies que nous travaillons depuis une décennie dans le Groupe de R & D d'Elhuyar, sur lesquelles nous avons souvent parlé dans cette section (corpus, traduction automatique, technologies pour faire de meilleurs chercheurs, systèmes de réponse aux questions, agents de dialogue...), ont traditionnellement peu d'espace dans les congrès liés au web et aux chercheurs. Ce type de thèmes concernait des congrès liés à la langue ou aux technologies linguistiques, mais jusqu'à présent le monde du web et des chercheurs n'a pas vu leur besoin. Ils ont traité très sommairement la langue : un simple stemming ou gommage, une simple recherche de mots...
Une des raisons principales de l'intérêt actuel pour ces technologies est que les méthodes précédentes simples ont abouti et ont vu la nécessité d'approfondir l'analyse de la langue pour améliorer les résultats. Dans le cas des chercheurs, par exemple, ils ont réalisé que pour traduire de meilleurs résultats, la recherche par langue, la recherche multilingue, la recherche de synonymes ou de mots similaires, l'analyse automatique de l'opinion des gens pour élaborer des classements par eux, le résumé automatique, la réponse aux questions, et des techniques aussi profondes que celles-ci.
Une autre raison est le web sémantique, paradoxal. En théorie, avec le web sémantique, la machine est capable de comprendre l'information structurée qu'elle contient sans avoir besoin de comprendre le langage. Mais pour résoudre certains problèmes (par exemple, pour répondre à des questions posées par l'utilisateur en langage naturel), il est nécessaire de désemparer (connaître quels objets concrets du web sémantique se réfère à la question ou à quelles propriétés concrètes se réfère). Ou si des textes on veut extraire automatiquement du contenu structuré sur le web sémantique, les technologies linguistiques sont nécessaires.
En plus des trois grands thèmes mentionnés, on a beaucoup parlé des réseaux sociaux. Et web mobile, html5, vidéo, 3D... Le web a encore de nombreuses possibilités et chemins pour évoluer et dans les années à venir, nous serons sûrs que cette évolution si surprenante.