Générer son sitemap.xml en Java avec la bibliothèque SitemapGen4j

 Article modifié dernièrement le 26 Jan 2015 @ 22 h 21 min

Le terme Sitemap désigne finalement deux choses, dans un premier temps il désigne une page Web qui permet aux utilisateurs d’avoir un « plan du site » (sous forme d’arborescence) afin de mieux les repérer et faciliter l’accès à l’information, dans un second temps il désigne le fichier que l’on doit générer et fournir aux moteurs de recherche pour que les robots d’indexation (crawlers) trouvent et indexent des pages qu’ils n’auraient pas pu trouver autrement, ce qui favorise un meilleur référencement.

Ce terme, dans le second cas, désigne en fait le protocole Sitemaps conçu par Google et adopté par les autres, qui consiste en une représentation du plan des sites en texte ou en XML, à destination exclusive des moteurs de recherche.

J’avoue ne pas avoir fait de page Sitemap sur mon site sur Magic, ça me semble ringard, par contre j’ai fait en sorte de générer au mieux le fichier XML Sitemap (voire même deux) par le biais d’une bibliothèque Java que je vais vous présenter.

Fichier Sitemap

– Bien entendu le fichier Sitemap.xml doit respecter une norme et un squelette prédéfini afin qu’il soit lisible par les robots : définitions des balises XML, encodage du fichier et caractères d’échappement d’entité entre autres. Je vous invite à lire cet article Format XML de plans Sitemap et  celui-là Utilisation de caractères non alphanumériques dans les URL d’un sitemap pour de plus amples informations car il y en a trop pour être résumées dans ce billet.

L’avantage de passer par une bibliothèque, telle SitemapGen4j, est que tout est prévu d’avance, ainsi toutes les bonnes pratiques sont implémentées et facilement exploitable, attention tout de même aux caractères spéciaux à encoder obligatoirement et autres caractères interdits à proscrire.

– Voici un extrait de ma classe permettant de générer mes deux fichiers Sitemap XML, un par langue du site (le fichier généré est automatiquement validé avec les schémas officiels du protocole) :

Fichier d’index Sitemap

Pour les sites Web dynamiques qui génèrent un nombre importants d’URLs et étant donné les limites imposées par fichier Sitemap (maximum 50 000 URLs et une taille de 10 Mo), vous avez la possibilité de découper vos fichiers par thème ou groupement puis de les référencer dans un unique fichier Sitemap index qui deviendra alors l’unique point d’entrée du robot pour accéder à vos liens repertoriés (article à lire Fichier d’index Sitemap).

Voici la façon de procéder avec SitemapGen4j :

Le fichier généré en sortie devrait ressembler à ceci, il ne vous manquera plus qu’à l’envoyer aux différents moteurs de recherche :

Outils d’aide

Pour vous aider à générer votre fichier sitemap.xml, il existe un tas de plugins pour les CMS, des outils à installer soit-même sur sa machine et des applications en ligne qui vous permettent de faire tout ça à la volée, voici une liste plutôt conséquente qui vous aidera dans votre recherche : Web Sitemap Generators.

Trois flèches vers le bas

1- Logiciel de brouillage d’adresse IP :

Contourner la censure en surfant anonyme

2- L’article explicatif :

La différence entre un proxy et un VPN

3- Comment espionner un smartphone (app) :

L’application de référence

Commentez ici

  • Mimie 15 août 2011, 14 02

    Apache propose aussi une bibliothèque pour nous aider, je ne l’ai pas testé : Cocoon Sitemap API.

Article suivant:

Article précédent:

Share This