Le référencement SEO multilingue international: meilleures pratiques
Les conseils pour un référencement SEO international et multilingue optimal
Note : ce post est une mise à jour de mon billet daté de 2012 dédié au référencement SEO de sites plusieurs langues avec un objectif de SEO international. Table des matières :
- La Page accueil du site multilingue
- La propagation du PageRank Google
- Les paramètres de la langue
- Les paramètres Hreflang
- Le Link bulding Multilingue
Si le référencement SEO a connu plusieurs mutations, elles sont reprises pour la grande majorité sur ce blog, il y a une constante qui persiste : la pertinence du contenu, de la structure et de la navigation.
Le référencement multilingue cause des maux de tête aux non-initiés et pour cause : il est source de redirections anarchiques, duplicate content, balises métas reprises…
En effet, souvent, on a une version du site qui tourne dans une langue puis on migre vers une autre plateforme, d’autres langues, de nouveaux contenus, et ce n’est pas toujours facile à gérer. Dans certains cas cette situation peut mener à la perte de PageRank ! Avouez qu’avec un PageRank nul (PR = zéro), vous avez de quoi vous inquiéter, même si Google a annoncé ne plus avoir l’intention de mettre à jour l’indice de la barre verte : Google PR toolbar no update
Alors nous allons faire le point sur le référencement multilingue ou SEO international.
La Page accueil du site multilingue
La première page (index.php par exemple) est apparentée au site de la même manière que le sous domaine www est lié à celui-ci. Si pour ce dernier on peut faire une redirection 301 vers le le non www en plus de paramétrer au niveau du « Google Webmaster Central Tools » ses préférences, la page index ne peut être contournée, elle est la porte d’entrée du site. Il s’agit de la page par défaut qui reçoit tous les liens entrants (naturels bien sûr) et donc bénéficie du plus haut PR du site. Toutefois, dans le cas d’un site multilingue, on doit prendre en considération la source du visiteur pour le choix de la langue.
Trois choix sont possibles alors :
- Proposer une page d’accueil qui demande à l’internaute de choisir sa langue.
- Prévoir une langue par défaut, et donner la possibilité à l’internaute de choisir une autre langue s’il le souhaite.
- Détecter automatiquement la langue et offrir donc des pages d’accueil personnalisées.
Chaque solution a ses avantages et ses inconvénients. Ci-dessous tableau comparatif:
Comparatif des trois solutions pour la page d’accueil fonction de la langue | ||
Solution | Avantages | Inconvénients |
Demande choix de langue | Une seule page d’entrée plus fréquentée : meilleure indexation et référencement | Page d’accueil dépouillée et donc peu optimisée pour les moteurs de recherche |
Langue par défaut et option | Idem ci-dessus avec en plus tout le texte et les liens du site qui sont pris en compte | Pas toujours évident pour le visiteur de trouver le bouton de changement de langue |
Redirection automatique | La meilleure solution pour l’utilisabilité du site pour le client (choix transparent) | Considérée comme une ‘splash page’ elle n’est pas appréciée par les moteurs. |
Cette dernière solution est à écarter définitivement bien qu’elle soit utilisée encore par un certain nombre de sites. Voir à ce sujet le guide des bonnes pratiques délivré par Google section « The anatomy of a multilingual site: URL structure » : Working with multilingual websites . Dans ce guideline, il est important de noter que Google déconseille catégoriquement les redirections automatiques :
To make all of your site’s content more crawlable, avoid automatic redirections based on the user’s perceived language. These redirections could prevent users (and search engines) from viewing all the versions of your site
La propagation du PageRank Google
Le PageRank Google (PR) est une expression de l’importance que Google attribue à la page. Il est déterminé notamment en fonction du nombre de liens (BL ou backlink) pointant vers cette page et la pertinence du contenu qui est à l’origine de recommandations des internautes.
Pour améliorer le PR de la page d’accueil, il est donc important de lier toutes les pages du site avec celle-ci. L’idéal est de respecter la structure des URL choisie en faisant un lien vers la bonne page d’accueil qui elle-même est liée à la page index, selon la langue de la page qui fait ce lien. Comme je le dis toujours, la meilleure solution est l’implémentation d’un Breadcrumb (fil d’Ariane) avec même la possibilité d’implémenter un tagage sémantique qui permettra l’apparition dans les SERPs avec un Rich snippet :
Mais attention, bien que Schema soit la norme, il m’a été confirmé par +Zineb Ait Bahajji de Google que seul le Data-vocabulary était supporté. Je vous renvoie à la page de support Google : Rich snippets – Breadcrumbs
Comme vu dans le précédant tableau, il est conseillé de mettre une véritable page d’accueil index.php (ou index.html) qui contiendra la langue par défaut du site plutôt qu’une page uniquement de redirection. Nous la déterminons en fonction de nos prévisions de la provenance de la majorité de nos visiteurs et de l’image à donner. Une page qui contiendrait les 2 langues, comme on voit trop souvent malheureusement va à l’encontre des consignes de Google quant à la détection de la langue :
Google tries to determine the main languages of each one of your pages. You can help to make language recognition easier if you stick to only one language per page and avoid side-by-side translations. Although Google can recognize a page as being in more than one language, we recommend using the same language for all elements of a page: headers, sidebars, menus, etc.
Les paramètres de la langue en référencement multilingue
Plusieurs solutions existent pour passer un paramètre de langue dans une page.
- Utiliser un cookie qui récupèrera la préférence de l’utilisateur (par exemple en fonction de la page d’accueil ou de la langue du navigateur).
- Utiliser une variable de session pour récupérer la variable de langue sur chaque page. (ne pas oublier de prévoir une langue par défaut pour ceux les visiteurs refuseront les cookies). Les robots qui viendront référencer le site doivent trouver une langue par défaut aussi.
- Modifier les URL pour utiliser un paramètre supplémentaire décrivant la langue, de type http://www.monsite.com?lang=fr ou http://www.monsite.com?lang=en (français / anglais).
Cette dernière solution est à privilégier car cela permet de gérer très facilement le contenu de la page et fournit une adresse différente pour chaque langue (très important). Les moteurs de recherche pourront ainsi les référencer différemment. Les sites montés de cette manière présenteront donc une architecture commune.
Il faut que le paramètre de langue apparaisse à un en endroit clé dans l’URL pour un bon référencement :
- soit dans l’extension du nom de domaine (domaine.fr, domaine.co.uk, domaine.it, etc.)
- soit dans le sous-domaine (fr.domaine.com, en.domaine.com, it.domaine.com, etc.)
- soit dans un répertoire à la racine du site (www.domaine.com/fr/, www.domaine.com/en/, www.domaine.com/it/, etc.)
Bien que ces trois solutions soient présentées par Google comme étant valables, je préconise la dernière pour la même raison que dans le point précédent : les pages des différents répertoires viendront verser leur jus de PR dans l’accueil et augmenter la notoriété du domaine. Bien que Google maintenant dit considérer les pages de sous-domaine comme des répertoires, l’effet n’est pas le même pour la propagation du PR : considérez plutôt un répertoire facilement identifiable. Pas convaincu, voyez le témoignage de +randfishkin de Moz posté en 2014.
Notions relatives à l’encodage
Dans les familles d’encodage de caractères, on distingue les “locaux” et les “internationaux”.
Les jeux de caractères locaux (dont font partie iso-8859-1 et iso-8859-15 – parfois désignés comme latin1 et latin9) sont destinés à des documents dans un seul système d’écriture (une langue ou un groupe de langue utilisant un même alphabet ou syllabaire). Les jeux de caractères internationaux (dont fait partie l’UTF-8) sont destinés à encoder des documents dans n’importe quel système d’écriture (et donc n’importe quelle langue).
L’utf-8 : il gère la plupart des langues utilisables et est donc facilement adaptable; il permet de se passer de la plupart des entités html et représente «l’aboutissement» de l’encodage. D’ailleurs il est conseillé dans le guideline de Google ci-dessus.
Selon les recommandations W3C : la balise méta devrait apparaître le plus haut prés de HEAD.
Les codes de langue du W3C
- L’attribut ‘lang’ est normalisé par le W3C pour désigner le contenu d’une page. Cependant, on pourrait avoir plusieurs langues dans un même document comme le montre l’exemple suivant :
- La balise méta ‘Content-Language’ va définir le langage principal du document. Cette balise était à l’origine dédiée aux moteurs de recherche, mais elle est très peu utilisée en pratique. Google définira la langue du document en fonction du contenu de la page.
L’URL rewriting pour site multilingue
On utilise l’URL rewriting pour optimiser ses URL, les rendre plus “propres”. Il faut faire attention au moment de choisir des titres avec accentuation et caractères spéciaux. On supprimera également tous les articles superflus et suffixe (le, la, au…).
On choisira donc de commencer tout le contenu dans une langue par son préfixe. Exemple pour la page d’accueil en Français : www.monsite.com/fr
Les autres pages vont donc s’inscrire dans le répertoire qui leur est réservé en suivant la même structure dans toutes les langues et sans faire de doublons au niveau des URLs, métas, et contenu.
Il est très important pour l’internaute comme pour les moteurs qui référencient le site de trouver sur chaque page les liens qui mènent vers les versions de la page dans les autres langues directement.
Les paramètres Hreflang
Google est venu avec une solution optimale pour le SEO international en mettant en place une balise dans le Head ou via le sitemap appelé HREFLANG :
Implémentation via le Head:
Supposons qu nous avons la page http://example.com/fr-ca pour le canada français, et nous volons la « lier » à son équivalent en anglais, alors il suffit de rajouter dans le HEAD le code :
<link rel= »alternate » href= »http://example.com/en-ca » hreflang= »fr-ca » />
<link rel= »alternate » href= »http://example.com/en-au » hreflang= »en-ca » />
De plus, si vous avez des problèmes dus au fait qu’une langue peut être servie à l’internaute avec une confusion pour les moteurs (exemple fr-fr versus fr-ca) alors il faudrait ajouter un alternate x-default :
<link rel= »alternate » href= »http://example.com/fr-ca » hreflang= »x-default » />
Cette information pourra dire à Google qu’en cas d’une recherche en Belgique par exemple qui pourrait recevoir les deux langues fr-fr et fr-ca la page préférée est celle avec fr-ca.
De plus, Google a confirmé que le Hreflang fonctionne tout aussi bien cross domaines : on peut très bien avoir un domaine exemple.fr et un autre exmple.ca et implémenter la balise HREFLANG entre les 2.
Implémentation via le sitemap :
Il est souvent difficile d’implémenter cette technique quand le site est déjà déployé et qu’il faut demander de coder les pages individuellement. Il est toutefois aisé d’utiliser les sitemap pour obtenir le même résultat :
<?xml version= »1.0″ encoding= »UTF-8″?>
<urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″ xmlns:xhtml= »http://www.w3.org/1999/xhtml »>
<url>
<loc>http://www.example.com/fr-ca/</loc>
<xhtml:link rel= »alternate » hreflang= »fr-ca » href= »http://www.example.com/fr-ca/ » />
<xhtml:link rel= »alternate » hreflang= »en-ca » href= »http://www.example.com/en-ca/ » />
</url>
De par mon expérience, je privilégie cette solution car elle est facile è maintenir.
Balise Canonical
Il y a eu beaucoup de controverses concernant l’ajout du canonical vers une langue par défaut quand l’annotation Hreflang est sortie. Mais le tir a été corrigé depuis avec la confirmation de Google que même si le contenu est identique entre 2 langues, les métas, la géo localisation et la monnaie par exemple sont suffisants pour rendre la page unique aux yeux de Google, alors n’utilisez cette balise que si vous avez peur du contenu dupliqué créé à partir de traduction automatique.
Le Link Building multilingue
Il n’y a aucun problème pour le linkbulding du site multilingue. Les moteurs font du clustering en reconnaissant le texte de contenu et en l’indexant par rapport aux recherches qui seront effectuées dans plusieurs langues. Alors si votre page est populaire en français par exemple, sa version anglaise en bénéficiera automatiquement, mais attention il faut prendre la concurrence dans la langue objet de l’optimisation.
Les moteurs analysent tout simplement la page dans n’importe quelle langue avec son contenu qu’il soit en français, en anglais…etc. Si le site est correctement référencé dans une langue (en général langue par défaut), alors vous n’aurez pas de difficultés pour que les moteurs de recherche trouvent les autres versions.
Toutefois, au moment de l’inscription du site sur les les annuaires par exemple, en référencement local cela donne des citations, il est important de faire la différence pour chacune des langues.
Pour les annuaires, et notamment pour les deux principaux, Dmoz et Yahoo directory, une différence d’approche s’impose :
- Pour DMOZ, il s’agira de chercher la rubrique la plus adaptée en fonction de la langue. Pour chaque catégorie, il suffira d’envoyer une demande via le lien qui correspondra à proposer un site dans chaque section.
- Contrairement à DMOZ, il faut se rendre dans les différentes versions de l’annuaire de Yahoo pour référencer le site. On cherchera à référencer le site dans les annuaires de yahoo.com (yahoo.co.uk par la même occasion), yahooo.ca et yahoo.fr.
Attention: Yahoo! Directory ferme bientôt alors cherchez une alternative comme Botw.org.
Conclusion pour le SEO international
Aujourd’hui les moteurs de recherche sont devenus « smart» dans le sens où ils parlent plusieurs langues, comprennent les entités sémantiques dans le contenu et extraient de l’information enrichie même à partir de données non structurées (Google et Bing Knowledge graph), alors il est opportun de chercher à rassembler son contenu dans plusieurs langues sur le même site sans s’embêter avec des ccTLDs ou domaines locaux qui ne font que compliquer la tâche SEO. En revanche, on va s’assurer que nous avons bien une page d’accueil, que la langue est déclarée dans chaque page dans la balise HTML, que l’attribut Hreflang est mis en place et que les méta et la copie sont revues pour éviter du contenu dupliqué. Avec une bonne implémentation, votre référencement international s’en trouvera amélioré.