L'indexation est le processus d'analyse des fichiers situés sur une ressource Internet par un robot de recherche. Cette procédure est effectuée pour que le site soit disponible dans les résultats de recherche pour diverses requêtes dans le moteur de recherche. Parmi les plus grands moteurs de recherche d'aujourd'hui se trouve Yandex, qui effectue cette analyse à sa manière.
Instructions
Étape 1
L'indexation du site Internet est effectuée par des programmes automatiques spéciaux - des robots de recherche, qui suivent automatiquement l'apparition de nouveaux sites sur le World Wide Web, balayant en permanence les pages Internet situées sur Internet, les fichiers et les liens vers ceux-ci sur chaque ressource.
Étape 2
Pour scanner, le robot se rend dans le répertoire où se trouve la ressource sur un serveur particulier. Lors du choix d'un nouveau site, le robot est guidé par sa disponibilité. Par exemple, il existe une opinion selon laquelle Yandex analyse d'abord les sites créés dans un domaine en russe et en russe - ru, rf, su ou ua, puis se déplace ensuite vers d'autres régions.
Étape 3
Le robot navigue jusqu'au site et scanne sa structure, recherchant d'abord les fichiers qui indiquent une recherche plus approfondie. Par exemple, un site est analysé pour Sitemap.xml ou robots.txt. Ces fichiers peuvent être utilisés pour définir le comportement du robot de recherche lors de la numérisation. A l'aide du plan du site (sitemap.xml), le robot se fait une idée plus précise de la structure de la ressource. Le webmaster utilise robots.txt pour définir les fichiers qu'il ne souhaite pas voir apparaître dans les résultats de recherche. Par exemple, il peut s'agir d'informations personnelles ou d'autres données indésirables.
Étape 4
Après avoir scanné ces deux documents et reçu les instructions nécessaires, le robot commence à analyser le code HTML et à traiter les balises reçues. Par défaut, en l'absence de fichier robots.txt, le moteur de recherche commence à traiter tous les documents stockés sur le serveur.
Étape 5
En cliquant sur des liens dans les documents, le robot reçoit également des informations sur d'autres sites qui sont en file d'attente pour la numérisation suivant cette ressource. Les fichiers numérisés sur le site sont enregistrés sous forme de copie de texte et de structure sur les serveurs des centres de données Yandex.
Étape 6
Le besoin de re-scanner est également déterminé automatiquement par les robots. Le programme compare le résultat de l'analyse existant avec la version mise à jour du site lorsqu'il effectue à nouveau l'indexation. Si les données reçues par le programme diffèrent, la copie du site est également mise à jour sur le serveur Yandex.