Qu'est-ce Qu'un Robot De Moteur De Recherche

Table des matières:

Qu'est-ce Qu'un Robot De Moteur De Recherche
Qu'est-ce Qu'un Robot De Moteur De Recherche

Vidéo: Qu'est-ce Qu'un Robot De Moteur De Recherche

Vidéo: Qu'est-ce Qu'un Robot De Moteur De Recherche
Vidéo: Qu'est ce qu'un moteur de recherche ? 2024, Peut
Anonim

Le robot du moteur de recherche est responsable de l'exploration des pages Web. Le programme lit automatiquement les données de tous les sites et les enregistre sous une forme compréhensible pour le moteur de recherche lui-même, afin que plus tard le système affiche les résultats les plus appropriés pour l'utilisateur.

Qu'est-ce qu'un robot de moteur de recherche
Qu'est-ce qu'un robot de moteur de recherche

Les fonctions

Toutes les informations indexées sont enregistrées dans une base de données commune.

Un robot de recherche est un programme qui parcourt automatiquement les pages d'Internet, demande les documents nécessaires et reçoit la structure des sites explorés. Le robot sélectionne indépendamment les pages à numériser. Dans la plupart des cas, les sites à analyser sont sélectionnés au hasard.

Types de robots

Un robot qui ne fonctionne pas correctement augmente considérablement la charge sur le réseau et le serveur, ce qui peut entraîner l'indisponibilité de la ressource.

Chaque moteur de recherche possède plusieurs programmes appelés robots. Chacun d'eux peut remplir une fonction spécifique. Par exemple, chez Yandex, certains robots se chargent de scanner les fils d'actualité RSS, ce qui sera utile pour l'indexation des blogs. Il existe également des programmes qui ne recherchent que des images. Cependant, le plus important est le bot d'indexation, qui constitue la base de toute recherche. Il existe également un robot rapide auxiliaire conçu pour rechercher des mises à jour sur les flux d'actualités et les événements.

Procédure de numérisation

Un autre moyen d'empêcher l'exploration du contenu consiste à créer un accès au site via le panneau d'enregistrement.

Lors de la visite du site, le programme recherche dans le système de fichiers la présence de fichiers d'instructions robots.txt. S'il y a un document, la lecture des directives écrites dans le document commence. Robots.txt peut interdire ou, au contraire, autoriser l'analyse de certaines pages et fichiers du site.

Le processus de numérisation dépend du type de programme. Parfois, les robots ne lisent que les titres des pages et quelques paragraphes. Dans certains cas, la numérisation est effectuée dans tout le document en fonction du balisage HTML, qui peut également servir de moyen de spécifier des phrases clés. Certains programmes se spécialisent dans les balises cachées ou méta.

Ajout à la liste

Chaque webmaster peut empêcher le moteur de recherche d'explorer les pages via robots.txt ou la balise META. De plus, le créateur du site peut ajouter manuellement le site à la file d'attente d'indexation, mais l'ajouter ne signifie pas que le robot explorera immédiatement la page souhaitée. Pour ajouter un site à la file d'attente, les moteurs de recherche proposent également des interfaces spéciales. L'ajout d'un site accélère considérablement le processus d'indexation. En outre, pour une inscription rapide dans un moteur de recherche, des systèmes d'analyse Web, des répertoires de sites, etc. peuvent être utilisés.

Conseillé: