Søgemotorrobotten er ansvarlig for gennemsøgning af websider. Programmet læser automatisk data fra alle websteder og registrerer dem i en form, der er forståelig for selve søgemaskinen, så systemet senere viser de mest passende resultater for brugeren.
Funktioner
Alle indekserede oplysninger registreres i en fælles database.
En søgerobot er et program, der automatisk bevæger sig gennem siderne på Internettet, anmoder om de nødvendige dokumenter og modtager strukturen på gennemsøgte websteder. Robotten vælger uafhængigt de sider, der skal scannes. I de fleste tilfælde vælges steder, der skal scannes, tilfældigt.
Bot-typer
En ukorrekt fungerende robot øger belastningen på netværket og serveren betydeligt, hvilket kan medføre, at ressourcen ikke er tilgængelig.
Hver søgemaskine har flere programmer kaldet robotter. Hver af dem kan udføre en bestemt funktion. For eksempel på Yandex er nogle robotter ansvarlige for at scanne RSS-nyhedsfeeds, hvilket vil være nyttigt til indeksering af blogs. Der er også programmer, der kun søger efter billeder. Det vigtigste er dog indekseringsbotten, som danner grundlaget for enhver søgning. Der er også en ekstra hurtig robot designet til at søge efter opdateringer om nyhedsfeeds og begivenheder.
Scanningsprocedure
En anden måde at forhindre gennemgang af indhold på er at skabe adgang til webstedet gennem registreringspanelet.
Når du besøger webstedet, scanner programmet filsystemet for tilstedeværelsen af robots.txt instruktionsfiler. Hvis der er et dokument, begynder læsningen af de direktiver, der er skrevet i dokumentet. Robots.txt kan forbyde eller omvendt tillade scanning af bestemte sider og filer på webstedet.
Scanningsprocessen afhænger af programtypen. Nogle gange læser robotter kun sidetitlerne og et par afsnit. I nogle tilfælde udføres scanning i hele dokumentet afhængigt af HTML-markeringen, som også kan fungere som et middel til at specificere nøglesætninger. Nogle programmer er specialiserede i skjulte eller metatags.
Tilføjelse til listen
Hver webmaster kan forhindre søgemaskinen i at gennemgå sider gennem robots.txt eller META-tagget. Webstedsskaberen kan også manuelt føje webstedet til indekseringskøen, men at tilføje det betyder ikke, at robotten straks gennemsøger den ønskede side. For at føje et sted til køen leverer søgemaskiner også specielle grænseflader. Tilføjelse af et sted fremskynder indekseringsprocessen betydeligt. Også til hurtig registrering i en søgemaskine kan webanalysesystemer, stedbøger osv. Bruges.