R · Glossario Muza

ròbots-tì-ìcs-tì

Robots.txt

s. m. inv. [file di testo nella root di un sito web che indica ai crawler dei motori di ricerca quali pagine possono o non possono scansionare]

Definizioni

Il file che dice a Google dove può e dove non può entrare.

File di testo posizionato nella directory principale di un sito (es. muzastudio.com/robots.txt) che indica ai crawler dei motori di ricerca quali sezioni del sito possono scansionare e quali no. Usato per escludere pagine di amministrazione, aree di test o contenuti duplicati dall'indicizzazione.

Esempi

«Il sito di staging era indicizzato perché il robots.txt non bloccava Googlebot. I contenuti duplicati penalizzavano il sito principale.»
«Un robots.txt mal configurato può bloccare accidentalmente l'intera scansione del sito. Abbiamo visto siti sparire da Google per questo motivo.»

Etimologia

Il protocollo robots.txt fu creato da Martijn Koster nel 1994 come standard informale per controllare il comportamento dei crawler web. È uno dei protocolli più antichi del web e ancora universalmente rispettato da tutti i principali motori di ricerca. Non è un meccanismo di sicurezza: è un accordo di cortesia che i crawler scelgono di rispettare.

LE NOSTRE CERTIFICAZIONI

ISO 9001 — Gestione della Qualità

ISO IEC 27001 — Sicurezza delle Informazioni

ISO IEC 27017 — Sicurezza Cloud