Cum se configurează corect Robots.txt?

Cuprins:

Cum se configurează corect Robots.txt?
Cum se configurează corect Robots.txt?
Anonim

Txt-ul corect al roboților pentru site-ul html creează machete de acțiune pentru roboții motoarelor de căutare, spunându-le ce pot verifica. Acest fișier este adesea denumit Robot Exclusion Protocol. Primul lucru pe care roboții îl caută înainte de a accesa cu crawlere un site web este robots.txt. Poate indica sau poate spune Sitemap-ului să nu verifice anumite subdomenii. Când doriți ca motoarele de căutare să caute ceea ce se găsește cel mai frecvent, atunci robots.txt nu este necesar. Este foarte important în acest proces ca fișierul să fie formatat corect și să nu indexeze pagina utilizatorului cu datele personale ale utilizatorului.

Principiul scanării robotului

Principiul scanării robotului
Principiul scanării robotului

Când un motor de căutare întâlnește un fișier și vede o adresă URL interzisă, nu îl accesează cu crawlere, dar îl poate indexa. Acest lucru se datorează faptului că, chiar dacă roboții nu au voie să vadă conținutul, își pot aminti backlink-urile care indică adresa URL interzisă. Din cauza accesului blocat la link, URL-ul va apărea în motoarele de căutare, dar fără fragmente. În cazul în care unpentru strategia de marketing primită, este necesar textul Robots corect pentru bitrix (Bitrix), ei oferă verificarea site-ului la cererea utilizatorului prin scanere.

Pe de altă parte, dacă fișierul nu este formatat corect, acest lucru poate duce la ca site-ul să nu apară în rezultatele căutării și să nu fie găsit. Motoarele de căutare nu pot ocoli acest fișier. Un programator poate vizualiza fișierul robots.txt al oricărui site accesând domeniul său și urmându-l cu robots.txt, de exemplu, www.domain.com/robots.txt. Folosind un instrument precum secțiunea de optimizare SEO a Unamo, unde puteți introduce orice domeniu, iar serviciul va afișa informații despre existența fișierului.

Restricții pentru scanare:

  1. Utilizatorul are conținut învechit sau sensibil.
  2. Imaginile de pe site nu vor fi incluse în rezultatele căutării de imagini.
  3. Site-ul nu este încă pregătit pentru demonstrația pentru a fi indexată de robot.

Rețineți că informațiile pe care un utilizator dorește să le primească de la un motor de căutare sunt disponibile pentru oricine introduce adresa URL. Nu utilizați acest fișier text pentru a ascunde date sensibile. Dacă domeniul are o eroare 404 (negăsită) sau 410 (trecută), motorul de căutare verifică site-ul în ciuda prezenței robots.txt, caz în care consideră că fișierul lipsește. Alte erori, cum ar fi 500 (Eroare internă a serverului), 403 (Interzis), expirat sau „nu este disponibil” respectă instrucțiunile robots.txt, cu toate acestea, ocolirea poate fi amânată până când fișierul este disponibil.

Crearea unui fișier de căutare

Crearea unui fișier de căutare
Crearea unui fișier de căutare

MulteProgramele CMS precum WordPress au deja un fișier robots.txt. Înainte de a configura corect Robots txt WordPress, utilizatorul trebuie să se familiarizeze cu capacitățile sale pentru a-și da seama cum să-l acceseze. Dacă programatorul creează el însuși fișierul, acesta trebuie să îndeplinească următoarele condiții:

  1. Trebuie să fie cu litere mici.
  2. Utilizați codarea UTF-8.
  3. Salvați într-un editor de text ca fișier (.txt).

Când un utilizator nu știe unde să-l plaseze, contactează furnizorul de software pentru serverul web pentru a afla cum să acceseze rădăcina unui domeniu sau accesează consola Google și îl descarcă. Cu această funcție, Google poate verifica și dacă botul funcționează corect și lista site-urilor care au fost blocate folosind fișierul.

Formatul principal al textului Robots corect pentru bitrix (Bitrix):

  1. Legend robots.txt.
  2. , adaugă comentarii care sunt folosite numai ca note.
  3. Aceste comentarii vor fi ignorate de scanere împreună cu orice greșeli de scriere ale utilizatorului.
  4. User-agent - indică pe ce motor de căutare sunt afișate instrucțiunile pentru fișier.
  5. Adăugarea unui asterisc () le spune scanerelor că instrucțiunile sunt pentru toată lumea.

Indicând un anumit bot, de exemplu, Googlebot, Baiduspider, Applebot. Disallow le spune crawlerilor care părți ale site-ului web nu trebuie accesate cu crawlere. Arata astfel: User-agent:. Asteriscul înseamnă „toți roboții”. Cu toate acestea, puteți specifica pagini pentru anumite paginiroboții. Pentru a face acest lucru, trebuie să știți numele botului pentru care sunt setate recomandări.

Txt-ul corect al roboților pentru Yandex ar putea arăta astfel:

Txt roboți corect pentru Yandex
Txt roboți corect pentru Yandex

Dacă botul nu ar trebui să acceseze cu crawlere site-ul, îl puteți specifica, iar pentru a găsi numele agenților utilizatori, este recomandat să vă familiarizați cu capabilitățile online ale useragentstring.com.

Optimizare pagini

Optimizarea paginii
Optimizarea paginii

Următoarele două linii sunt considerate un fișier robots.txt complet, iar un singur fișier robots poate conține mai multe linii de agenți de utilizator și directive care dezactivează sau activează accesarea cu crawlere. Formatul principal al textului corect Robots:

  1. Agent utilizator: [nume utilizator agent].
  2. Disallow: [șir URL care nu este accesat cu crawlere].

În fișier, fiecare bloc de directive este afișat ca discret, separat de o linie. În fișierul de lângă directorul de utilizator al agentului, fiecare regulă este aplicată unui set specific de linii separate de secțiuni. Dacă un fișier are o regulă cu mai mulți agenți, robotul va lua în considerare doar cel mai specific grup de instrucțiuni.

Sintaxă tehnică

Sintaxă tehnică
Sintaxă tehnică

Poate fi considerat „limbajul” fișierelor robots.txt. Există cinci termeni care pot exista în acest format, principalii includ:

  1. User-agent - Crawler web cu instrucțiuni de accesare cu crawlere, de obicei un motor de căutare.
  2. Disallow este o comandă folosită pentru a spune agentului utilizator să ocolească(omisiune) unei anumite adrese URL. Există o singură condiție interzisă pentru fiecare.
  3. Permite. Pentru Googlebot care primește acces, chiar și pagina de utilizator este refuzată.
  4. Crawl-delay - specifică de câte secunde va avea nevoie crawler-ul înainte de a se accesa cu crawler. Când botul nu o confirmă, viteza este setată în consola Google.
  5. Sitemap - Folosit pentru a localiza orice hărți XML asociate cu o adresă URL.

Potriviri de model

Când vine vorba de blocarea efectivă a adreselor URL sau de a permite textul Robots valid, operațiunile pot fi destul de dificile, deoarece vă permit să utilizați potrivirea modelelor pentru a acoperi o serie de parametri URL posibili. Google și Bing folosesc ambele două caractere care identifică pagini sau subfoldere pe care SEO dorește să le excludă. Cele două caractere sunt asteriscul () și semnul dolar ($), unde:este un metacar care reprezintă orice succesiune de caractere. $ - se potrivește cu sfârșitul adresei URL.

Google oferă o listă mare de posibile sintaxe de șablon care explică utilizatorului cum să configureze corect un fișier txt Robots. Unele cazuri comune de utilizare includ:

  1. Preveniți apariția conținutului duplicat în rezultatele căutării.
  2. Păstrați toate secțiunile site-ului web private.
  3. Salvați paginile interne ale rezultatelor căutării pe baza declarației deschise.
  4. Indicați locația.
  5. Preveniți motoarele de căutare să indexeze anumitefișiere.
  6. Specificarea unei întârzieri de accesare cu crawlere pentru a opri reîncărcarea la scanarea mai multor zone de conținut în același timp.

Verificarea prezenței unui fișier robot

Dacă nu există zone pe site care să fie accesate cu crawlere, atunci robots.txt nu este deloc necesar. Dacă utilizatorul nu este sigur că acest fișier există, trebuie să introducă domeniul rădăcină și să îl introducă la sfârșitul adresei URL, cam așa: moz.com/robots.txt. O serie de roboți de căutare ignoră aceste fișiere. Cu toate acestea, de regulă, aceste crawler-uri nu aparțin motoarelor de căutare reputate. Sunt genul de spammeri, agregatori de mail și alte tipuri de roboti automatizați care se găsesc din abundență pe Internet.

Este foarte important să rețineți că utilizarea standardului de excludere a roboților nu este o măsură de securitate eficientă. De fapt, unii roboți pot începe cu pagini în care utilizatorul le setează în modul de scanare. Există mai multe părți care intră în fișierul standard de excepții. Înainte de a spune robotului pe ce pagini nu ar trebui să funcționeze, trebuie să specificați cu ce robot să vorbiți. În cele mai multe cazuri, utilizatorul va folosi o declarație simplă care înseamnă „toți roboții”.

optimizare SEO

Optimizare SEO
Optimizare SEO

Înainte de optimizare, utilizatorul trebuie să se asigure că nu blochează niciun conținut sau secțiuni ale site-ului care trebuie ocolite. Legăturile către pagini blocate de textul Robots corect nu vor fi respectate. Aceasta înseamnă:

  1. Dacă nu sunt legate de alte pagini disponibile pentru motoarele de căutare, de ex. pagini,nu sunt blocate de robots.txt sau de un meta robot, iar resursele aferente nu vor fi accesate cu crawlere și, prin urmare, nu pot fi indexate.
  2. Niciun link nu poate fi transmis de la o pagină blocată la destinația linkului. Dacă există o astfel de pagină, este mai bine să utilizați un alt mecanism de blocare decât robots.txt.

Deoarece alte pagini pot trimite direct la o pagină care conține informații personale și doriți să blocați această pagină din rezultatele căutării, utilizați o altă metodă, cum ar fi protecția prin parolă sau metadatele noindex. Unele motoare de căutare au mai mulți agenți de utilizator. De exemplu, Google folosește Googlebot pentru căutări organice și Googlebot-Image pentru căutări de imagini.

Majoritatea agenților utilizatori de la același motor de căutare urmează aceleași reguli, deci nu este nevoie să specificați directive pentru fiecare dintre mai multe crawler-uri, dar posibilitatea de a face acest lucru poate ajusta cu crawlere conținutul site-ului. Motorul de căutare memorează în cache conținutul fișierului și, de obicei, actualizează conținutul stocat în cache cel puțin o dată pe zi. Dacă utilizatorul modifică fișierul și dorește să-l actualizeze mai repede decât de obicei, poate trimite adresa URL robots.txt la Google.

Motoare de căutare

Verificarea existenței unui fișier robot
Verificarea existenței unui fișier robot

Pentru a înțelege cum funcționează corect Robots txt, trebuie să știți despre capacitățile motoarelor de căutare. Pe scurt, capacitatea lor constă în faptul că trimit „scanere”, care sunt programe carenavigarea pe internet pentru informații. Apoi stochează unele dintre aceste informații pentru a le transmite ulterior utilizatorului.

Pentru mulți oameni, Google este deja internetul. De fapt, au dreptate, deoarece aceasta este poate cea mai importantă invenție a lui. Și deși motoarele de căutare s-au schimbat foarte mult de la înființare, principiile de bază sunt încă aceleași. Crawlerele, cunoscute și ca „boți” sau „păianjeni”, găsesc pagini de pe miliarde de site-uri web. Motoarele de căutare le oferă indicații despre unde să meargă, în timp ce site-urile individuale pot comunica și cu roboții și le pot spune ce pagini anume ar trebui să se uite.

În general, proprietarii de site-uri nu doresc să apară în motoarele de căutare: pagini de administrare, portaluri backend, categorii și etichete și alte pagini de informații. Fișierul robots.txt poate fi folosit și pentru a împiedica motoarele de căutare să verifice paginile. Pe scurt, robots.txt le spune crawlerilor web ce trebuie să facă.

Ban Pagini

Aceasta este partea principală a fișierului de excludere a roboților. Cu o simplă declarație, utilizatorul îi spune unui bot sau unui grup de roboți să nu acceseze cu crawlere anumite pagini. Sintaxa este simplă, de exemplu, pentru a refuza accesul la tot ce se află în directorul „admin” al site-ului, scrieți: Disallow: /admin. Această linie va împiedica roboții să acceseze cu crawlere yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html și orice altceva din directorul admin.

Pentru a interzice o pagină, pur și simplu specificați-o în linia de respingere: Disallow: /public/exception.html. Acum pagina „excepție”.nu va migra, dar orice altceva din folderul „public” va migra.

Pentru a include mai multe pagini, enumerați-le:

Directoare și pagini
Directoare și pagini

Aceste patru rânduri ale textului robots corect pentru symphony se vor aplica oricărui agent utilizator listat în partea de sus a secțiuniirobots.txt pentru

Ban pagini
Ban pagini

Sitemap:

Alte comenzi:live - nu permite crawlerelor web să indexeze cpresources/ sau provider/.

Agent utilizator:Nu permiteți: /cpresources/.

Deny: / furnizor / Disallow: /.env.

Setarea standardelor

Utilizatorul poate specifica pagini specifice pentru diferiți roboți combinând cele două elemente anterioare, așa arată. Mai jos este prezentat un exemplu de text Robots corect pentru toate motoarele de căutare.

Stabilirea standardelor
Stabilirea standardelor

Secțiunile „admin” și „privat” vor fi invizibile pentru Google și Bing, dar Google va vedea în continuare directorul „secret”, în timp ce Bing nu va vedea. Puteți specifica reguli generale pentru toți roboții utilizând agentul utilizator asterisc și apoi să dați instrucțiuni specifice boților în secțiunile următoare. Cu cunoștințele de mai sus, utilizatorul poate scrie un exemplu de text Robots corect pentru toate motoarele de căutare. Doar porniți editorul de text preferat și spuneți-le roboților că nu sunt bineveniți în anumite părți ale site-ului.

Sfaturi pentru îmbunătățirea performanței serverului

SublimeText esteun editor de text versatil și standardul de aur pentru mulți programatori. În plus, sfaturile sale de programare se bazează pe o codificare eficientă. utilizatorii apreciază prezența comenzilor rapide în program. Dacă utilizatorul dorește să vadă un exemplu de fișier robots.txt, ar trebui să acceseze orice site și să adauge „/robots.txt” la sfârșit. Aici este o parte din fișierul robots.txt GiantBicycles.

Programul oferă crearea de pagini pe care utilizatorii nu doresc să le afișeze în motoarele de căutare. Și are, de asemenea, câteva lucruri exclusive despre care puțini oameni le știu. De exemplu, în timp ce fișierul robots.txt le spune roboților unde să nu meargă, fișierul sitemap face opusul și îi ajută să găsească ceea ce caută și, în timp ce motoarele de căutare probabil știu deja unde se află harta site-ului, acesta nu primește în cale.

Există două tipuri de fișiere: pagină HTML sau fișier XML. O pagină HTML este cea care arată vizitatorilor toate paginile disponibile pe un site web. În propriul său robots.txt, arată astfel: Sitemap://www.makeuseof.com/sitemap_index.xml. Dacă site-ul nu este indexat de motoarele de căutare, deși a fost accesat cu crawlere de mai multe ori de roboții web, trebuie să vă asigurați că fișierul este prezent și că permisiunile sale sunt setate corect.

În mod implicit, acest lucru se va întâmpla cu toate instalările SeoToaster, dar dacă este necesar, îl puteți reseta astfel: Fișier robots.txt - 644. În funcție de serverul PHP, dacă acest lucru nu funcționează pentru utilizator, acesta se recomandă să încercați următoarele: Fișier robots.txt - 666.

Setarea întârzierii scanării

Directiva de întârziere de ocolire informează anumitemotoarele de căutare cât de des pot indexa o pagină de pe site. Se măsoară în secunde, deși unele motoare de căutare îl interpretează ușor diferit. Unii oameni văd o întârziere de accesare cu crawlere 5 când li se spune să aștepte cinci secunde după fiecare scanare pentru a începe următoarea.

Alții interpretează acest lucru ca pe o instrucțiune de a scana doar o pagină la fiecare cinci secunde. Robotul nu poate scana mai repede pentru a conserva lățimea de bandă a serverului. Dacă serverul trebuie să se potrivească cu traficul, poate seta o întârziere de ocolire. În general, în majoritatea cazurilor, utilizatorii nu trebuie să-și facă griji în legătură cu acest lucru. Acesta este modul în care este setată întârzierea de accesare cu crawlere de opt secunde - Întârziere de accesare cu crawlere: 8.

Dar nu toate motoarele de căutare vor respecta această directivă, așa că atunci când nu permiteți pagini, puteți seta diferite întârzieri de accesare cu crawlere pentru anumite motoare de căutare. După ce toate instrucțiunile din fișier sunt configurate, îl puteți încărca pe site, mai întâi asigurați-vă că este un fișier text simplu și are numele robots.txt și poate fi găsit la yoursite.com/robots.txt.

Cel mai bun bot WordPress

Cel mai bun bot WordPress
Cel mai bun bot WordPress

Există câteva fișiere și directoare pe un site WordPress care trebuie blocate de fiecare dată. Directoarele pe care utilizatorii ar trebui să le interzică sunt directorul cgi-bin și directoarele WP standard. Unele servere nu permit accesul la directorul cgi-bin, dar utilizatorii trebuie să îl includă în directiva disallow înainte de a configura corect Robots txt WordPress

Directoare standard WordPress,care ar trebui să blocheze sunt wp-admin, wp-content, wp-includes. Aceste directoare nu conțin date care sunt inițial utile pentru motoarele de căutare, dar există o excepție, adică există un subdirector numit uploads în directorul wp-content. Acest subdirector trebuie să fie permis în fișierul robot.txt, deoarece include tot ceea ce este încărcat folosind funcția de încărcare media WP. WordPress folosește etichete sau categorii pentru a structura conținutul.

Dacă sunt folosite categorii, atunci pentru a face textul Robots corect pentru Wordpress, așa cum este specificat de producătorul programului, este necesar să blocați arhivele de etichete din căutare. Mai întâi, verifică baza de date mergând la panoul „Administrare”> „Setări”> „Link permanent”.

În mod implicit, baza este eticheta, dacă câmpul este gol: Disallow: / tag /. Dacă se folosește o categorie, atunci trebuie să dezactivați categoria din fișierul robot.txt: Disallow: /category/. În mod implicit, baza este eticheta, dacă câmpul este gol: Disallow: / tag /. Dacă se folosește o categorie, atunci trebuie să dezactivați categoria din fișierul robot.txt: Disallow: / category /.

Fișiere utilizate în principal pentru afișarea conținutului, acestea vor fi blocate de fișierul txt Robots corect pentru Wordpress:

Robots txt pentru wordpress
Robots txt pentru wordpress

Configurare de bază Joomla

Odată ce utilizatorul a instalat Joomla, trebuie să vizualizați setarea corectă a Joomla Robots txt în configurația globală, care se află în panoul de control. Unele setări de aici sunt foarte importante pentru SEO. Mai întâi găsiți numele site-ului și asigurați-vă căse folosește numele scurt al site-ului. Apoi găsesc un grup de setări în dreapta aceluiași ecran, care se numește setări SEO. Cel care va trebui să se schimbe cu siguranță este al doilea: folosește o adresă URL de rescriere.

Acest lucru sună complicat, dar practic ajută Joomla să creeze adrese URL mai curate. Cel mai vizibil dacă eliminați linia index.php din URL-uri. Dacă îl schimbați mai târziu, adresele URL se vor schimba și Google nu îi va plăcea. Cu toate acestea, atunci când schimbați această setare, trebuie să faceți mai mulți pași în același timp pentru a crea textul roboților corect pentru Joomla:

  1. Găsiți fișierul htaccess.txt în folderul rădăcină Joomla.
  2. Marcați-l ca.htaccess (fără extensie).
  3. Include numele site-ului în titlurile paginilor.
  4. Găsiți setările pentru metadate în partea de jos a ecranului de configurare globală.

Robot în cloud MODX

Robot în cloudul MODX
Robot în cloudul MODX

Anterior, MODX Cloud a oferit utilizatorilor posibilitatea de a controla comportamentul de a permite difuzarea fișierului robots.txt pe baza unei comutări din tabloul de bord. Deși acest lucru a fost util, a fost posibil să se permită accidental indexarea pe site-uri de dezvoltare/proiectare prin comutarea unei opțiuni din tabloul de bord. În mod similar, a fost ușor să dezactivați indexarea pe site-ul de producție.

Astăzi, serviciul presupune prezența fișierelor robots.txt în sistemul de fișiere, cu următoarea excepție: orice domeniu care se termină cu modxcloud.com va servi ca o directivă Disallow: / pentru toți agenții utilizatori, indiferent de prezență sau absența dosarului. Site-urile de producție care primesc trafic real de vizitatori vor trebui să-și folosească propriul domeniu dacă utilizatorul dorește să-și indexeze site-ul.

Unele organizații folosesc textul Robots corect pentru modx pentru a rula mai multe site-uri web dintr-o singură instalare folosind Contexts. Un caz în care acest lucru ar putea fi aplicat ar fi un site de marketing public combinat cu microsite-uri pentru pagini de destinație și, eventual, un intranet non-public.

În mod tradițional, acest lucru a fost dificil de realizat pentru instalările cu mai mulți utilizatori, deoarece au aceeași rădăcină de rețea. Cu MODX Cloud, acest lucru este ușor. Pur și simplu încărcați un fișier suplimentar pe un site web numit robots-intranet.example.com.txt cu următorul conținut și va bloca indexarea cu roboți care funcționează bine și toate celel alte nume de gazdă revin la fișiere standard, cu excepția cazului în care există alte noduri de nume specifice.

Robots.txt este un fișier important care ajută utilizatorul să facă linkuri către site-ul de pe Google, motoarele de căutare majore și alte site-uri web. Situat la rădăcina unui server web, fișierul indică roboților web să acceseze cu crawlere un site, să stabilească ce foldere ar trebui sau nu să indexeze, folosind un set de instrucțiuni numit Protocolul de excludere a botului. Un exemplu de text Robots corect pentru toate motoarele de căutare obots.txt este deosebit de ușor de realizat cu SeoToaster. A fost creat un meniu special pentru acesta în panoul de control, astfel încât botul nu va trebui niciodată să suprasolicită pentru a obține acces.

Recomandat: