Cum să blochezi indexarea unui site în robots.txt: instrucțiuni și recomandări

Cuprins:

Cum să blochezi indexarea unui site în robots.txt: instrucțiuni și recomandări
Cum să blochezi indexarea unui site în robots.txt: instrucțiuni și recomandări
Anonim

Munca unui optimizator SEO este la scară foarte mare. Începătorii sunt sfătuiți să noteze algoritmul de optimizare pentru a nu pierde niciun pas. În caz contrar, promovarea cu greu va fi numită reușită, deoarece site-ul va experimenta în mod constant eșecuri și erori care vor trebui corectate pentru o lungă perioadă de timp.

Unul dintre pașii de optimizare este lucrul cu fișierul robots.txt. Fiecare resursă ar trebui să aibă acest document, deoarece fără el va fi mai dificil să faci față optimizării. Îndeplinește multe funcții pe care va trebui să le înțelegeți.

Asistent robot

Fișierul robots.txt este un document cu text simplu care poate fi vizualizat în Notepad-ul standard al sistemului. Când îl creați, trebuie să setați codarea la UTF-8, astfel încât să poată fi citită corect. Fișierul funcționează cu protocoalele http, https și FTP.

Acest document este un asistent pentru roboții de căutare. În cazul în care nu știți, fiecare sistem folosește „păianjeni” care accesează rapid cu crawlere World Wide Web pentru a returna site-uri relevante pentru interogări.utilizatorilor. Acești roboți trebuie să aibă acces la datele despre resurse, robots.txt funcționează pentru asta.

Pentru ca păianjenii să-și găsească drumul, trebuie să trimiteți documentul robots.txt în directorul rădăcină. Pentru a verifica dacă site-ul are acest fișier, introduceți „https://site.com.ua/robots.txt” în bara de adrese a browserului. În loc de „site.com.ua”, trebuie să introduceți resursa de care aveți nevoie.

Lucrul cu robots.txt
Lucrul cu robots.txt

Funcții de document

Fișierul robots.txt oferă crawlerilor mai multe tipuri de informații. Poate oferi acces parțial, astfel încât „păianjenul” să scaneze elemente specifice ale resursei. Accesul complet vă permite să verificați toate paginile disponibile. O interdicție completă îi împiedică pe roboți să înceapă chiar să verifice, iar aceștia părăsesc site-ul.

După ce vizitează resursa, „păianjenii” primesc un răspuns adecvat la cerere. Pot fi mai multe dintre ele, totul depinde de informațiile din robots.txt. De exemplu, dacă scanarea a avut succes, robotul va primi codul 2xx.

Poate că site-ul a fost redirecționat de la o pagină la alta. În acest caz, robotul primește codul 3xx. Dacă acest cod apare de mai multe ori, atunci păianjenul îl va urma până când primește un alt răspuns. Deși, de regulă, folosește doar 5 încercări. În caz contrar, apare populara eroare 404.

Dacă răspunsul este 4xx, atunci robotului i se permite să acceseze cu crawlere întregul conținut al site-ului. Dar în cazul codului 5xx, verificarea se poate opri complet, deoarece aceasta indică adesea erori temporare ale serverului.

Roboti de cautare
Roboti de cautare

Pentru ceaveți nevoie de robots.txt?

După cum probabil ați ghicit, acest fișier este ghidul roboților către rădăcina site-ului. Acum este folosit pentru a restricționa parțial accesul la conținut neadecvat:

  • pagini cu informații personale ale utilizatorilor;
  • site-uri oglindă;
  • rezultate de căutare;
  • formulare de trimitere a datelor etc.

Dacă nu există niciun fișier robots.txt în rădăcina site-ului, robotul va accesa cu crawlere absolut tot conținutul. În consecință, în rezultatele căutării pot apărea date nedorite, ceea ce înseamnă că atât dvs., cât și site-ul veți avea de suferit. Dacă există instrucțiuni speciale în documentul robots.txt, atunci „păianjenul” le va urma și va oferi informațiile dorite de proprietarul resursei.

Lucrul cu un fișier

Pentru a utiliza robots.txt pentru a bloca indexarea site-ului, trebuie să vă dați seama cum să creați acest fișier. Pentru a face acest lucru, urmați instrucțiunile:

  1. Creați un document în Notepad sau Notepad++.
  2. Setați extensia fișierului „.txt”.
  3. Introduceți datele și comenzile necesare.
  4. Salvați documentul și încărcați-l în rădăcina site-ului.

După cum puteți vedea, la una dintre etape este necesar să setați comenzi pentru roboți. Sunt de două tipuri: permit (Permite) și interzice (Disallow). De asemenea, unii optimizatori pot specifica viteza de accesare cu crawlere, gazda și linkul către harta paginii resursei.

Cum să închideți un site de la indexare
Cum să închideți un site de la indexare

Pentru a începe să lucrați cu robots.txt și a bloca complet indexarea site-ului, trebuie să înțelegeți și simbolurile folosite. De exemplu, într-un documentutilizați „/”, care indică faptul că întregul site este selectat. Dacă se folosește „”, atunci este necesară o secvență de caractere. În acest fel, va fi posibil să specificați un anumit folder care poate fi fie scanat, fie nu.

Funcția boților

„Pianjenii” pentru motoarele de căutare sunt diferiți, așa că dacă lucrezi pentru mai multe motoare de căutare deodată, atunci va trebui să ții cont de acest moment. Numele lor sunt diferite, ceea ce înseamnă că, dacă doriți să contactați un anumit robot, va trebui să specificați numele acestuia: „Agent utilizator: Yandex” (fără ghilimele).

Dacă doriți să setați directive pentru toate motoarele de căutare, atunci trebuie să utilizați comanda: „User Agent:” (fără ghilimele). Pentru a bloca corect indexarea site-ului folosind robots.txt, trebuie să cunoașteți specificul motoarelor de căutare populare.

Faptul este că cele mai populare motoare de căutare Yandex și Google au mai mulți roboți. Fiecare dintre ele are propriile sarcini. De exemplu, Yandex Bot și Googlebot sunt principalii „păianjeni” care accesează cu crawlere site-ul. Cunoscând toți roboții, va fi mai ușor să reglați fin indexarea resursei dvs.

Cum funcționează fișierul robots.txt
Cum funcționează fișierul robots.txt

Exemple

Deci, cu ajutorul robots.txt, puteți închide site-ul de la indexare cu comenzi simple, principalul lucru este să înțelegeți de ce aveți nevoie în mod specific. De exemplu, dacă doriți ca Googlebot să nu se apropie de resursa dvs., trebuie să îi dați comanda corespunzătoare. Va arăta astfel: „User-agent: Googlebot Disallow: /” (fără ghilimele).

Acum trebuie să înțelegem ce este în această comandă și cum funcționează. Deci "User-agent"este folosit pentru a utiliza un apel direct către unul dintre roboți. În continuare, indicăm căruia, în cazul nostru este Google. Comanda „Disallow” trebuie să înceapă pe o linie nouă și să interzică robotului să intre pe site. Simbolul barei oblice în acest caz indică faptul că toate paginile resursei sunt selectate pentru executarea comenzii.

Pentru ce este robots.txt?
Pentru ce este robots.txt?

În robots.txt, puteți dezactiva indexarea pentru toate motoarele de căutare cu o comandă simplă: „User-agent:Disallow: /” (fără ghilimele). Caracterul asterisc în acest caz indică toți roboții de căutare. În mod obișnuit, o astfel de comandă este necesară pentru a întrerupe indexarea site-ului și a începe lucrările cardinale asupra acestuia, care altfel ar putea afecta optimizarea.

Dacă resursa este mare și are multe pagini, deseori conține informații proprietare care fie nu sunt de dorit să fie dezvăluite, fie pot afecta negativ promovarea. În acest caz, trebuie să înțelegeți cum să închideți pagina de la indexare în robots.txt.

Puteți ascunde fie un folder, fie un fișier. În primul caz, trebuie să începeți din nou contactând un anumit bot sau pe toată lumea, așa că folosim comanda „User-agent”, iar mai jos specificăm comanda „Disallow” pentru un anumit folder. Va arăta astfel: „Disallow: / folder /” (fără ghilimele). În acest fel ascundeți întregul folder. Dacă conține un fișier important pe care doriți să îl afișați, atunci trebuie să scrieți comanda de mai jos: „Permite: /folder/file.php” (fără ghilimele).

Verificați fișierul

Dacă utilizați robots.txt pentru a închide site-ul de pe careAți reușit să indexați, dar nu știți dacă toate directivele au funcționat corect, puteți verifica corectitudinea lucrării.

În primul rând, trebuie să verificați din nou plasarea documentului. Amintiți-vă că trebuie să fie exclusiv în folderul rădăcină. Dacă se află în folderul rădăcină, atunci nu va funcționa. Apoi, deschideți browserul și introduceți următoarea adresă acolo: „https://site-ul dvs. com/robots.txt (fără ghilimele). Dacă primiți o eroare în browserul dvs. web, atunci fișierul nu este unde ar trebui să fie.

Cum se închide un folder de la indexare
Cum se închide un folder de la indexare

Directivele pot fi verificate în instrumente speciale care sunt folosite de aproape toți webmasterii. Vorbim despre produsele Google și Yandex. De exemplu, în Google Search Console există o bară de instrumente în care trebuie să deschideți „Crawl” și apoi să rulați „Instrumentul de inspecție a fișierelor Robots.txt”. Trebuie să copiați toate datele din document în fereastră și să începeți scanarea. Exact aceeași verificare poate fi făcută în Yandex. Webmaster.

Recomandat: