Jak działa wyszukiwarka internetowa Google?

Wyszukiwarki realizują kilka kluczowych zadań:

  1. Crawlowanie: poszukują stron, a następnie zapoznają się z ich kodem. Czy właściciel godzi się na zaindeksowanie witryny?
  2. Zindeksowanie: oznacza to, że dana witryna WWW została dodana do bazy serwisów wyszukiwarki Google i można ją odnaleźć za jej pomocą. Najprostszym sposobem na sprawdzenie indeksacji jest skorzystanie z operatora site:adresdanejstrony.pl w polu zapytania w Google.
  3. Ocenianie: robot wyszukiwarki analizuje i ocenia zindeksowane strony pod kątem około dwustu czynników rankingowych i na tej podstawie ustala pozycję danego serwisu na frazę wysłaną przez internautę. Chodzi o słowo kluczowe wpisane w pole wyszukiwania.

Czym jest crawlowanie?

Crawlowanie jest procesem, w którym wyszukiwarka wysyła zespół robotów nazywanych pająkami w celu odnalezienia nowej lub zaktualizowanej treści. Nie chodzi wyłącznie o content tekstowy, ale również o grafikę, pliki PDF, filmy i strony internetowe. Po znalezieniu takich materiałów robot analizuje, czy może je zindeksować.

Tak dochodzi do ewentualnego zindeksowania nie tylko jednej podstrony czy też jednego pliku. Robot po znalezieniu materiału podąża za linkami, które się w nim znajdują. Oznacza to, że jeśli na danej podstronie serwisu są linki wewnętrzne prowadzące do innych podstron, m.in. w menu czy w artykułach, to robot pójdzie za nimi i w tym przypadku również sprawdzi możliwość zindeksowania materiału. To właśnie w taki sposób do indeksu trafiają zupełnie nowe treści bez konieczności ich zgłaszania wyszukiwarce Google. Kiedy robot odwiedzi np. stronę główną serwisu i wykryje, że pojawiły się URL-e do nowego contentu, uda się za tym odnośnikiem i przeanalizuje jego zawartość. Wszystkie znalezione i zindeksowane materiały trafiają do wspomnianej bazy wyszukiwarki, która brana jest pod uwagę przy prezentowaniu wyników wyszukiwania. Tzn. z nich wybierany jest najlepszy wynik, jaki pasuje do zapytania użytkownika.

Czym jest indeks wyszukiwarek?

Baza stron, w której znajdują się wszystkie zindeksowane serwisy nazywana jest indeksem. To tam przechowywane są strony, które stanowią zbiór wszystkich dotychczas odkrytych treści. Celem gromadzenia takiego indeksu jest możliwość udzielenia jak najbardziej trafionej odpowiedzi na zapytanie użytkownika Google. Algorytm wybierze, który materiał z bazy najlepiej pasuje do danej frazy.

Ranking wyszukiwarek

Po wysłaniu do wyszukiwarki Google zapytania, przeszukuje ona swój indeks, aby wyświetlić internaucie jak najbardziej trafione wyniki wyszukiwania. Algorytm, biorąc pod uwagę czynniki, które mają wpływ na pozycję w SERP-ach (Search Engine Results Page) ustali listę serwisów, które jego zdaniem najlepiej odpowiadają na postawione zapytanie. Teoretycznie, im wyżej na liście wyników znajduje się dana strona, tym użytkownik Google powinien na niej znaleźć bardziej dopasowaną odpowiedź na swoje zapytanie.

Jeśli nie chcesz, aby dany materiał na Twojej stronie został zindeksowany przez wyszukiwarki, to możesz użyć odpowiednich komend np. w kodzie strony. Ma to zastosowanie w wielu przypadkach, np. wówczas gdy dopiero projektujesz serwis, jest on dostępny online, ale nie chcesz, aby do indeksu wyszukiwarki trafiła niedopracowana wersja strony. Teoretycznie robot nie musi się stosować do Twoich wytycznych odnośnie do indeksowania, ale w przypadku zdecydowanej większości najpopularniejszych wyszukiwarek zastosowanie odpowiedniego polecenia będzie skuteczne.

W pozycjonowaniu i optymalizacji (SEO) nie wszystkie wyszukiwarki są takie same!

W Polsce zdecydowanie największy udział w rynku (ponad 95 proc.) ma wyszukiwarka Google i to głównie na niej skupiają się kampanie SEO w naszym kraju. Czy jednak te same działania podejmowane w celu dostosowania witryny do wymagań algorytmu Google nie będą skuteczne w przypadku wyszukiwarek Bing, Sezam, Yahoo czy Yandex? Otóż nie – różnią się one, a skupienie na działaniach w Google wynika wyłącznie z faktu, że wyszukiwarka ta umożliwia dotarcie do ogromnej liczby potencjalnych klientów. Nie oznacza to jednak, że optymalizacja pod Google nie wpłynie pozytywnie na widoczność witryny w innych systemach wyszukiwania.

Crawlowanie: Czy roboty wyszukiwarek mogą znaleźć Twoją stronę?

Jeśli chcesz, aby Twoja witryna WWW mogła być przeszukiwania przez roboty wyszukiwarki, to musisz poinformować algorytm o tym, że taki serwis w ogóle istnieje – dopiero wtedy strona będzie mogła się pojawić w wynikach wyszukiwania. Robotom Google wystarczy, że znajdą link do Twojej witryny w innym serwisie. Wtedy, o ile nie będzie to link z atrybutem nofollow, pająk podąży za odnośnikiem, aż trafi na Twoją witrynę i jeśli nie zablokujesz mu takiej możliwości, zapozna się z kolejnymi podstronami i je zindeksuje.

Innym sposobem na indeksację jest skorzystanie z Google Search Console. Wystarczy, że wprowadzisz w pole „Sprawdź dowolny URL” dany adres i wtedy dowiesz się, czy jest zindeksowany. Jeśli nie jest, to wtedy możesz poprosić o indeksację, co najczęściej realizowane jest dosyć szybko.

Zanim jednak dodasz swoją stronę do indeksu, sprawdź, czy aby na pewno się tam już nie znajduje. Jak to możliwe, że miałaby być już zaindeksowana, skoro nie zrobiłeś nic, aby tak się stało? Samo dodanie strony np. do katalogu firm może już być wystarczającym krokiem w tym celu. Najłatwiejszym sposobem na weryfikację, czy witryna jest już w bazie wyszukiwarki jest skorzystanie ze wspomnianego operatora site:TwojaDomena.pl – wpisz takie zapytanie do Google. Jeśli Twoja strona jest zindeksowana, to zobaczysz, jakie materiały znajdują się w indeksie. Na tej podstawie możesz też dowiedzieć się, jak wiele podstron jest już w bazie Google. Możesz użyć tego samego operatora, jeśli chcesz sprawdzić indeksację danej podstrony – zmień tylko użyty adres.

Nie widzisz wśród zindeksowanych podstron tych, które powinny się znajdować w tym indeksie? Zatem warto je dodać ręcznie za pomocą GSC.

W GSC również możesz sprawdzić, jak dokładnie wyglądają statystyki indeksacji Twojej strony, tzn. jak wiele treści zostało zindeksowanych. Aby uzyskać takie informacje, wybierz opcję „Stan”. Po jej kliknięciu zobaczysz strony zindeksowane, ale nieprzesłane do mapy witryny, natomiast zalecane jest, aby wszystkie adresy podstron znajdowały się w owej mapie.

Mapy witryny możesz dodać, klikając opcję o takiej samej nazwie, a następnie wskazując adres URL, pod którym taka mapa się znajduje. W jednej może być nie więcej niż 50 tys. adresów. Jeśli Twoja strona jest większa, to wtedy możesz dodać kilka map. Po jakimś czasie wróć do GSC i sprawdź, jakie są statystyki. Ile adresów zostało zindeksowanych? Dodanie mapy nie oznacza, że wszystkie trafią do indeksu.

Co natomiast masz zrobić w przypadku, gdy Twojej strony nie ma w indeksie wyszukiwarki i nie wiesz, z czego to wynika? Przyczyn takiej sytuacji może być wiele, a wśród nich wymienić można:

  • Robot wyszukiwarki jeszcze do niej nie dotarł, strona jest nowa.
  • Do Twojej strony nie prowadzą żadne linki umieszczone w innych serwisach.
  • Na Twojej stronie znajduje się kod, który blokuje robotom możliwość indeksowania witryny. Mogła zostawić go firma, która projektowała serwis – ustawiła blokadę na czas realizacji, ale zapomniała ją później zdjąć.
  • Twoja strona dostała bana od Google za praktyki, które są niezgodne z zaleceniami tej wyszukiwarki.
  • Źle została wdrożona nawigacja w witrynie.

Poinstruuj roboty wyszukiwarek, jak mają crawlować Twoją stronę

Jeśli widzisz, że w indeksie Google nie ma podstron, które chcesz, aby tam się znajdowały albo wręcz odwrotnie – pojawiły się materiały, których nie miało być, to spróbuj znaleźć tego przyczynę i rozwiązać problem. Google zapewnia niezbędne narzędzia SEO, które umożliwiają blokowanie wybranych adresów lub wręcz przeciwnie, jak już wspominaliśmy, indeksowanie tych, które chcesz, aby znalazły się w bazie wyszukiwarki. Zdarza się, że na serwerze, na którym jest serwis, umieścisz istotny plik, który był jednak przeznaczony wyłącznie dla kilku adresatów. Tymczasem Google go zindeksowało i stał się dostępny dla wszystkich odbiorców. Jeśli chcesz zablokować możliwość dodawania danych materiałów na swojej stronie do indeksu, to umieść odpowiedni kod w pliku robots.txt.

Robots.txt

Zadaniem pliku robots.txt jest informowanie robotów wyszukiwarek o tym, które foldery czy strony mają być w Twoim serwisie indeksowane, a w przypadku których chcesz zablokować ową indeksację. Co więcej, korzystając ze specjalnych dyrektyw, możesz również określić prędkość crawlowania. Czy jednak aby na pewno roboty wyszukiwarek zareagują na wytyczne umieszczone w tym pliku? Jeśli chodzi o wszystkie najpopularniejsze systemy, to możesz mieć co do tego pewność.

Jak robot Google traktuje plik robots.txt?

Kiedy robot trafi na Twoją stronę, to jej sprawdzanie zacznie od pliku robots.txt. Obecność tego pliku na serwerze nie jest konieczna – jeśli go nie będzie, to wtedy robot automatycznie przejdzie do crawlowania Twojej witryny. Natomiast, jeśli przy próbie uzyskania dostępu do pliku TXT napotka na błąd, to wtedy nie rozpocznie indeksowania. W sytuacji jednak gdy plik będzie dostępny, to robot najczęściej będzie działać zgodnie z sugestiami, które dla niego przygotowałeś.

Optymalizuj pod kątem budżetu crawlowania (crawl budget)

Robot Google nie będzie crawlował Twojej witryny w nieskończoność. Przed opuszczeniem strony przeanalizuje on pewną liczbę URL-i, a średnia ich liczba, którą scrawluje podczas jednej wizyty nazywana jest crawl budgetem. Skoro robot nie odwiedzi wszystkich podstron, to oczywiście powinno Ci zależeć na tym, aby nie wykorzystywał on swoich zasobów na analizowanie adresów, które z Twojego punktu widzenia nie mają znaczenia. W SEO jest to istotne, szczególnie w przypadku bardzo dużych witryn, które składają się z ogromnych ilości podstron i są często aktualizowane. Dlatego dobrym krokiem jest zablokowanie dostępu do tych stron, które nie są ważne.

Jak już wiesz, wszystkie popularne wyszukiwarki będą działać zgodnie z rekomendacjami, które dodasz do pliku robots.txt. Pamiętaj jednak, że w sieci działają nie tylko crawlery, o których mowa, ale również rozwiązania, których zadaniem jest masowe zbieranie danych w nielegalnych celach. W wielu przypadkach nie zareagują one na dyrektywy umieszczone w pliku – mogą zaindeksować dane, które nie chcesz, aby trafiły do sieci. Dlatego najlepiej nie podawaj w robots.txt odnośników do podstron z takimi materiałami. Wykorzystaj w nich tag noindex.

Czy roboty (crawlery) mogą znaleźć wszystkie ważne treści?

Wiesz już, jak wygląda podstawowa optymalizacja pliku robots.txt i że jest to ważne w SEO. Pojawia się zatem kolejne pytanie – co możesz zrobić, aby robot wyszukiwarki był w stanie dotrzeć do danych materiałów na stronie i mógł je zrozumieć? Czy w jakikolwiek sposób możesz mu w tym pomóc? W przypadku popularnych witryn, których pozycjonowanie realizowane jest od dawna, często nowy content pojawia się w indeksie ekspresowo, wręcz po kilku minutach od zamieszczenia w serwisie, bez konieczności jakichkolwiek dodatkowych działań. Natomiast, jeśli w Twoim wypadku pozycjonowanie strony dopiero się rozpoczyna, witryna ma dosłownie kilka zinkasowanych podstron, to na indeksację możesz poczekać wiele dni. Czy aby na pewno zapewniłeś robotowi Google niezbędne warunki do tego, aby mógł zindeksować stronę? Czy będzie miał on dostęp do wszystkich podstron? To jest kluczowe pytanie, które musisz sobie zadać.

Najczęściej popełniane błędy, które sprawiają że roboty crawlujące nie mogą znaleźć podstron:

  • Wdrożenie innej nawigacji w wersji strony na urządzenia mobilne i na komputery.
  • Wykorzystanie w serwisie nawigacji innej niż umieszczona w znaczniku HTML. Przykładem jest tutaj zastosowanie JavaScriptu. Wprawdzie roboty coraz lepiej radzą sobie z jego zrozumieniem, ale w dalszym ciągu daleko do ideału. Dlatego najlepiej, aby nawigacja była umieszczona w znaczniku HTML.
  • Brak odnośnika do strony głównej w nawigacji. Miej na uwadze, że roboty wyszukiwarek docierają do poszczególnych podstron serwisu, podążając za linkami. Jeśli tych nie ma, to bot ma problem z odnalezieniem podstron.
  • Inna nawigacja przygotowana dla internautów, a inna dla robotów wyszukiwarek.

Z powyższych względów powinieneś zwrócić szczególną uwagę na przejrzystą nawigację w witrynie. Z jednej strony powinna być ona prosta dla użytkowników, ale jednocześnie zrozumiała dla robotów.

W pewnych przypadkach zmuszony będziesz zmienić adres strony. Być może nazwa marki uległa modyfikacji albo doszedłeś do wniosku, że aktualny adres nie jest taki, jakiego oczekujesz. W takiej sytuacji musisz przenieść witrynę na nowy adres, ale skąd Twoi klienci mają o tym wiedzieć? Druga sprawa: w przypadku poprzedniej domeny została przeprowadzona optymalizacja pod SEO, realizowane było pozycjonowanie – czy zmiana adresu spowoduje, że to wszystko utracisz? Na szczęście nie stanie się tak dzięki przekierowaniu 301.

Za pomocą przekierowania 301 możesz przenieść efekty pozycjonowania na nową domenę, ale uwaga: nie zyskasz w ten sposób 100 proc. mocy swojej poprzedniej domeny, dlatego miej to na uwadze. Przekierowanie 301 nazywane jest permanentnym, tzn. trwałym. Używając go, sygnalizujesz wyszukiwarce, że nowym adresem jest ten, na który ustawiłeś przekierowanie.

Przekierowanie 301 wykorzystasz nie tylko wtedy, gdy będziesz chciał zmienić domenę. Ma ono również zastosowanie w przypadku, gdy zmienia się adres danej podstrony. Np. dotąd był on następujący: https://TwojaDomena.pl/sukienki, a nowy to: https://TwojaDomena.pl/sukienki-wieczorowe.

Jeśli chcesz dodać przekierowanie 301, to nie musisz mieć specjalistycznej wiedzy. Wystarczy, że skorzystasz z dostępnych narzędzi. Możesz je ustawić w panelu zarządzania usługą hostingową – w Direct Admin, cPanel, jak i w autorskich rozwiązaniach.

Innym na to sposobem jest skorzystanie z wtyczek – wiele takich znajdziesz np. do systemu WordPress.

W pewnych przypadkach jednak możesz chcieć zmienić adres strony z tego względu, że dotychczasowa witryna straciła autorytet algorytmu, ma fatalny profil linkowy, a jej widoczność z dnia na dzień maleje. Wtedy przekierowanie nie jest dobrym rozwiązaniem, gdyż może wpłynąć negatywnie na SEO. Lepszym wyborem jest wówczas pozostawienie na starej stronie odnośnika do nowego adresu z ustawionym atrybutem nofollow. Tym sposobem poinformujesz użytkowników o zmianie adresu, ale jednocześnie nie spowodujesz, że negatywnie wpłynie to na pozycjonowanie strony na nowej domenie.

Wykorzystując przekierowanie 301, zwiększysz satysfakcję internautów, gdyż nie doprowadzisz do sytuacji, w której pod danym adresem nie znajdą oni tego, czego szukają. Pamiętaj jednak, że jeśli usuwasz podstronę, a chcesz przekierować jej moc SEO na inny adres, to wybierz materiał o zbliżonej tematyce. Zwróć również uwagę, że przekierowanie na URL o innej dzidzinie może spowodować, że dana podstrona straci swoją dotychczasową widoczność – proces pozycjonowania mógł jej przynieść znakomite wyniki, ale zmiana treści na niepowiązaną doprowadzi do ich utraty.

W przypadku gdy dana podstrona zmienia adres tylko na jakiś czas, to wtedy możesz zastosować przekierowanie tymczasowe – 302. To sugestia dla algorytmu wyszukiwarki, że wprawdzie adres wpisu się zmienił, ale wkrótce powróci poprzedni.

Uważaj na łańcuchy przekierowań!

Zdarza się, że webmasterzy tworzą wiele przekierowań z różnych domen na swoją stronę i liczą, że pozytywnie wpłynie to na widoczność ich witryny w Google. Nie przyniesie to dobrych efektów, może wręcz spowodować obniżenie widoczności, chociaż rzeczywiście kiedyś taka technika była skuteczna.

Dużym problemem jest natomiast tworzenie łańcucha przekierowań. Załóżmy, że jesteś właścicielem domen A, B, C i D. A przekierowujesz na B, B na C, a C na D. Takie działanie nie ma sensu i nie daje żadnych korzyści SEO, natomiast robot Google może się pogubić w łańcuchu takich przekierowań. Rozsądnym rozwiązaniem jest bezpośrednie przekierowanie domen A, B i C na domenę D.

Indeksowanie: Jak wyszukiwarki interpretują i przechowują Twoją stronę?

Robot może odwiedzić Twój serwis, ale mimo to nie dojdzie do zindeksowania contentu, który się tam znajduje. Witryna może nie trafić do bazy i tym samym nie będzie możliwe jej odnalezienie w wyszukiwarce. Sprawdź zatem, jak działa indeksowanie w Google.

Czy mogę sprawdzić, jak robot Google widzi moją stronę?

Robot Google widzi Twoją stronę inaczej niż użytkownik. Możesz to łatwo zweryfikować – wystarczy, że zerkniesz na wersję strony, która znajduje się w pamięci podręcznej. Nie jest ona w żaden sposób ukryta – przy poszczególnych wynikach wyszukiwania znajdziesz trójkąt – kliknij go, a wtedy zobaczysz kopię z perspektywy algorytmu Google.

Możesz również sprawdzić, jak wygląda wersja tekstowa strony – taka opcja jest nad kopią witryny. Czy w każdym przypadku taka kopia jest dostępna? Nie – zdarza się, że jej nie ma, choćby ze względu na zablokowanie tego przez właściciela witryny.

Przeglądając kopię, zwróć również uwagę na to, z jakiego dnia ona pochodzi. Jeśli wybierzesz witrynę portalu mającego dobrą reputację w Google, to będzie to często plik z tego samego dnia. Natomiast, jeśli zainteresuje Cię podstrona serwisu, dla którego nie była realizowana optymalizacja i kampania SEO, to możliwe, że robot po raz ostatni odwiedził ją nawet tygodnie temu.

Czy strony są kiedykolwiek usuwane z indeksu Google?

Content, który jest zindeksowany przez Google nie trafia do bazy na zawsze. Przyczyn takiej sytuacji może być wiele, a należą do nich:

  • Aktualne zawirowania w wynikach wyszukiwania – zdarza się, że podstrony Twojego serwisu mogą znikać i pojawiać się w SERP-ach, i tak przez dłuższy czas. Taka sytuacja może towarzyszyć m.in. aktualizacji algorytmu.
  • Dodanie na podstronie tagu noindex – przy kolejnych odwiedzinach podstrony robot Google wykona Twoją instrukcję i usunie ją z wyników wyszukiwania.
  • Utrata przez robota Google dostępu do podstrony– może to być spowodowane np. ustawieniem hasła koniecznego do jej otwarcia.
  • Błąd 404 – oznacza, że dany adres nie został odnaleziony, zatem nie istnieje. W takim przypadku algorytm usunie z Google wynik, którego już nie ma.
  • Błąd 5xx – wskazuje na błąd serwera. Strona może być niedostępna m.in. ze względu na usterkę spowodowaną zainstalowanym skryptem.
  • Zbanowanie URL‑a przez algorytm – podstrona została usunięta z wyników wyszukiwania ze względu na łamanie wytycznych, stosowanie zabronionych przez wyszukiwarkę technik. Być może pod tym adresem znajdowała się treść, która została oceniona przez algorytm jako SPAM?

Jeżeli w indeksie nie ma podstrony, która powinna się w nim znajdować, powinieneś działać. Aby przywrócić ją do bazy wyszukiwarki Google, możesz skorzystać ze wspomnianego narzędzia do sprawdzania adresów URL, które znajduje się w GSC. Jeśli tego adresu nie ma w Google, ale nie wynika to błędu, to zobaczysz taki komunikat jak poniżej. Wystarczy, że klikniesz „Poproś o zindeksowanie” i content powinien pojawić się w bazie. Jak szybko? Czasami w ciągu kilku minut, w innych przypadkach po kilku godzinach. Jeśli jednak dany URL nie trafia tam ze względu na błąd, to wtedy zobaczysz informację, na czym on polega.

Warto sprawdzić przyczynę problemu – może nią być np. brak zgody na indeksację. Rozwiązaniem w takiej sytuacji jest umożliwienie robotowi indeksacji poprzez np. usunięcie tagu noindex z podstrony.

Dyrektywy meta dla robotów

Meta dyrektywy (lub metatagi = znaczniki meta) to pewne instrukcje, dzięki którym pokazujesz wyszukiwarkom, jak powinny traktować Twoją stronę. Możesz zastosować przeróżne zalecenia, dotyczące np. tego, że dana podstrona ma nie być indeksowana albo że roboty mają nie podążać za odnośnikami znajdującymi się na niej. Najczęściej sugestie te umieszcza się za pomocą znaczników HTML, ewentualnie przez X-Robots-Tag w nagłówku HTTP.

Znaczniki meta dla robotów

Poniższe znaczniki meta umieszcza się w sekcji nagłówka dokumentu HTML na stronie. Możesz zastosować różne dyrektywy, dzięki którym osiągniesz zamierzony efekt. Oto metatagi, który są stosowanie najczęściej:

  • Noindex – jeśli algorytm wyszukiwarki na niego trafi, to wtedy będzie jednoznaczne, że ma nie zindeksować danej strony. Natomiast, w przypadku gdy znajdzie wartość toindex, wówczas indeksacja zostanie rozpoczęta. Jednak używanie tego ostatniego polecenia nie jest potrzebne – jeśli robot nie napotka na noindex, to oznacza dla niego, że może indeksować podstronę. Tag noindex ma zastosowanie przede wszystkim na stronach, na których znajduje się niskiej jakości treść lub na stronach, których po prostu nie chcesz zindeksować w Google.
  • Nofollow – umieszczenie tego tagu na stronie oznacza, że robot ma nie podążać za linkami znajdującymi się na stronie i nie przekazywać im mocy domeny. Follow wskazuje, że robot ma iść za odnośnikami i przekazywać im moc. Jednoczesne umieszczenie tagów noindex i nofollow spowoduje, że bot nie zindeksuje strony w Google.
  • Noarchive – poprzez zastosowanie tego tagu możesz się nie zgodzić na to, żeby wyszukiwarka zachowywała kopie podręczne zindeksowanych stron. Warto wziąć pod uwagę to rozwiązanie m.in. wówczas, gdy prowadzisz sklep, często zmieniasz ceny produktów i nie chcesz, aby klienci widzieli nieaktualne kwoty w wynikach wyszukiwania.

Zanim zastosujesz powyższe tagi na swojej stronie, zastanów się, czy aby na pewno oczekujesz takiego efektu, jaki dzięki nim uzyskasz. Czy chodzi Ci o to, aby dany URL nie znalazł się w indeksie Google? Wtedy użyj noindex.

Tagi x-robots

X-Robots-Tag może być elementem nagłówka HTTP odpowiedzi na żądanie określonego adresu URL. Działają w nim wszystkie dyrektywy z metatagu robots, zapewniając większą elastyczność i funkcjonalność. Za pomocą tego rozwiązania możesz blokować dostęp do podstron robotom na dużą skalę czy też blokować inne pliki niż HTML. Takich tagów nie dodaje się do kodu HTML, lecz robi się to z poziom konfiguracji serwera. Na maszynach z oprogramowaniem Apache polecenie dodajesz do pliku .htaccess.

Tagi x-robots służą do wykluczania całych folderów lub typów plików. Poniżej znajdziesz przykład kodu, który ma zastosowanie, jeśli chcesz wykluczyć indeksowanie plików PDF, które znajdują się na serwerze. Robot nie będzie również podążać za znajdującymi się w nich linkami.

<Files ~ “\.pdf$”>

Header set X-Robots-Tag “noindex, nofollow”

</Files>

To bardzo wygodne rozwiązanie – dzięki niemu nie ma konieczności dodawania odpowiedniego kodu w dziesiątkach różnych miejsc.

Aby uzyskać więcej informacji na temat metatagów Robot, zapoznaj się ze specyfikacjami metatagów Google Robots.

Porada dla użytkowników WordPressa!

Korzystasz z tego najpopularniejszego na świecie systemu CMS? Otwórz w panelu administracyjnym „Ustawienia”>„Czytanie” i sprawdź, czy box „Proś wyszukiwarki o nieindeksowanie tej witryny” jest niezaznaczony. Polecenie to blokuje dostęp robotom wyszukiwarek do Twojej strony WWW przez plik robots.txt.

Mając wiedzę na temat zasad indeksowania i crawlowania stron przez algorytm wyszukiwania, możesz uniknąć wielu potencjalnych problemów, ale jednocześnie ułatwić sobie pozycjonowanie strony, a także jej optymalizację.

Jak wyszukiwarki internetowe ustalają pozycje Twoich adresów URL?

Poszczególne wyszukiwarki po wpisaniu danego zapytania analizują swoją bazę i opierając się na algorytmie ustalają, jakie strony mają pojawić się na poszczególnych pozycjach w wynikach wyszukiwania. Oczywiście dochodzi do tego w ekspresowym tempie – już po dosłownie niecałej sekundzie możesz widzieć rezultaty swojego zapytania. Pytanie jednak – co decyduje o tym, że dana witryna pojawia się na konkretnej pozycji w rankingu?

Aby odpowiednio dopasować odpowiedzi na dane zapytanie wyszukiwarki wykorzystują swoje algorytmy. Analizują zachowane dane i na tej podstawie, biorąc pod uwagę ustalone w ramach tego algorytmu zasady, ustalają kolejność wyników wyszukiwania. Nie jest jednak tak, że Google raz określiło reguły i takie same wciąż obowiązują. Rocznie w algorytmie przeprowadzanych jest nawet około kilkuset aktualizacji, z których większość nie ma większego wpływu na wyniki wyszukiwania, ale zdarzają się i takie, które wywracają je do góry nogami. Celem kolejnych aktualizacji jest wprowadzanie poprawek jakościowych do SERP-ów. Jednym z updatów, który wprowadził największe zmiany był Pingwin, który premiował witryny, do których prowadzą wartościowe odnośniki ze stron WWW, a karał te, których profil linkowy był oparty na SPAM‑ie. Ta aktualizacja odmieniła pozycjonowanie stron w Polsce i na świecie. Zmieniło się wiele zasad, uniemożliwiono pełną automatyzację kampanii SEO, co niegdyś było realne.

Najczęściej w ramach aktualizacji Google ustala, które czynniki mają większe, a które mniejsze znaczenie. Czasami informuje o takich updatach, a czasami nie pojawia się na ten temat żadna informacja. Nie zawsze widoczność Twojej strony będzie rosła – możliwe są spadki. Dlatego zadaniem specjalistów SEO jest ciągłe analizowanie aktualizacji Google, aby proces pozycjonowania w dalszym ciągu przynosił profity.

Cele tych uaktualnień jest zmierzanie do poprawy jakości wyników wyszukiwania. Chodzi nie tylko o wykluczanie serwisów, które prowadzą kampanię SEO niezgodnie ze wskazówkami jakościowymi Google, ale przede wszystkim o lepsze dopasowanie rezultatów wyszukiwania do oczekiwań użytkownika. Zapoznaj się ze wskazówkami dotyczącymi jakości Google.

Czego chcą wyszukiwarki?

Celem wszystkich systemów, które służą do wyszukiwania danych znajdujących się w sieci jest udzielenie jak najbardziej trafionej odpowiedzi na zapytanie użytkownika. Takie wyszukiwarki są wciąż modyfikowane po to, aby można było zaprezentować internautom coraz bardziej trafione rezultaty. Ponadto wyszukiwarka uniemożliwia np. takie działania webmasterów, w wyniku których na zapytanie, które jest słowem o bardzo negatywnym wydźwięku pojawiła się strona polskiego polityka, na której fraza ta w ogóle się nie wyświetla.

Przed wyszukiwarkami stoi bardzo trudne zadanie – zrozumienia poszczególnych języków. Nie jest to łatwe w przypadku języka polskiego, w którym takie samo słowo może mieć kilka znaczeń, w zależności od kontekstu. Algorytm wyszukiwania musi rozumieć, o czym jest mowa w danym zapytaniu. Wpisującemu do wyszukiwarki słowo żelazko może chodzić o urządzenie, ale również o miejscowość, która znajduje się województwie śląskim.

Obecne wyniki wyszukiwania, które widzisz w Google są rezultatem wielu lat rozwijania tego systemu – algorytm potrafi zasugerować, kiedy mogłeś popełnić błąd w wysłanym zapytaniu i zaproponować odpowiedź na frazę kluczową pozbawioną tego błędu. Kiedyś algorytm ten działał tak, że efekt pozycjonowania strony można było zauważyć nawet dzięki bardzo częstemu używaniu danej frazy w kodzie. Wystarczyło ją wielokrotnie powtórzyć w contencie i to już dawało wyższą pozycję na dane zapytanie. Takie techniki były i oczywiście nadal są niezgodne ze wskazówkami jakościowymi. Obecnie taka optymalizacja nie przynosi żadnych efektów, a właściwie trudno takie działania w ogóle nazwać optymalizacją, gdyż nie tylko nie dają one rezultatów, ale również są dalekie od oczekiwań użytkowników. Czytanie contentu, w którym słowa kluczowe zostały wprowadzone na siłę jest utrudnieniem dla odbiorców.