404 nie znaleziono

SEM/SEO

W zeszłym roku Internet Archive, potężne archiwum całego internetu, 4 kwietnia świętowało 404 day. W tym roku jeszcze więcej firm podjęło tę ciekawą inicjatywę, a mnie zainspirowało to do szerszego artykułu na temat statusu 404.

Kiedy uruchamiasz dowolną stronę, Twoja przeglądarka komunikuje się z serwerem, a ten odpowiada statusami. I tak kod 200 OK oznacza, że wszystko poszło dobrze, 301 oznacza, że dokument został na stałe przekierowany w inne miejsce, a z kolei 503 mówi o błędzie serwera. Z punktu widzenia SEO statusy te mają spore znaczenie we wstępnej diagnozie kondycji strony i jej optymalizacji pod roboty wyszukiwarek.

POLECAMY

Dlaczego mam się przejmować 404?

Status 404 mówi wprost: dokumentu nie znaleziono. Jeśli użytkownik lub robot wyszukiwarki trafia na taką stronę, to coś poszło nie tak. Skupmy się najpierw na samym użytkowniku. Po pierwsze istnieje duże prawdopodobieństwo, że skorzysta on z Google i, być może, nie trafi już na naszą stronę. Po drugie – jak on trafił na nasz błąd 404?
Jeśli wejście nastąpiło z innej podstrony, to oznacza, że mamy uszkodzony link (broken link) wewnętrzny. Czasem to zawiódł nasz system lub ktoś utworzył błędny link – zdarza się – i takie sytuacje z łatwością wykryjemy za pomocą dowolnego prostego crawlera, np. Sitebulb lub ScreamingFrog. Gorzej, jeśli to nasza wina, bo została usunięta jakaś treść, a linki nie zostały poprawione.
Jeśli wejście nastąpiło z innej domeny, to mamy większy problem. Jeśli było z Google, to użytkownik może od razu pomyśleć, że strona, na którą trafił, jest uszkodzona i z niej wrócić do Google. To bardzo zła sytuacja w kontekście oceny zachowania użytkownika przez wyszukiwarkę. Jeśli wejście nastąpiło z innej domeny, to albo ktoś błędnie stworzył link, więc nie mamy za bardzo na to wpływu, a do tego służy właśnie błąd 404, albo – niestety – link był poprawny, ale przestał działać wskutek zmian na naszej stronie i treść została usunięta.
Popatrzmy teraz na to samo z perspektywy GoogleBota. Ponieważ ma on ograniczone zasoby i szybkość przemierzania naszej strony w zależności od jej parametrów (tzw. crawl budget) to, niestety, właśnie go marnujemy na uszkodzone linki. W przypadku, kiedy problem dotyczy usuniętej treści, jest pewnie jeszcze gorzej, bo możemy stracić pewne zasoby. Czy ta treść na pewno powinna zostać usunięta? Czy nie należy pomyśleć o content-recyclingu, czyli jakiejś formie wykorzystania nawet już nieaktualnych treści, ale generujących ruch z Google? 
 

Rys. 1. Przykład ze strony imdb.com

 

Jeśli chcesz sprawnie usunąć treść ze strony oraz przyśpieszyć jej zniknięcie w Google stosuj status 410 GONE. Jego użycie wiąże się z mniejszą aktywnością GoogleBota na usuniętej stronie i jest to dedykowane rozwiązanie do usuwania dokumentów. Dodatkowo w narzędziu Google Search Console w sekcji Indeks znajdziesz zakładkę Usunięcia. Tam możesz zgłosić prośbę do Google o tymczasowe usunięcie treści konkretnych adresów URL. Zyskasz czas na ich fizyczne usunięcie lub wykluczenie z indeksacji. 

 

 Rys. 2. Opcje blokowania adresów URL w Google. Pamiętaj, że w drugiej zakładce możesz usunąć zawartość strony z pamięci podręcznej (cache) Google do czasu jej ponownej indeksacji

 

W przypadku uszkodzonego linku z innej domeny jest jeszcze ciekawiej dla GoogleBota, bo tu możemy naprawić swój błąd i odzyskać moc linków. Jeśli jakaś strona odnosi do Twojej, linkuje do niej, trafiając na błąd 404, to taki link nie będzie brany pod uwagę przy ocenie rankingu w bezpłatnych wynikach w Google. Jeśli jednak naprawisz taki link, budując pod docelowym adresem treść lub ustawiając tam przekierowanie 301, to odzyskasz tę moc linku.

 

Budowanie linków z błędów 404

Ta ostatnia sytuacja aż prosi się o masowe wykorzystanie. Im starsza i większa strona, tym większa szansa, że posiada dużo historycznie podlinkowanych adresów, które obecnie posiadają status 404. Wystarczy, że uruchomisz narzędzie Majestic i zaglądniesz do raportu Strony/Pages, który pokazuje wszystkie adresy URL Twojej witryny które posiadają linki z innych domen. Wyniki z tego narzędzia w postaci adresów URL przenieś do narzędzia httpstatus.io, aby sprawdzić aktualne statusy i odpowiedzi. Jeśli znajdziesz tam jakikolwiek błędnie działający link, zleć deweloperom poprawienie go lub przekierowanie na inną sensowną treść. Pamiętaj, aby stosować stałe przekierowanie 301 (rys. 3).
 

Rys. 3. Raport Pages w Majestic pokazuje najlepiej podlinkowane podstrony badanej domeny


Zatrzymajmy się jednak na chwilę i doceńmy, jak bardzo proste narzędzie httpstatus.io może nam pomóc. Zauważ, że niektóre adresy URL zwrócą inne statusy, np. przekierowania tymczasowe 302 albo całe łańcuchy przekierowań. Warto zapamiętać, że jedyne dwie akceptowalne sytuacje, które powinniśmy napotkać, to odpowiedź 200 OK lub pojedyncze przekierowanie 301 na stronę ze statusem 200 OK. Każdą inną sytuację można poprawić, oszczędzając cenny crawl budget.
Dodatkowo po uruchomieniu narzędzia httpstatus.io z opcją Canonical domain check zobaczysz wynik analizy czterech opcji uruchomienia Twojej domeny: odpowiednio z przedrostkiem http://, http://www., https:// i https://www. Idealnie skonfigurowana domena w tym teście zwróci pod jednym z przedrostków z https:// status 200, a pod pozostałymi trzema przekierowanie 301 na ten główny, dający 200. W ten sposób łączymy wszystkie wersje wywołania naszego serwisu w danej domenie. Pamiętaj, aby zawsze budować nowe linki właśnie w formie tej jednej, głównej wersji wywołania domeny (rys. 4).
 

 Rys. 4. Analizy domeny z zaznaczoną opcją Canonical domain check z idealnym wynikiem – jedną główną wersją, na którą przekierowują pozostałe


Jeśli uruchomisz swoją domenę z losowym ciągiem znaków, np.: devagroup.pl/kjsdhjdsh, to taki adres powinien zwracać właśnie status 404, nie znaleziono. Do tego właśnie został on stworzony.

Mleko się rozlało, jakie błędy widzi Google

Niestety, są gorsze błędy niż 404. Zaczynają się od piątki i dla przykładu: 508 (Loop Detected) oznacza wykrytą nieskończoną pętlę, 503 (Service Unavailable) mówi o niedostępności serwera, najczęściej z powodu przeciążenia, a najgorszy 500 (Internal Ser...

Pozostałe 70% treści dostępne jest tylko dla Prenumeratorów

Co zyskasz, kupując prenumeratę?
  • 6 drukowanych wydań magazynu Online Marketing
  • Dodatkowe artykuły niepublikowane w formie papierowej
  • Dostęp do czasopisma w wersji online
  • Dostęp do wszystkich archiwalnych wydań magazynu oraz dodatków specjalnych
  • ... i wiele więcej!
Sprawdź szczegóły

Przypisy