A robots.txt letiltotta az indexelést
Nem lennék meglepve, ha a közeljövőben sokan találkoznának ezzel a problémával, hogy a robots.txt letiltotta az oldal feltérképezését vagy a webhelytérkép nem tartalmaz URL-t. A keresőből való eltűnés egyértelmű jelei mellett az alábbiakat tapasztalhatjuk a Google SearchConsolban:
- Megszaporodnak az érvényes figyelmeztetések
- A beküldött URL jelölése „noindex” hiba trendje megemelkedik
- A webhelytérkép beolvasása sikertelen
- A webhelytérkép nem olvasható
- A mobilos használhatóság menüpontban az érvényes oldalak száma meredeken esik.
Krekkel, hackelt oldal
A weboldal indexből való kipottyanása rendkívül komoly probléma, a SEO-s vagy a webmester elsősorban valamilyen büntetésre gondol, különösen akkor, ha egy optimalizált oldalról van szó. Van azonban egy speciális eset mely (mint utóbb kiderült) a hackelés, krekkelés elleni védelemmel van kapcsolatban.
Az én esetemben a kliens weboldalát, az elavult PHP, WordPress és pluginek miatt megtámadta egy féreg. Ezt első ránézésre hackertámadásnak gondolják a webmesterek, de lényegében egy kártékony vírusról van szó, mely teleszórta linkekkel az oldalt és létrehozott egy rakás fals aloldalt, melyet hihetetlen gyorsasággal indexelt a Google.
Weboldal védelem, de okosan
A feltört / megtámadott oldalt a készítők meglepően szakszerűtlen módon próbálták megvédeni. Az alapvetőnek tűnő WordFence helyett egy rakás egyéb plugint telepítettek:
- All in One WP Security
- Hide My WP
- IP Geo Block
- Login Wall
- User Activity Log.
Mivel az egyedi sablon miatt a WP frissítését a készítő nem vállalta, emellett a Wisual Bakery egy régebbi verziója van az oldalon, nem vettem a bátorságot ezen alkalmazások törlésére, kikapcsolására.
First mobile index
Az indexelési hiba okának kiderítésében az okozta a nehézséget, hogy jelentkezése előtt semmilyen változtatás nem történt az oldalon, mégis egyik napról a másikra azt az üzenetet kezdte küldeni a Google, hogy a robots.txt kitiltotta a feltérképezést. Az oldal indexelt, de a webhelytérkép olvashatatlan.
A szakemberek nagy része azt tanácsolta, hogy alkalmazzak jobb sitemap.xml készítőt, és javítsam a robots.txt-t.
Mondanom sem kell, hogy én is ezzel kezdtem a megoldást.
(Közben sikerült elérhetetlenné tennem a weboldalt, a telepítő könyvtár címének átírásával.)
A hiba okára a http request teszt elemzésekor derült fény.
A hiba jelentkezésének időpontja pedig összefügg azzal, hogy a Google szeptembertől a mobil indexálást helyezte előtérbe. Az oldal az asztali indexelést engedélyezte, csak az okostelefonos indexet tiltotta le, ezért jelent meg a probléma az adott időpontban.
A reqbin.com oldalon elemezve az oldalt egy „X-Frame-Options” sort találtam a Header-ben. Miután kikapcsoltam a All in One WP Security és IP Geo Block plugineket – utóbbi egyébként is marhaság – ez a sor eltűnt és a Googgle már dalolva indexálta az oldalt.
Összefoglalva
Ha a weboldal azért esik ki az indexből, mert a Google SearcConsole-ban a beküldött webhelytérkép (sitemap.xml) olvshatatlan és/vagy a robots.txt letiltja, akkor az említett fájlok ellenőrzése után érdemes az összes plugint kikapcsolni és így ellenőrizni a webhelytérkép feldolgozhatóságát, ezután a plugineket egyenként visszakapcsolva kiszűrni a hibás alkalmazást.