Back to Question Center
0

Semalt crawling broken links

1 answers:

id: Dr
Bot sing ora dingerteni ngubengi URL sing patah (HTTP 400) sakala maneh. Agen Panganggo sing beda-beda lan negara asal sing beda-beda.

Masalah

Iku misale jek ing paling ora sapisan seminggu, kita bakal nyedhak kacepetan HTTP 400 sing bakal diluncurake ing situs kita (kita wis mlebu log kanggo ngandhani kita). Kita bakal mriksa log ing esuk lan ana ing ngendi wae antarane 50 - 200 hits ing URL iki siji / foo / bar / item / - info auto entrepreneur forum.

Apa Kita Ngerti

URL iki katon ing meh kabeh kaca situs kita (daftar produk) nanging tansah dibentuk minangka / foo / bar / item / 857398 karo ID item integer ing pungkasan. Nalika iku kena tanpa ID, iku bener mbalang HTTP 400 Permission Invalid.

Nyenengake iki jenis laba-laba:

  • Iku cocog karo agen panganggo sing beda-beda, kaya beda antara IE6, Firefox 5 lan opera 8
  • Ndhuwur ing bursts cilik 2 - 10 panjalukan saben 30 menit
  • Ora mbukak JavaScript, amarga aku ora bisa nemokake jejak apa wae ing Google Analytics
  • Ora nyuwun sembarang gambar sing disambung ing kaca kasebut, log mung ndhaftar kaca sawise kaca, tanpa panjelasan gambar antarane
  • Iku banget asring proxy-ed kanggo persil saka negara beda (kita nggunakake Geo IP kanggo nglacak sejauh mungkin saka informasi header)
  • Iku ora ngirim sembarang HTTP_REFERER header kanggo ngetokake kaca sing ngangkat URL munggah saka

Kita wis nyelehake URL iki ing robot. txt minangka / foo / amarga ora ana subkategori URL sing kudu diindeks (meh kabeh kudu login).

Aku ilang sawise iku, isih ngetokake URL sing padha ing sakndhuwur, aku ngira-ngira iku njupuk saka saben kaca individu lan mung nyoba kanggo njupuk iku saben wektu, ana ora kaya sembarang Intelligence ing ngelingake URL sing ora bisa digunakake.

Aku ngerti iki meh mokal kanggo mandheg minangka website sidang umum sing diakses dening wong sing peduli, nanging sapa sing duwe saran ?

Aku uga ora bisa ngerti apa sing lagi ditampa kanthi algoritma sing ora efisien, utawa bisa dadi sawetara jenis bot liyane?

Nganyari

Punika $ _SERVER mbucal, kanthi ngenali informasi sing dipatroli, kabeh liya bener.

     $ _SERVER = array (
'REDIRECT_AC_HEADERS' => '','REDIRECT_SCRIPT_URL' => '/ foo / bar / item /','REDIRECT_SCRIPT_URI' =>
'http: // www. conto. com / foo / bar / item / ','REDIRECT_STATUS' => '200','AC_HEADERS' => '','SCRIPT_URL' => '/ foo / bar / item /','SCRIPT_URI' =>
'http: // www. conto. com / foo / bar / item / ','HTTP_HOST' => 'www. conto. com ','HTTP_USER_AGENT' => 'Mozilla / 5. 0 (Windows NT 5. 1; U; en) Opera
8. 01 ','HTTP_ACCEPT' =>
'teks / html, aplikasi / xhtml + xml, aplikasi / xml; q = 0. 9, * / *; q = 0. 8 ','HTTP_COOKIE' => 'frontend = sfasdfasdfasdfasdfasdfdsf;
frontend = sdfasdfasdfasdfasdfa ','HTTP_VIA' => '1. 1 localhost ','HTTP_CONNECTION' => 'Tansah-urip','PATH' => '/ usr / local / bin: / usr / bin: / bin','SERVER_SIGNATURE' => ' Apache / 2. 2. 16 (Debian) Server ing
www. conto. com Port 80   
','SERVER_SOFTWARE' => 'Apache / 2. 2. 16 (Debian) ','SERVER_NAME' => 'www. conto. com ','SERVER_ADDR' => '**. **. **. ** ','SERVER_PORT' => '80','REMOTE_ADDR' => '**. **. **. ** ','DOCUMENT_ROOT' => '/ var / www / contone. com / website / ','SERVER_ADMIN' => 'webmaster @ umpamana. com ','SCRIPT_FILENAME' => '/ var / www / contone. com / website / index. php ','REMOTE_PORT' => '51735','REDIRECT_URL' => '/ foo / bar / item /','GATEWAY_INTERFACE' => 'CGI / 1. 1 ','SERVER_PROTOCOL' => 'HTTP / 1. 1 ','REQUEST_METHOD' => 'GET','QUERY_STRING' => '','REQUEST_URI' => '/ foo / bar / item /','SCRIPT_NAME' => '/ indeks. php ','PATH_INFO' => '/ foo. baris / item / ','PHP_SELF' => '/ index. php / foo / bar / item / '
)    
February 13, 2018

Idea sampeyan ngeset 301 Redirect saka / foo / bar / item / menyang homepage utawa dhaptar utama produk (kayata kaca kategori kategori). Iki tegese:

  1. Robot bakal dijupuk kanthi otomatis menyang kaca sing bener
  2. Panganggo bakal otomatis digawa menyang kaca sing bisa dienggo
  3. Log kesalahan sampeyan kudu luwih resik
  4. Mesin telusur bakal mandheg ngangkat kaca sing rusak

Yen sampeyan wis nyiyapake Alat Webmaster, mbokmenawa bakal ditampilake ing ngisor Crawl Errors, supaya sampeyan bisa ngeklik tab "Disambung Saka" lan ndeleng manawa ana kaca sing nyambung langsung karo URL kasebut lan ndandani pranala. Sanajan sawise ngatasi pranala sing rusak, pilihan Redirect 301 isih tetep ana.