“Semalt” -dan Wikipediadan iň meşhur web sahypalaryny nädip döwmeli

Dinamiki web sahypalary, islendik gyryjy işleri düzgünleşdirmek we gözegçilikde saklamak üçin robots.txt faýllaryny ulanýarlar. Bu sahypalar, blogçylaryň we marketologlaryň öz sahypalaryny döwmeginiň öňüni almak üçin web gözlemek şertleri we syýasatlary bilen goralýar. Täze başlanlar üçin web gözlemek web sahypalaryndan we web sahypalaryndan maglumatlary ýygnamak we ony okalýan formatlarda saklamak prosesi.

Dinamiki web sahypalaryndan peýdaly maglumatlary almak kyn mesele bolup biler. Maglumat çykarmak prosesini aňsatlaşdyrmak üçin web ussatlary zerur maglumatlary mümkin boldugyça çalt almak üçin robotlary ulanýarlar. Dinamiki saýtlar, döwmäge nirede rugsat berilýändigini we nirede rugsat berilmeýändigini robotlara aýdýan 'rugsat' we 'rugsat bermezlik' görkezmelerinden ybarat.

Wikipediýadan iň meşhur saýtlary gyrmak

Bu gollanma Brendan Baili tarapyndan internetden saýtlary döwmekde geçirilen mysallary öz içine alýar. Brendan Wikipediýadan iň güýçli saýtlaryň sanawyny ýygnamakdan başlady. Brendanyň esasy maksady, robot.txt düzgünlerine esaslanýan web maglumatlary çykarmak üçin açyk web sahypalaryny kesgitlemekdi. Bir sahypany ýok etjek bolsaňyz, awtorlyk hukuklarynyň bozulmazlygy üçin web sahypasynyň hyzmat şertlerine girmegi göz öňünde tutuň.

Dinamiki saýtlary döwmegiň düzgünleri

Web maglumatlary çykarmak gurallary bilen, sahypany döwmek diňe basmak meselesidir. Brendan Bailiniň Wikipediýa saýtlaryny nädip klassifikasiýa edendigi we ulanan ölçegleri barada jikme-jik derňew aşakda beýan edilýär:

Garyşyk

Brendanyň mysalyna görä, iň meşhur web sahypalary garyşyk diýip toparlara bölünip bilner. Pirog diagrammasynda düzgünleriň garyndysy bolan web sahypalary 69% -i görkezýär. Google-yň robots.txt garyşyk robots.txt-iň ajaýyp mysalydyr.

Doly rugsat beriň

Doly rugsat, beýleki tarapdan, 8% belleýär. Bu nukdaýnazardan, “Complete Allow” saýty robots.txt faýly awtomatiki programmalara ähli sahypany döwmäge mümkinçilik berýär. “SoundCloud” iň gowy mysaldyr. Doly rugsat saýtlarynyň beýleki mysallaryna şular girýär:

 • fc2.comv
 • popads.net
 • uol.com.br
 • livejasmin.com
 • 360.cn

Gurulmady

"Bellenmedik" web sahypalary, diagrammada görkezilen umumy mukdaryň 11% -ini emele getirdi. Set däl aşakdaky iki zady aňladýar: saýtlarda robots.txt faýly ýok, ýa-da saýtlarda "Ulanyjy-agent" düzgünleri ýok. Robots.txt faýlynyň "Gurulmadyk" web sahypalaryna mysallar:

 • Live.com
 • Jd.com
 • Cnzz.com

Doly rugsat berme

Sahypalary doly gadagan etmek Awtomatiki programmalaryň öz sahypalaryny gyrmagyny gadagan edýär. “Linked In”, “Complete Disallow” saýtlarynyň ajaýyp mysalydyr. Doly rugsat berilmeýän saýtlaryň beýleki mysallaryna şular girýär:

 • Naver.com
 • Facebook.com
 • Soso.com
 • Taobao.com
 • T.co

Web gözlemek maglumatlary çykarmak üçin iň oňat çözgütdir. Şeýle-de bolsa, käbir dinamiki web sahypalaryny ýok etmek size uly kynçylyklara sebäp bolup biler. Bu gollanma, robots.txt faýly barada has köp düşünmäge we geljekde ýüze çykyp biljek meseleleriň öňüni almaga kömek eder.

mass gmail