Mengenal dan memasang robots

sebagian orang pasti ada yang tidak ingin website/blognya di index oleh mesin pencari dan tidak ingin di kunjungi oleh mereka yang tidak mempunyai kepentingan terhadap isi dari websitenya dan di peruntuk oleh kalangan sendiri walaupun website mereka terkoneksi ke internet. Namun banyak orang juga menginginkan websitenya di index oleh mesin pencari dan ingin punyanya nomor satu seperti punya seorang newbie ini. Dan untuk mengatasi hal ini bagi yang mempunyai root direktori sendiri dapat memanfaatkan ROBOTS.txt dan bagi yang tidak punya root direktori bisa melihat cara mengenal dan memasang robot tips1. Sekarang mari kita langsung melihat bagaimana isi dari file ROBOTS.txt tersebut. File ROBOTS.txt memiliki dua bagian yaitu:
“USER-AGENT” dan “DISALLOW”
- perintah “USER-AGENT” ini memerlukan anda untuk menentukan nama dari robot, yang mana perintah spidering yang akan diterapkan.
Yang bisa anda terapkan adalah tanda ini * untuk menyatakan bahwa perintah spidering di terapkan pada robot manapun yang tidak dikenali pada bagian file ROBOTS.txt
- perintah “DISALLOW” akan menentukan bagian URL yang harus di abaikan (tidak boleh di index) oleh web robot.
Berikut ini adalah contoh-contoh file robots.txt. Pada penggunaannya dan terserah anda karena anda mempunyai hak mutlak atas website anda.

1.memerintahkan semua robot untuk menyingkir dari website anda:
User-agent : *
Disallow : /

2.memerintahkan salah satu robot untuk tidak mengindex website anda sedangkan robot yang lain di persilakan:
User-agent : nama robot yang di inginkan (contoh WebCrawler)
Disallow : /

3.memerintahkan semua robot untuk menyingkir dari / ~mydir / , sedangkan di rektori yang lainnya tidak di batasi:
User-agent : *
Disallow : /~mydir /

4.membiarkan WebCrawler untuk bisa mengakses semua di rektori lainnya kecuali /~mydir / , sedangkan robot yang lainnya bisa mengakses semua direktori kecuali / docs /, / private / , dan / cgi-bin / :
User-Agent : *
Disallow : / docs /
Disallow : /private/
Disallow : /cgi – bin/
User-Agent: WebCrawler
Disallow : /~mydir/
Demikianlah yang bisa anda lakukan pad file robots.txt anda namun tidak menutup kemungkinan juga untuk menghentikan semua robot-robot yang melakukan spidering ke situs anda. Pada tips selanjutnya saya akan mecoba untuk membahas masalah keamanan pada file robots.txt. dan semoga tips ini bermanfaat bagi anda..salam dari seorang newbiew.
NB: untuk mempelajari lebih lanjut tentang Robot dan Bot anda bisa melihat di http://botspot.com dan http://www.kollar.com/robot.html
dan jangan lupa ngevote aku ya :D Vote Orang Narsis

Category: ,  
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response.
0 Responses