Definisi, Kegunaan dan Cara Membuat Robots.txt

Beberapa hari yang lalu, saya ketemu teman saya di Yahoo! chat. Setahu saya, beliau sudah cukup lama berkecimpung di dunia webmaster. Maka dari itu, saya selalu senang berbincang dengannya tentang masalah-masalah internet dengannya.

Saat chatting, dia bertanya

Bagaimana cara submit ke Search Engine? Lu biasanya pake software apa?

Pertanyaannya agak ngga nyambung dengan bayangan saya. Pake software? Hmmm… Maka dari itu saya pastikan dulu bahwa maksudnya adalah Search Engine Submission, bukan Link Directory submission atau sejenisnya. Akhirnya setelah pasti bahwa yang dia maksud adalah Search Engine Submission, maka saya akhirnya me-refer ke artikel ini.

Ternyata dia ngga terima karena artikel tersebut sangat spesifik untuk blog. Akhirnya, setelah saya cek whois nya, ternyata sudah berumur hampir 1 tahun. Hmm… jika tidak di blok oleh Robots.txt, maka pasti isi website tersebut sudah ada di index search engine.

Saya bilang, sebaiknya dia cari tahu dulu halaman mana saja yang sudah di index oleh search engine. Caranya dengan mengetik www.google.com, kemudian masukkan alamat ini ke search form:

site:www.websiteanda.com

(Contoh index BloggersGuideToSEO di Google ada disini).

Jika halaman yang di index sedikit atau tidak ada sama sekali, pastikan dulu apakah ada robots.txt, karena teman saya ini tidak menahu tentang instalasinya, karena website itu sendiri adalah hasil serah terima dari webmaster lain.

Cara mengetahui apakah website anda ada robots.txt adalah dengan mengetik:

www.domainanda.com/robots.txt.

Jika ada file yang keluar, maka berarti sudah ada jika 404 error berarti belum ada.

Ternyata robots.txt nya belum ada. Ok, saya sarankan, sebelum jauh, lebih baik buat saja robots.txt untuk memastikan Search Engine tidak dilarang masuk ke website nya.

Dia tanya, apaan tuh robots.txt? Kenapa buat sendiri? Bukannya Search Engine akan membuatkan website kita robots.txt?

Well… Robots.txt tidak dibuat sendiri oleh Search Engine dan dimasukkan ke server kita. Tapi jika tidak ada Robots.txt, biasanya memang Search Engine akan meng-index seluruh directory website anda. Ok. Definisi robots adalah sebagai berikut:

Robots.txt protocol atau robot exclusion standard, juga dikenal sebagai Robots Exclusion Protocol, adalah sebuah sistem protokol standar yang digunakan untuk membatasi web spider atau membolehkan crawler dan segala jenis web robot untuk mengakses bagian-bagian dari sebuah website. Robots ini digunakan oleh search engine untuk mengkategorikan dan mengumpulkan data dari sebuah website.

Sebenarnya untuk blog Wordpress (yang self-hosted, bukan di Wordpress.com), jika tidak ada URL yang ingin di block, cara membuat robots.txt sangat mudah.

  • Copy dan paste code di bawah ini ke notepad:
  • User-agent: *
    Disallow: /

  • Save as sebagai ‘robots’ (tanpa quote).
  • FTP file tersebut ke roots folder anda (biasanya public_html/)
  • Cek dengan mengetik www.domainanda.com/robots.txt
  • Jika ada code seperti diatas, berarti anda sudah selesai.
Untuk mengecek apakah robots anda tidak mem-block directory manapun di website anda, maka anda dapat mengecek nya dengan menggunakan Google Webmaster account anda.
  • Login ke Google Webmaster account anda.
  • Klik Tools
  • Klik Analyze Robots.txt
  • Paste code robots.txt anda di kotak form pertama.
  • Copy sitemap anda (anda bisa membuatnya dengan menggunakan software gratis ini) dan paste URL-nya website ada di form dibawah tulisan Test URLs against this robots.txt file.
  • Akan terlihat apakah ada URL yang di block atau tidak.
Jika ingin lebih spesifik, anda bisa menggunakan robots.txt dengan menggunakan tool di dalam Google Webmaster account anda. Caranya login ke account Google Webmaster, klik domain yang anda akan kelola, klik Tools dan klik Generate Robots.txt.
Di langkah satu pastikan anda Allow All Robots, kemudian pilih Action. Yang perlu dimengerti adalah bawah Allow = membolehkan search engine spider meng-index direktori di website anda, dan Block adalah melarangnya untuk mengindex direktori tertentu. Pilih direktori yang anda ingin Allow dan Block, save robots.txt dan ftp ke root folder anda.
Waktu itu teman saya agak puyeng, mudah-mudahan anda tidak. Semoga berguna.
AddThis

Category: ,  
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response.
0 Responses