Pengetahuan Dasar File robots.txt

Setelah pada artikel sebelumnya dibahas mengenai kegunaan file robots.txt, pada artikel kali ini adalah mengenai dasar-dasar pengetahuan tentang robots.txt, yang diantaranya adalah sebagai berikut:

  • Pemberian nama file harus “robots.txt” (huruf kecil semua). Tidak boleh robot.txt atau Robots.txt.

  • File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”\n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.

  • Harus disimpan dalam root direktori, tidak boleh dalam sub direktori.

  • Perlu mengetahui user-agent/bot nya mesin pencari, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya mesin pencari. Berikut beberapa user-agent / bot dari mesin pencari :

    User-Agent Mesin Pencari
    googlebot Google
    msnbot MSN
    yahoo-slurp Yahoo
    teoma Ask / Teoma
    gigabot GigaBlast
    scrubby Scrub The Web
    robozilla Dmoz Checker
    nutch Nutch
    ia_archiever Alexa / Wayback
    baiduspider Baidu
    googlebot-image Google Image
    yahoo-mmcrawler Yaho MM
    psbot MSN pic search
    asterias singing fish
    yahoo-blogs/v3.9 Yahoo Blogs
  • Perintah dasar dari robots.txt

Contoh :

User-agent: *
Disallow:

Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot mesin pencari / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.

  • Aturan penulisan :
    • Baris Komentar
    • Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txt

      contoh :

      Salah :

      User-agent: Googlebot #untuk bot nya Google
      Disallow:

      Benar:

      #untuk bot Google
      Use-agent: Googlebot
      Disallow:

    • Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”

    • Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.

    • Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori

    • Tidak boleh ada baris kosong dalam file robots.txt
  • Contoh:

    Salah:

    Disallow: /Administrator/Module

    Benar:

    Disallow: /Administrator
    Disallow: /Module

Google:

Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”

Contoh:

User-agent: Googlebot-Image
Disallow: /*.gif$

Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.

Sumber : http://www.google.com/webmasters/remove.html

Yahoo:

Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum mesin pencari ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita

contoh:

User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20

Sumber : http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html

Ask/Teoma :

Mendukung instruksi Crawl-delaynya Yahoo

MSN:

Mendukung instruksi Crawl-Delay nya Yahoo dan juga asterik “*” Google

Category: ,  
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response.
0 Responses