Mengontrol Bot Search Engine dengan Robots.txt

Halo sobat.. Lama tak bersua di blog butut ini 😀 Hampir satu bulan tidak ada tulisan baru. Bukan karena saya malas; tapi karena sedang ada kegiatan yang menyangkut masa depan (lebay detected). Mudah-mudahan sobat semua selalu diberi kesehatan oleh-Nya.

Ok. Mari kita ke arah yang lebih serius. Menikah? Bukan. Maksudnya kembali ke judul tulisan Mengontrol Bot Search Engine dengan Robots.txt 😉 . Sebelumnya maaf, mungkin tulisan ini nanti masih agak “dangkal”, maklum, saya juga bukan seorang yang expert di bidang ini. Hanya saja, kemarin ada seorang kawan di Facebook yang bertanya tentang Robots.txt, sehingga saya merasa “harus” berbagi, meskipun dengan pengetahuan seadanya. Jadi, jika nanti ada kekurangan atau kesalahan, dimohon dengan sangat untuk mengoreksi atau menambahkan 😀

So, apa itu Robots.txt?

Anda mungkin berpikir bahwa mengontrol “spider” mesin pencari itu mustahil, padahal “lumayan mudah” loh jika mengerti sedikiiiiit saja 😉 . Nah, kita hanya memerlukan sebuah file yang disebut robots.txt. Dengan robots.txt, Anda dapat mengarahkan spider (saya lebih suka menyebut BOT) untuk mengindeks atau tidak mengindeks halaman website atau blog Anda.

Apakah robots.txt dapat meningkatkan peringkat di mesin pencari? Secara langsung? Jelas TIDAK. Lantas? mengapa harus membuang waktu berkenalan dengan robots.txt?

Tapi, secara tidak langsung, robots.txt “mungkin” bisa meningkatkan SERP website atau blog Anda. Loh? Begini, jika setting sesuai, robots.txt dapat mencegah Bot Search Engine (SE) untuk tidak mengindeks halaman yang sama (duplikat). Hal ini tentu saja menguntungkan karena memiliki duplikat konten dapat melemahkan posisi web/blog Anda di mesin pencari. Dan, jika Anda memiliki sebuah blog bermesin WordPress, coba perhatikan 1 tulisan (post) yang dibuat di blog WordPress akan muncul di halaman utama (Homepage), di halaman arsip (Archives), di halaman kategori (Categories) dan ada di halaman Tag (jika tulisan atau post tersebut Anda tambahkan Tag). Dengan bantuan robots.txt, Anda dapat memerintahkan Bot untuk mengindeks halaman yang langsung tertuju ke URL tulisan. Secara singkat, penjelasan di atas yang disebut Secara tidak langsung, Robots.txt dapat meningkatkan SERP.

Dengan bantuan robots.txt, anda dapat memberitahu Bot search engine halaman mana yang harus dan tidak harus diindeks. Penting untuk diingat, bagaimanapun, bahwa robots.txt dimaksudkan untuk digunakan dalam mencegah bot SE mengindeks halaman tertentu. Misalnya Anda memiliki File Rahasia di Hosting pribadi Anda. Entah itu file tentang sejarah NII di Indonesia, atau mungkin berkas-berkas berisi daftar puluhan ribu blog dofollow berekstensi dot edu untuk mendukung Mercedes-Benz Mobil Mewah Terbaik Indonesia (nyenggol bentar 😛 ), Anda bisa mengarahkan agar Bot SE tidak mengindeks direktori atau halaman rahasia itu. Secara sederhana, Anda akan berkata ke Google “Eh, Om Google, Tolong URL ini jangan di indeks ya? Soalnya rahasia Negara sih” :mrgreen: Begitu kira-kira 8)

Bagaimana Implementasi Robots.txt?

Untuk berhasil menggunakan robots.txt, Anda harus terlebih dahulu menentukan halaman mana yang Anda tidak ingin BOT untuk mengindeksnya. Kemudian, Anda perlu menambahkan file robots.txt ke direktori root domain Anda atau untuk subdomain Anda. Seperti domain di hxxp://domain.com/robots.txt atau untuk subdomain http://subdomain.domain.com/robots.txt. Namun, jika Anda menambahkannya ke subdirektori seperti http://www.domain.com/subdirektori/robots.txt, robots.txt tidak akan bekerja. Dengan hanya SATU file robots.txt di dalam root direktori, Anda sudah dapat mengelola SELURUH situs Anda.

Cara Membuat Robots.txt?

Membuat file robots.txt sangat sederhana. Anda hanya perlu nama file dengan nama robots.txt melalui teks editor, seperti NotePad++. File robots.txt Anda hanya perlu berisi dua baris agar menjadi efektif. Perhatikan beberapa contoh berikut:

Jika Anda ingin menghentikan Bot SE meng-crawling URL arsip di web/blog Anda, tambahkan perintah berikut ke file robots.txt Anda:

User-agent: *
Disallow: /arsip/

“User-agent” digunakan untuk mendefinisikan bot search engine mana yang ingin Anda blokir. Dengan menempatkan tanda bintang (*) di sini, Anda akan menginstruksikan bot search engine untuk menghindari semua halaman yang ditentukan. Anda bisa menentukan target bot SE khusus dengan mengganti tanda bintang dengan kode berikut:

* Google - Googlebot
* Yahoo - Slurp
* Microsoft - msnbot
* Ask - Teoma

“Disallow” menentukan bagian mana dari situs yang tidak ingin didatangi oleh bot agar tidak terindeks. Jadi, jika Anda ingin bot untuk mengabaikan URL kategori blog Anda, Anda akan menggantikan “arsip” dengan “kategori” dan seterusnya. Jika Anda ingin memerintahkan bot untuk mengabaikan beberapa bagian/URL, Anda hanya akan menambahkan “Disallow” yang baru di baris selanjutnya untuk setiap URL yang tidak ingin diindeks. Seperti:

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news

Sama seperti Disallow, Anda juga bisa mengontrol URL tertentu yang Anda ingin bot untuk mengindeks dengan bot yang lebih spesifik. Misalnya, Anda ingin bot MSN (mediabot ) untuk mengunjungi URL atau direktori tertentu. Dalam hal ini, Anda dapat menggunakan tanda bintang untuk menginstruksikan semua bot mesin pencari untuk menghindari direktori tersebut sementara menginstruksikan bot MSN untuk mengindeksnya:

User-agent: *
Disallow: /folder/
User-agent: mediabot
Allow: /folder/

Anda juga dapat menggunakan file robots.txt untuk mencegah URL dinamis agar tidak diindeks oleh bot search engine. Anda dapat melakukannya dengan template berikut:

User-agent: *
Disallow: /*&

Dengan perintah ini, Anda memerintahkan laba-laba untuk indeks hanya salah satu URL yang sesuai dengan parameter yang Anda tetapkan. Misalnya, jika Anda memiliki URL dinamis berikut:

* /mercedes-benz-mobil-mewah-terbaik-indonesia/#comments-

Perintah di atas menuyuruh bot untuk tidak mengindeks komentar yang ada dihalaman http://www.ahyari.net/mercedes-benz-mobil-mewah-terbaik-indonesia/. Sehingga, tidak terjadi duplikasi konten antara http://www.ahyari.net/mercedes-benz-mobil-mewah-terbaik-indonesia/ dengan http://www.ahyari.net/mercedes-benz-mobil-mewah-terbaik-indonesia/#comment-5736 (misalnya)

Anda dapat menggunakan strategi yang sama untuk memblokir setiap URL yang mengandung tanda tanya dengan menggunakan:

User-agent: *
Disallow: /*?

Atau, Anda dapat memblokir semua direktori yang mengandung kata tertentu dalam URL. Sebagai contoh, Anda dapat membuat file robots.txt seperti berikut:

User-agent: *
Disallow: /*download/

Dengan perintah ini, setiap halaman dengan URL yang mengandung kata “Download” tidak akan dijelajahi oleh laba-laba.

Penting sekali untuk berhati-hati bila menggunakan fungsi-fungsi di atas, salah-salah, malah memperburuk SERP jika keliru dalam memasukan perintah atau memblokirnya.

Jika Anda ingin memblokir semua, terkecuali satu atau dua halaman dengan URL yang mengandung kata tertentu, (dalam hal ini kata “download”), Anda dapat membuat file robots.txt yang secara khusus memungkinkan halaman yang ingin terindeks. Dalam hal ini, file robots.txt Anda akan terlihat seperti ini:

User-agent: *
Disallow: /*Download/
Allow: /download/free-premium-wordpress/details.html

Anda juga bisa menginstruksikan bot/spider untuk tidak mengindex seluruh folder di situs Web Anda. Namun, Anda masih bisa “menyuruh” untuk mengakses halaman tertentu di dalam folder itu. Untuk melakukan ini, Anda harus menulisnya seperti:

User-agent: *
Disallow: /kategori/
Allow: /kategori/hanya-halaman-ini.html

Penting untuk dicatat bahwa bot search engine akan mengabaikan perintah umum jika Anda memiliki satu perintah untuk bot/spider tertentu. Misalnya, jika Anda membuat robots.txt seperti:

User-agent: *
Disallow: /kategori/

User-agent: Googlebot
Disallow: /arsip/

Bot Google akan tetap mengindeks halaman kategori karena Anda memasang perintah khusus untuk Googlebot. Jadi, jika ingin bot tertentu dalam robots.txt Anda, Anda wajib menuliskan semua hal yang ingin Anda index, apa yang ingin diindex? Oleh bot siapa? Dalam contoh ini, Anda harus membuat file robots.txt berikut agar Google juga menghindari bagian kategori dan arsip sementara Anda juga menginstruksikan semua bot lain untuk menghindari bagian kategori:

User-agent: *
Disallow: /kategori/

User-agent: Googlebot
Disallow: /arsip/
Disallow: /kategori/

Jika Anda ingin bot/spider menghindari pengindeksan jenis file tertentu, Anda dapat menggunakan simbol tanda dolar ($). Misalnya, untuk menginstruksikan bot untuk menghindari file 3gp, Anda bisa menggunakan:

User-agent: *
Disallow: /*.3gp$

Anda dapat menggunakan perintah yang sama untuk semua jenis file lainnya yang mungkin ingin Anda “sembunyikan dari bot, seperti .gif$, .jpg$ atau .jpeg$.

Tips Lain tentang Robots.txt

Selain memblokir halaman tertentu agar tidak diindeks oleh mesin pencari, ada sejumlah kekhawatiran lainnya yang mungkin ada akibat robots.txt. Misalnya, jika bot search engine men-download halaman Anda terlalu cepat alias Bot SE sukaaaaa sekali bolak-balik ke website Anda sehingga menyebabkan server Anda menjadi lebih berat, Anda dapat menambahkan perintah “delay”. Ini akan memberitahu bot berapa lama waktu yang antara untuk mendownload. Secara umum, yang terbaik adalah untuk mengatur perintah ini jangan terlalu tinggi. Sebaiknya antara 0,5, atau 1 dan kemudian meningkat (jika nanti diperlukan). File robots.txt akan terlihat seperti:

User-agent: *
Crawl-delay: 0.5

Tapi, ini tidak mutlak. Tergantung seberapa sering Bot masuk (liat log file di server) 😉

Aspek lain yang penting dari file robots.txt adalah bahwa robots.txt dapat membantu Anda “membuat jalur” untuk sitemap XML anda. Dengan menambahkan baris seperti:

Sitemap: http://www.yoursitename.com/sitemap.xml

Dengan menggunakan file robots.txt seperti ini, Anda dapat mengirimkan sitemap XML anda ke search engine tanpa mendaftar dengan berbagai program yang berbeda melalui masing-masing Webmaster Tools 8)

Akhirnya, penting untuk kita sadari bersama bahwa masih ada kemungkinan mesin pencari untuk mengindeks halaman yang Anda sertakan dalam file robots.txt Anda. Ada beberapa alasan mengapa hal ini mungkin terjadi. Sebagai contoh, jika seseorang memiliki web A dan membuat link ke halaman B yang ada di web C milik Anda, padahal Anda sudah memblokir halaman B, masih ada kemungkinan bot mengindeks “akibat” melalui link dari web A itu. Mengatasinya? Letakan saja meta tag noindex halaman B.

Agak ribet yah? Saya juga bingung kalau menuliskannya 🙄 😆

Bagaimana? Ada yang ingin menambahkan atau mengkoreksi? Mari di Mari; sama-sama kita belajar 😉

34 komentar pada “Mengontrol Bot Search Engine dengan Robots.txt

  1. Using an analogy, a robots.txt file is like a sign on a property that says 'do not enter'. This sign does not stop anyone from entering that property. All it does is tell people you don't want them entering your property. If you want to stop people from entering the property, you should build a wall around it as well (ie. put things behind a login).

  2. Yang paling saya sukai adalah pancaran idealisme Mrs. Puff yang masih bisa dirasakan dengan jelas, meskipun Tante juga menyelipkan kalimat-kalimat yang agak nyeleneh. Hehe… saya nyaris gak kuat nahan ketawa lho sewaktu menemukan 'buaya darat' nyempil di salah satu paragraf! Itu spesies kok bisa nyasar ke laut sih? Emang dasar buaya, udah menguasai darat pun, laut mau diembat juga!

  3. Ijin nanya nubi soalnya Sekarang ane bingung saya setting robot TXT via SEO Ultimate (btw..Platform ane pake WP) beberapa hari bisa tampil editan yang dibuat tp beberapa hari kemuadian jika akses ke robot.txt ane keluarnya :

    sitemap: cdn.attracta.com/sitemap/1799671.xml.gz

    Mohon pencerahan gan, makasih sebelumnya..

  4. Mas caranya setting robot txt biar gag duplicaty content sama comment gimana ya
    contoh
    di-hari-mingg.html
    di-hari-minggu.html#comment
    gimana ya mas ini, mohon penjelasanya
    My recent post Cara Setting Robots.txt di Blogspot dan Webmaster

Comments are closed.