Bagi para blogger yang terbiasa atau familiar dengan WordPress, tentu mengetahui bahwa jika kita membuat post dengan judul “Post Pertama”, post tersebut dapat ditemukan melalui beberapa alternatif URL.

Jika menggunakan permalink, post tersebut dapat diakses melalui permalink yang telah disetting pada wordpress. Namun post tersebut juga bisa diakses melalui :

  • /2009/11/post-pertama/ (asumsi post dibuat bulan November 2009)
  • /category/nama-category/
  • /2009/
  • /2008/11/
  • /tag/hello-world/

Semua alternatif itu bawaan dari script WordPress. Hal ini mengakibatkan post tersebut memiliki duplicat secara internal dan secara tidak langsung saling bersaing antara 1 dan lainnya di Search Engine.

Untuk mencegah hal ini kita gunakan robot.txt. Robot.txt ini digunakan untuk memberi perintah kepada robot search engine (Google) untuk meng-crawl dan meng-index sesuai dengan settingan pada robot.txt.

Berikut adalah kodeĀ  robot.txt (dapat diketik menggunakan Notepad) :

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/mu-plugins
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: /tag/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Allow: /files

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

Perintah pada robot.txt membuat robot search engine hanya meng-crawl dan meng-index post itu sendiri, tanpa mengulanginya bersama embel-embel wordpress lainnya, misalnya dengan category, tag, comment, dsbnya.