Berdasarkan hasil penelitian yang pernah SEMrush lakukan ditemukan fakta bahwa ada kurang lebih 66% website yang mudah ditemukan di SERP memiliki pengaturan yang tepat pada file robots txt.
Berdasarkan hasil penelitian yang pernah SEMrush lakukan ditemukan fakta bahwa ada kurang lebih 66% website yang mudah ditemukan di SERP memiliki pengaturan yang tepat pada file robots txt.
Sayangnya dari jumlah tersebut masih ada sekitar 19% website malah salah dalam melakukan pengaturannya, sehingga berakibat website tidak terindeks dan sulit ditemukan di halaman hasil pencarian.
Sebagai pemilik website, tentunya Anda tak mau sampai mengalami hal tersebut, kan? Itulah sebabnya, Anda wajib paham apa itu robots txt, fungsi, istilah penting, cara mengaturnya, bahkan harus bisa melakukan setting robots txt dengan benar.
Robots.txt adalah file teks sederhana yang berguna untuk mengarahkan dan memberi instruksi pada bot mesin pencari untuk melakukan crawling di halaman-halaman website.
Menggunakan file robots txt tersebut, Anda bisa menentukan mana halaman yang boleh di-crawl bot dan mana yang tidak.
Kenapa pemilik situs web perlu memberitahu Google mana saja halaman yang boleh dikunjungi bot? Alasannya karena adanya limit perayapan yang Google miliki atau crawl budget, sehingga Anda perlu menentukan prioritas halaman penting mana saja yang wajib terindeks di Google.
Biasanya, file ini akan ditempatkan di root directory website dan bisa membantu mempercepat proses Google indexing. Tanpa melakukan pengaturan yang benar, bisa-bisa website Anda membutuhkan waktu lama untuk terindeks. Kalau ini terjadi pada situs bisnis, tentunya bisa sangat merugikan.
Melakukan setting robots.txt sangat penting mengingat ada banyak fungsi dan manfaat yang akan Anda dapatkan. Beberapa di antaranya:
Anda bisa menggunakan pengaturan pada robots txt untuk memastikan halaman maupun file penting di website Anda tidak tampil di hasil pencarian. Misalnya akses masuk ke situs, halaman yang berisi database, dan sebagainya.
Contohnya URL https://domain.com/wp-admin. Ini adalah pintu masuk ke situs web Anda. Jika ini tampil di SERP, tentunya akan mengundang banyak kemungkinan terjadinya upaya masuk tanpa izin yang sudah pasti tak Anda inginkan.
Kadang ada saja hal-hal yang tak sengaja dilakukan dalam proses pembuatan konten hingga akhirnya belakangan diketahui ada duplikat konten.
Anda bisa mencegah bot Google melakukan crawling di halaman atau konten duplikat, sehingga Anda bisa menghindari penalti dari mesin pencari karena konten duplikat.
Tanpa ada proses crawling, maka tidak akan ada proses indexing. Artinya, agar halaman website bisa terindeks dan muncul di halaman hasil pencarian, bot mesin pencari harus melakukan crawl dulu di halaman tersebut.
Melakukan pengaturan robots txt dengan cara yang benar akan membantu bot bekerja lebih efisien dalam melakukan perayapan pada halaman-halaman penting yang sudah Anda tentukan.
Membatasi kerja bot dalam melakukan perayapan pada situs, termasuk saat proses indexing bisa membantu meringankan dan mengontrol akses bot agar tidak membebani bandwidth server yang Anda gunakan.
Sitemap menjadi bagian penting lainnya yang mempengaruhi kinerja situs web secara keseluruhan.
Untuk itu, Anda harus memastikan robot mesin pencari harus bisa menemukan peta situs ini. Nah, caranya ya dengan melakukan setting robots.txt.
Agar bisa menggunakan dan melakukan pengaturan file robots txt, Anda harus tahu dulu beberapa istilah penting berikut:
Istilah user-agent berguna untuk menentukan jenis / nama robot tertentu yang diizinkan melakukan crawl. Contoh: Googlebot, DuckDuckBot, Facebot, dan sebagainya
Anda bisa menggunakan perintah disallow untuk melarang bot tertentu melakukan crawling di halaman yang Anda tentukan.
Menggunakan “allow” berarti Anda memberi izin kepada bot untuk melakukan crawling dan indexing pada halaman dan folder tertentu.
Atau Anda bisa membuat bot bisa merayapi URL dan subfolder, namun tidak mengizinkan indexing pada folder utamanya, misalnya.
Crawl-delay adalah perintah untuk mengatur kecepatan bot dalam melakukan crawling.
Perintah yang menunjukkan kepada bot lokasi sitemap atau peta situs XML yang berkaitan dengan URL.
File robots txt berupa adalah file teks yang dibuat di text editor seperti notepad, berisi perintah atau instruksi yang mau Anda gunakan.
Contoh:
User-agent: * Allow:/ Disallow: /wp-admin/ Disallow: /kontak/ Disallow: /wp-includes/ Sitemap: https://domain.com/sitemap.xml
Arti perintah di atas: User-agent: * merujuk pada semua bot boleh melakukan crawl pada seluruh isi halaman website, kecuali yang di “disallow”, yaitu wp-admin, kontak, dan wp-includes. Lalu sitemap menunjukkan lokasi di mana sitemap atau peta situs berada untuk diketahui Googlebot.
Untuk mengatur file robots txt, Anda yang menggunakan website berbasis Wordpress bisa menggunakan plugin SEO, seperti Yoast, All in One SEO Pack, dan sebagainya. Caranya:
Jika ingin melakukan pengaturan manual, Anda bisa masuk ke root directory melalui FTP, kemudian buat file robots txt menggunakan text editor, dan langsung upload. Pengaturan file secara manual ini juga berlaku bagi Anda yang menggunakan website dengan CMS, seperti Drupal, Joomla, Magento, dan sebagainya.
Anda sudah memahami pengertian, fungsi, istilah, hingga apa itu file robots txt. Jika website yang Anda gunakan menggunakan Wordpress, maka pengaturan yang benar bisa mengikuti langkah-langkah berikut:
Pertama, Anda harus sudah menggunakan dan menginstal plugin Yoast SEO. Masuk saja ke menu SEO > Tools > File Editor. Langsung buat dan sesuaikan file robots txt di file editor tersebut sesuai kebutuhan.
Sebenarnya menggunakan plugin Rank Math juga kurang lebih sama langkah-langkahnya dengan dua plugin sebelumnya. Anda harus memastikan dulu plugin sudah terinstal dan sudah aktif.
Setelahnya, masuk ke menu Rank Math > General Settings > Edit robots.txt. Kemudian, sesuaikan pengaturannya.
Anda perlu membuat file robots.txt yang sesuai dengan kebutuhan terlebih dahulu di text editor, misalnya menggunakan notepad. Contoh file-nya bisa Anda lihat kembali di penjelasan yang ada di atas dalam artikel ini.
Jika sudah, unggah file tersebut ke server hosting melalui FTP atau bisa juga dengan mengontak admin / customer service hosting di mana website Anda berada.
Setelah pengaturan sudah Anda lakukan sesuai preferensi pada no. 1-4, tugas Anda belum selesai lho. Anda masih harus melakukan verifikasi file robots.txt.
Caranya: ketik “namadomain/robots.txt” di browser yang Anda gunakan untuk memastikan file sudah terunggah dengan benar.
Tahap terakhir yang juga penting, jangan lupa memasukkan sitemap dan robots.txt di Google Search Console.
Kenapa hal ini perlu? Karena Google Search Console (GSC) akan melacak halaman yang terindex, mengidentifikasi issue terkait crawling dan indexing, serta memastikan Googlebot mesin pencari bisa melakukan perayapan di semua halaman website dengan baik.
Bagaimana dengan website berbasis Blogspot? Kalau membaca penjelasan dari Pusat Penelusuran Google tentang Robots.txt, sebenarnya pengguna layanan Wix dan Blogspot tidak perlu melakukan pengaturan dan pengeditan file robots txt.
Namun kalau tetap ingin mengontrol dan menentukan file mana saja yang bisa diakses crawler, maka mau tidak mau Anda perlu melakukan pengaturan yang disesuaikan dengan kebutuhan. Caranya bisa mengikuti langkah berikut ini:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://domain.com/sitemap_index.xml
Demikian penjelasan lengkap serta Panduan Fungsi dan Setting Robots txt di Berbagai Platform. Pengaturan yang tepat pada robots txt dapat meningkatkan kinerja SEO dan membantu Googlebot fokus pada konten yang benar-benar ingin ditampilkan di hasil pencarian.
Masih kesulitan melakukan setting robots txt? Anda bisa menggunakan Jasa SEO Profesional dari salah satu digital marketing agency Indonesia atau digital agency Jakarta. Yuk, langsung hubungi Kontak Redcomm.
Atau kalau ingin tahu lebih banyak mengenai robots.txt, Anda bisa juga membaca tentang Fungsi Setting Robots Txt dan Cara Setting Robots TXT untuk Website Bisnis.
DISCOVER MORE OF WHAT MATTERS TO YOU
RELATED TOPIC