Beranda > Internet, Tips and Trick > Mengenal Spider Search Engine

Mengenal Spider Search Engine

Spider merupakan sebuah program yang secara otomatis mengambil halaman-halaman web. Spider digunakan untuk membawa halaman-halaman situs web ke mesin pencari (search engine). Nama lain untuk program ini adalah webcrawler. Mesin pencari mengirim sebuah spider untuk mengambil dokumen (crawl) halaman web sebanyak mungkin.

Program spider mengunduh halaman web layaknya sebuah browser. perbedaannya, sebuah browser menampilkan informasi yang ada pada tiap halaman (teks dan gambar), sedangkan sebuah spider tidak memiliki bentuk komponen visual dan bekerja langsung di dasar kode HTML.

Crawler

Crawler bertugas untuk mengindeks, membuat ranking, menyusun, dan menata halaman dalam bentuk indeks terstruktur agar bisa dicari dalam waktu yang sangat cepat. Obyek dari Crawler adalah isi dari halaman, file, folder, dan direktori web, sedangkan subyek dari robot.txt adalah mesin pencari crawler.

Crawler akan berhadapan dengan robot.txt, yang akan memandu mesin pencari untuk mengindeks sebuah website. Sehingga crawler akan tahu mana halaman/folder/file yang boleh diindeks atau tidak. Semakin lengkap sebuah panduan dalam robot.txt akan lebih baik, dengan demikian robot crawler akan dengan cepat mengindeks isi website. Kebanyakan halaman situs berisi link ke halaman lain, sebuah spider dapat memulai dari manapun. Apabila ia melihat sebuah link kepada halaman lain, maka ia akan segera menuju kesana dan mengambilnya. Mesin pencari yang besar, seperti Alta Vista, mempunyai banyak spider yang bekerja secara paralel.

Sangat direkomendasikan untuk tidak menggunakan javascript pada menu utama, gunakan tag <noscript>. Hal ini dikarenakan javascript tidak bisa diambil oleh spider untuk mesin pencari. Dan semua link yang mengandung javascript akan ditolak sebagai halaman text.

Robot.txt

Robot.txt adalah sebuah file text (bukan html) yang ditempatkan pada halaman situs web untuk menginformasikan robot pencari (search robot) agar tidak mendatangi halaman tertentu. cara termudah untuk membuat sebuah robot.txt adalah dengan menggunakan generate robot yangtelah tersedia pada Webmaster Tools dari Google. Anda dapat membuat file tersebut, Anda pun dapat menggunakan analisa robot.txt sesuai dengan yang diharapkan.

Pertama, buatlah file robot.txt, selanjutnya simpan pada domain utama dengan nama robot.txt. Letakkan robot pada lokasi dimana ia akan melakukan pemeriksaan terhadap file, jika disimpan pada lokasi lain maka robot tidak akan dapat bekerja. Jika mesin pencari tidak menemukannya, maka mereka pun tidak akan mencarinya ke seluruh situs Anda demi menemukan file robot.txt. Mereka akan menyimpulkan bahwa situs Anda tidak memiliki file robot.txt. selain menggunakan Google Webmaster tools, Anda juga dapat membuatnya secara manual, dengan menggunakan editor teks, dalam bentuk sebuah file ASCII-encoded, bukan berbentuk file HTML, dan nama file harus dalam huruf kecil.

Format robot.txt

  • User-agent: Berisi aturan yang akan diikuti oleh robot.
  • Disallow: Berisi lokasi atau folder yang diinginkan untuk diblok. Untuk memblok seluruh tempat web, gunakan slash

Disallow:/

Untuk memblok direktori dan seluruh isi, formatnya:

Disallow:/folder

Untuk memblok sebuah isi halaman formatnya:

Disallow:/nama_file.html
Untuk menghapus gambar tertentu dari pencarian berdasarkan gambar Google formatnya:

User-agent: Googlebot-Image

Disallow:/images/gambar.jpg

Berikut ini merupakan sebuah contoh robot.txt:

User-agent:*
Disallow:/administrator/
Disallow:/components/
Disallow:/images/
Disallow:/includes/
Disallow:/installation/
Disallow:/language/
Disallow:/libraries/
Disallow:/media/
Disallow:/modules/
Disallow:/plugins/
Disallow:/templates/
Disallow:/tmp/
Disallow:/xmlrpc/

Dengan demikian semua robot mesin pencari tidak akan bisa mengakses langsung, mengindeks, maupun melakukan crawling terhadap folder/administrator, /components, /images, /includes, /installation, /language, /libraries, /media, /modules, /plugins, /template, /tmp, /xmlrpc.

Jika Anda masih kesulitan dalam mendefinisikan robot.txt dalam pembatasan terhadap beberapa mesin pencari, silahkan menggunakan alat kontrol secara online dengan menggunakan generator keluaran dari Mcanerin.

Jika Anda menggunakan Google Sitemaps, saat ini didalamnya sudah terdapat sebuah validator robot.txt.

  1. Mei 3, 2013 pukul 2:18 am

    Hi there, just became alert to your blog through Google, and found that it
    is truly informative. I’m going to watch out for brussels. I’ll appreciate if you
    continue this in future. A lot of people will be benefited from your writing.

    Cheers!

  2. Juli 28, 2013 pukul 10:25 am

    Greetings from Carolina! I’m bored at work so I decided to check out your blog on my iphone during lunch break. I love the information you present here and can’t wait to take a look when I get home.

    I’m amazed at how quick your blog loaded on my cell phone .. I’m not
    even using WIFI, just 3G .. Anyhow, very good blog!

  3. Agustus 4, 2013 pukul 1:57 pm

    Thanks an impressive writing dealing with Search engine ranking optimization, in addition to love plastic
    expression with the infographic products is most effective.

    It seems that home has become one of these worst suppliers carrying out web 2 .
    0 in addition to happy business. On their content material and so blogging sites, ingredients
    attempt very hard to dispose of their services or sometimes tell the public regarding results which creates each of
    us visual appeal damaging. Truthfully your
    target audience would like costless, superior tips. They want be
    familiar with parts, locations, the entire buying process, alternatively
    how to make simple an asset. Certainly how the how to realise success is to
    afford site visitors what they want: many more instructing and
    much less offer!

  4. Agustus 14, 2013 pukul 8:49 am

    It’s an amazing post designed for all the online users; they will obtain advantage from it I am sure.

  5. September 10, 2013 pukul 10:51 pm

    Oh my goodness! Amazing article dude! Many thanks, However I am going through problems with
    your RSS. I don’t know the reason why I cannot join it.

    Is there anybody else getting identical RSS problems? Anybody who knows the solution can
    you kindly respond? Thanx!!

  1. No trackbacks yet.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s