Bagaimana Search Engine Bekerja – Crawling & Indexing
Hi, Bersama Saya lagi Peter Kohar di hari Kamis yang cerah ini.. Hari ini kita akan belajar lagi lanjutan dari DVD StomperNet – tentang bagaimana search engine bekerja – crawling & indexing.. Semoga bermanfaat bagi Anda semua, dan bagi yang sudah mengetahuinya semoga mendapatkan ide baru atau tips baru dari DVD ini. Mari kita mulai…..
Fungsi Search Engine adalah Spidering , Indexing, dan Analisis Link. .Dan akan mengembalikan hasil berupa urutan website berdasarkan hasil yang dikerjakan oleh hasil crawling dari spider search engine tersebut. Hal yang paling pertama kita lihat dalam indexing adalah URL(uniform resources locator).
So, jadi bagaimana Search Engine menemukan website Anda :
- Submission via web form (Google)
- Submission via XML sitemap (“Big 4″)
- Paid Inclusion (Yahoo)
- Found Links (All)
Tapi pada saat ini , memasukkan website Anda ke search engine submission adalah “membuang-buang waktu” Anda. So, Peter bagaimana cara tercepat ?? Adalah dengan membuat linkback ke website kita. XML juga adalah hal yang bagus, karena dia memberikan kepada search engine one-stop “Change List” kepada page yang terupdate. Terkadang banyak yang salah dalam penggunaan XML sitemap ini, orang berpikir bahwa mereka bisa mendapatkan special priority pada halaman tertentu, XML sitemap ini tidak akan mengatakan kepada search engine halaman mana yang ingin Anda prioritaskan
Mari kita lanjutkan , kita bicara sekarang tentang spider & crawling.. Spider, robot, crawler adalah hal yang sama, hanya memiliki nama berbeda, mereka adalah software yang dikirimkan oleh search engine untuk mengecek website. Tetapi dalam website Anda ada yang di maksud dengan Follows “Robot Exclusion Protocol” (akan dibicarakan tentang hal ini di materi-materi berikutnya), dimana fungsinya adalah untuk mengatakan kepada spider search engine untuk page mana yang boleh di-cek dan tidak boleh di-cek. Setelah Spider melakukan hal ini, maka dia akan menyimpan semua informasi tersebut untuk nantinya di index.
Kencangkan sabuk pengaman Anda, sekarang kita lebih kearah technical… HTTP , Hyper Text Transfer Protocol, adalah bagian dari rule lainnya yang dipergunakan oleh spider, karena HTTP adalah bahasa rahasia dari sebuah web. Ini adalah protocol yang digunakan oleh web browser Anda, yang Anda tidak menyadari bahwa spider mengikuti protocol tersebut. Mereka memiliki HEAD Request, GET Request dan POST Request. Dalam hal ini spider mengrimkan request ke website Anda dan website Anda mejawab dengan statis code.Anda bisa mengecek server response dengan WebBug di www.cyperspyder.com (tips : gunakan HTTP/1.1 Saja), Atau Anda bisa melihatnya di Firefox dengan menggunakan pluggin “Live HTTP Headers”. ini bukan hal yang mesti Anda dalami, tapi cukup bagus jika Anda mengetahuinya sedikit tentang ini.
Request yang biasanya dilakukan oleh Spider Search Engine biasanya seperti ini :
- Get somepage.html
- Host : www.URLAnda.com
- Jika-Dimodifikasi-Sejak (Check Terakhir)
- User-Agent : (GoogleBot, etc)
Dan Biasanya respon yang akan di berikan oleh website kita adalah :
- 200 OK – server mengirimkan pagenya
- 301 – Dipindahkan secara permanen (ke URL baru)
- 302 – Ditemukan (pada URL “sementara”)
- 304 – Ditemukan (Tidak Berubah, sejak terakhir di cek)
- 404 – Tidak ditemukan / 410 Hilang
Mari kita bergerak lagi untuk topic selanjutnya, tentang parsing dan indexing.. atau apa yang terjadi setelah spider ini menemukan website kita. Pertama yang dilakukan adalah memproses website kita :
- strip out Java script
- strip out most formatting
- strip out IFRAME
- Hanya melihat beberapa tags yang sangat berarti dalam proses indexing : title, meta description keyword, H1-H6, A,IMG
Konten yang tersimpan didalam proses pengindexan. Pada dasarnya proses pengindexan hanya berdasarkan “Kata-kata”, tidak ada gambar.. Dalam proses penyimpanan link di webpage Anda, semua link yang diduplikasikan dan dengan no-follow, akan tidak disimpan di special index oleh robot search engine. Hal yang perlu Anda waspada adalah kualitas dari link Anda, jangan sampai link Anda ada yang menuju ke halaman webpage dengan status 404/410/5xx, karena akan menurunkan kualitas website Anda.
Mari kita akhiri dengan Beberapa hal yang perlu Anda ketahui,
- Search Engine tidak menyimpan web pages – mereka mengindex text di semua halamannya
- Search Engine tidak melakukan Pencarian Web – Mereka hanya mencari dalam web yang sudah ter-Index oleh mereka
Semoga bermanfaat, Saya tunggu feedback Anda di Comment.. Thanks
Ingin teman Anda mendapatkan manfaat juga? Klik disini untuk membagikannya di facebook milik AndaBaca juga tulisan lainnya :










mas Peter, ada contoh script file site map versi xml gak? Aku sempat belajar sendiri untuk submission webform google untuk indexing dan keywords yang aq inginkan. cuman saya belum tau model script yang xml. Semoga mas Kohar berkenan memberikan pencerahan kepada saya. Terima kasih banyak sebelumnya.
[Reply]
Penjelasan yang baik…buat yang masih para newbie di internet marketing kaya saya ini bisa banyak belajar.
KEEP IT UP!!!
[Reply]
Wah-wah-wah…. Mas Peter ini bukan penulis blog biasa berbasa-basi ya…. tulisannya langsung ke topik, jadi kelihatannya hanya pelajaran-pelajaran singkat saja yang mas tulis… Bagus juga sih, tapi kesannya pembaca jadi kurang akrab dengan mas….(opini pribadi) tehehehehehe…..
Anyway, informasi yang diberikan menarik sekali…. Saya banyak belajar dari mas. Terus ngeblog, ya mas….
[Reply]
trima kasih banyak nih mas peter, lagi-lagi saya dapat ilmu yang beberapa bulan ini lagi saya buru, moga mas peter selalu sukses dan tambah sukses lagi
[Reply]
@ Syamsul Alam.. Mungkin untuk lain kali saya mau sedikit berbasa basi, hehehe..
Yah mas Syamsul, semoga blog ini bisa bermanfaat bagi Anda semua.
[Reply]
@zulkifli : sama-sama mas, semoga blog ini bisa bermanfaat bagi Anda.
@Henry : semoga bisa bermanfaat bagi Anda
[Reply]
wah wah wah…beberapa kali saya tanpa sengaja membuka blog yg isinya ttg info2 yg memang sedang saya butuhkan utk membuat blog dan juga bisnis online yg lagi ‘rame’, Thx ya bung peter!
[Reply]
bagus banget mas ulasanya jadi penasaran. tap agk tau kudu mulai dari mana.
[Reply]
Ilmu yang menarik terima kasih Peter Kohar anda memang orang jenius. Saya akan coba apa yang anda berikan karena saya baru menginjakan kaki di SEO. Selama ini saya menginjakkan kaki di bumi. sekali lagi TERIMA KASIH.
[Reply]
Peter,
Selamat dan sukses ya…
Sekarang udah banyak kemajuan, bagi-bagi ya ilmunya…
Sukses selalu
Hendro Siswanto
http://www.PeluangUsaha.asia
[Reply]
Terima kasih infonya pak………… sangat bermamah kasih ilmunya…. soalnya saja masih newbie.. ternyata banyak hal yang masih perlu dipelajari
[Reply]
Terima kasih Peter…anda sudah jadi inspirasi buat saya.
Tulisan pertama di blog saya adalah mengenai Preman Internet ver 2.0.
[Reply]
aduh , banyak kata2 tingkat tinggi, jujurnya aja saya ga ngerti,
saran aja ya, boleh ga kata2nya diartikan dulu , soalnya saya bener2 gaptek..he..he
[Reply]
bagus sekali pelajarannya ms peter , tpi terus terang aku masih belum tau banget ….. thx
[Reply]
Infonya bagus banget
[Reply]