Lima W tersebuat adalah Who, What, Where, Why, dan When tentang search engine alias mesin pencarian. Kita akan mencoba mengetahui menjawab segala pertnyaan-pertanyaan diatas.
How (bagaimana), bagaimana mesin pencari bekerja?, pada dasarnya, sebuah mesin pencari menghubungkan kata-kata yang dimasukkan pada sebuah database yang diciptakan dari halaman-halaman website (sebuah indeks). Mesin pencari ini kemudian akan menghasilkan daftar URL (dan ringkasan isinya) yang dipercaya paling relevan dengan pertanyaan yang dimasukan.
Sebuah mesin pencari terdiri atas tiga bagian utama, yaitu pengindeks, indeks, dan sistem untuk menangani pertanyaan. bagian terakhir ini juga bertugas menjadi interface dan penghubung dari pertanyaan yang diajukan ke dalam indeks. Ia juga bertugas mengatur semua pertanyaan penting yang relevan dan menentukan peringkat populeritas. Tiga bagian inilah yang bergabung dan menentukan kualitas dan kecepatan mesin pencari.
Proses bagaimana kita bisa mendapatkan hasil dimulai oleh pengindeks. Pengindeks (atau sering disebut crawler) adalah program khusus yang akan melompat dari satu link ke link lain di internet. Ia akan mengikuti dan mencatat website yamg ditemukan untuk kemudian mengirimkannya kembali ke server untuk di indeks. Crawler mungkin dianggap sebagian besar orang sebagai robot kecil yang akan menjelajahi dunia cyberspace yang luas.
Versi awal crawler hanyalah mencari dan mengindeks judul website. namun , saat ini sudah lebih canggih karena mereka bisa mengindeks isi seluruh website, termasuk berbagai tipe file, seperti Adobe acrobat (PDF), dokumen microsoft office, file audio/vedio, dan bahkan metadata spesifik. Metadata merupakan informasi terstruktur yang diberikan pemilik website yang sedang diperiksa crawler. Crawler ini kemudian mengirimkan data yang ditemukan kedalam database besar yang disebut indeks. Indeks ini dipecah menjadi beberapa bagian, tergantung apakah data tersebut sudah diproses dan siap digunakan oleh pengguna. Indeks mentah lebih mirip dengan daftar yang digolongkan berdasarkan domain. Mengapa ini penting?, karena langkah berikutnya untuk menciptakan indeks yang cerdas adalah dengan membalikan data base pada dasarnya, umtuk membuat daftar kata yang berhubungan dengan URL.
Proses mempelajari indeks ini juga dianggap sebagai suatu analis. algoritma google pagerank salah satu contohnya. Ia mencari link dari sebuah halaman website, anchor text di sekitar link tersebut, dan populeritas dari halaman website yang terhubung ke halaman lain untuk kemudian mengkombinasikan untuk mendapatkan relevansi dari sebuah halaman atas pertanyaan sobat.
Melalui proses analis ini, indeks kemudian ditambahkan label-label atau bentuk lain metadata (data yang berisi data). halaman bisa dilabeli karena memiliki bahasa tertentu, atau berhubungan dengan kelompok khusus seperti pornografi, spam, atau jarang diperbarui.
Setelah data yang didapat dari craler ini dianalisis, diindeks, dan dilabeli, semuanya dimasukan kedalam runtime index atau data base yang siap digunakan. Runtime index ini membentuk semacam jembatan penghubung antara back-end sistem (crawler indeks) dan front-end (server pertanyaan dan user interface). Server pertanyaan adalah sebuah software yang mebgirimkan pertanyaan yang diketikan user dari user interface ke runtime index, kemudian mengirim balik SERPs (search result pages) ke user interface.
Sistem harus bisa menangani variasi lokal dan masalah penggunaan kosa kata yang tidak baku. Hampir semua bahasa pemrograman memberlakukan tata bahasa yang baku dalam berkomunikasi antara manusia dan mesin. Jika kesalahan peletakan satu koma atau kesalahan ejaan satu huruf saja, program akan gagal.
Untuk menyimpulkan, tiga frase penting dalam pencarian dan ketiganya harus disesuaikan dengan ukuran dan perkembangan internet itu sendiri. Mereka harus mencari, mengindeks, dan menampilkan hasilnya. Ini bukan pekerjaan sederhana. google sendiri memiliki lebih dari 175.000 komputer yang dikhususkan untuk keperluan ini. Jumlah ini lebih banyak dari pada jumlah komputer pada awal tahun 1970-an.
Terakhir, untuk menjelaskan “bagaimana” (how) pencarian dilakukan, sangatlah penting mengetahui metode spesifik yang harus kita lakukan sebagai pencari informasi. sayang, kita pemalas biasanya. Kita mengetikan beberapa kata dan berharap mendapatkan hasil memuaskan. lebih 95% orang tidak memanfaatkan fungsi “advance search” (pencarian lanjut) yang biasanya disediakan semua mesin pencari.
Pelajaran singkat mengenai teknik pencarian lebih lanjut akan menghasilkan jawaban pencarian yang lebih baik. Kebanyakan mesin pencari menawarkan kemampuan untuk mempersempit pencarian dengan menggunakan frasa, domain, tipe file, lokasi, bahasa, dan jumlah hasil pencarian.
Who (siapa), siapa yang mencari diinternet?, jawabannya sangat mudah, yaitu hampir semua orang. Temuan lainnya adalah semakin muda dan semakin tinggi pendidikan sobat, semakin banyak pula sobat melakukan pencarian. Konsekuensi yang menarik adalah semakin banyak kita mencari, kita juga akan semakin terkoneksi, semakin digital, dan semakin bergantung pada layanan informasi.
What (apa), apa yang dicari pengguna?. Setiap hari, didunia penuh kabel ini menanyakan ratusan juta pertanyaan kepada mesin pencari. sangatlah menggoda untuk menyimpulkan bahwa rata-rata pertanyaan yang diajukan cenderung mirip, bahkan jawabannya ada diantara pertanyaan-pertanyaan tersebut. Kita umumnya menanyakan hal sama, namun cara menanyakannya berbeda-beda atau unik. Disanalah letak kekuatan pencarian. Beberapa fakta menarik dari analis Broder (A taxonomy of web search, CTO alta vista tahun 2001) tentang jawaban dan catatan data :
- hampir 15% pencari berharap mendapatkan koleksi “link bagus” dari subjek yang dicari, bukan ” dokumen yang bagus”.
- Pertanyaan berbau seksual mendominasi sekitar 12% dari catatan yang ada.
- Sekitar 25% pencari justru mencari website sepesifik yang sebenarnya sudah mereka ketahui.
- Sekitar 36% pencari berminat mencari informasi yang bersifat transaksional.
Where (kemana), Why (kenapa). Kemana mereka akan mencari informasi pertama kalinya, sekitar 85% pencari menggunakan satu dari empat portal terbesar, yaitu Microsoft, Yahoo, Google, dan AOL. Kecenderungan lainnya adalah mereka selalu menggunakan mesin pencari yang ama ketika melakukan pencarian. Untuk pertanyaan kenapa kita melakukan pencarian, terlepas dari untuk mempertahan keabadian kita, sebenarnya ada jawaban yang lebih rumit dari apa yang terlihat. singkatnya, kita melakukan pencarian untuk menemukan sesuatu.
When (kapan), istilah “kapan” dimulainya pencarian di internet dapat ditelusuri dari awal kebangkitan komputer digital pada tahun 1940 dan 1950-an. saat komputer mengambil alih pekerjaan back-office, seperti pembayaran gaji, perhitungan finansial, dan riset akedemik, intitusi mulai mengumpulkan data dalam jumlah besar. Data dikumpulkan ini tentu dapat dicari dengan mudah jika diperlukan. Terobosan ini mendorong terjadinya revolusi dalam pengambilan informasi.**
Referensi : The search, penulis Jhon Battele, tahun 2007.
Gambar : Googling