Strategi pengambilan menetapkan ukuran kesamaan antara kueri dan dokumen. Strategi-strategi ini didasarkan pada gagasan umum bahwa semakin sering istilah ditemukan dalam dokumen dan kueri, semakin "relevan" dokumen tersebut dengan kueri. Beberapa dari strategi ini menggunakan tindakan balasan untuk meringankan masalah yang terjadi karena ambiguitas yang melekat dalam bahasa-kenyataan bahwa konsep yang sama sering dapat dijelaskan dengan banyak istilah yang berbeda (misalnya, new !lork dan apel besar dapat merujuk pada konsep yang sama ). Selain itu, istilah yang sama dapat memiliki banyak definisi semantik. Strategi retrieval adalah algoritma yang mengambil query Q dan sekumpulan dokumen D1 ,D2, - - - , Dn dan mengidentifikasi Koefisien Kesamaan SC(Q,Di ) untuk setiap dokumen. (Catatan: SC adalah kependekan dari Similarity Coefficient, terkadang ditulis RSV untuk Retrieval Status Value).
Tahapan Pencarian Temu Balik Informasi adalah
1. Vector Space Mod
Baik kueri dan setiap dokumen direpresentasikan sebagai vektor dalam ruang istilah. Ukuran kesamaan antara dua vektor dihitung.
2. Probabilistic Retrieval
Probabilitas berdasarkan kemungkinan bahwa istilah akan muncul dalam dokumen yang relevan dihitung untuk masing-masing. istilah dalam koleksi. Untuk istilah yang cocok antara kueri dan dokumen, ukuran kesamaan dihitung sebagai kombinasi dari probabilitas masing-masing istilah yang cocok.
3. Jaringan Inferensi
Jaringan Bayesian digunakan untuk menyimpulkan relevansi dokumen dengan kueri. Ini didasarkan pada "bukti" dalam dokumen yang memungkinkan kesimpulan dibuat tentang relevansi dokumen. Kekuatan inferensi ini digunakan sebagai koefisien kesamaan.
4. Boolean Indexing
Skor diberikan sedemikian rupa sehingga kueri Boolean awal menghasilkan peringkat. Hal ini dilakukan dengan mengasosiasikan bobot dengan setiap istilah kueri sehingga bobot ini digunakan untuk menghitung koefisien kesamaan.
5. Latent Semantic Indexing
Kemunculan term dalam dokumen direpresentasikan dengan matriks term-document. Matriks tersebut direduksi melalui Singular Value Decomposition (SVD) untuk menyaring noise yang ditemukan dalam sebuah dokumen sehingga dua dokumen yang memiliki semantik yang sama terletak berdekatan satu sama lain dalam ruang multidimensi.
6. Neural Network
Urutan "neuron", atau simpul dalam jaringan, yang menyala saat diaktifkan oleh kueri yang memicu tautan ke dokumen. Kekuatan setiap tautan dalam jaringan ditransmisikan ke dokumen dan dikumpulkan untuk membentuk koefisien kesamaan antara kueri dan dokumen. Jaringan "dilatih" dengan menyesuaikan bobot pada tautan dalam menanggapi dokumen relevan dan tidak relevan yang telah ditentukan sebelumnya.
7. Genetic Algorithm
Permintaan optimal untuk menemukan dokumen yang relevan dapat dihasilkan oleh evolusi. Kueri awal digunakan dengan bobot istilah acak atau diperkirakan. Kueri baru dibuat dengan memodifikasi bobot ini. Kueri baru bertahan dengan berada dekat dengan dokumen relevan yang diketahui dan kueri dengan "kebugaran" yang lebih sedikit akan dihapus dari generasi berikutnya.
8. Fuzzy Set Retrieval
Sebuah dokumen dipetakan ke himpunan fuzzy (set yang tidak hanya berisi elemen tetapi juga nomor yang terkait dengan setiap elemen yang menunjukkan kekuatan keanggotaan). Kueri boolean dipetakan ke dalam himpunan fuzzy, operasi gabungan, dan operasi komplemen yang menghasilkan kekuatan keanggotaan yang terkait dengan setiap dokumen yang relevan dengan kueri. Kekuatan ini digunakan sebagai koefisien kesamaan.
Posting Komentar