Strategi pengambilan menetapkan ukuran kesamaan antara kueri dan dokumen. Strategi-strategi ini didasarkan pada gagasan umum bahwa semakin sering istilah ditemukan dalam dokumen dan kueri, semakin "relevan" dokumen tersebut dengan kueri. Beberapa dari strategi ini menggunakan tindakan balasan untuk meringankan masalah yang terjadi karena ambiguitas yang melekat dalam bahasa-kenyataan bahwa konsep yang sama sering dapat dijelaskan dengan banyak istilah yang berbeda (misalnya, new !lork dan apel besar dapat merujuk pada konsep yang sama ). Selain itu, istilah yang sama dapat memiliki banyak definisi semantik. Strategi retrieval adalah algoritma yang mengambil query Q dan sekumpulan dokumen D1 ,D2, - - - , Dn dan mengidentifikasi Koefisien Kesamaan SC(Q,Di ) untuk setiap dokumen.  (Catatan: SC adalah kependekan dari Similarity Coefficient, terkadang ditulis RSV untuk Retrieval Status Value).


Tahapan Pencarian Temu Balik Informasi adalah

1. Vector Space Mod

Baik kueri dan setiap dokumen direpresentasikan sebagai vektor dalam ruang istilah. Ukuran kesamaan antara dua vektor dihitung.

2. Probabilistic Retrieval

Probabilitas berdasarkan kemungkinan bahwa istilah akan muncul dalam dokumen yang relevan dihitung untuk masing-masing. istilah dalam koleksi. Untuk istilah yang cocok antara kueri dan dokumen, ukuran kesamaan dihitung sebagai kombinasi dari probabilitas masing-masing istilah yang cocok.

3. Jaringan Inferensi

Jaringan Bayesian digunakan untuk menyimpulkan relevansi dokumen dengan kueri. Ini didasarkan pada "bukti" dalam dokumen yang memungkinkan kesimpulan dibuat tentang relevansi dokumen. Kekuatan inferensi ini digunakan sebagai koefisien kesamaan.

4. Boolean Indexing

Skor diberikan sedemikian rupa sehingga kueri Boolean awal menghasilkan peringkat. Hal ini dilakukan dengan mengasosiasikan bobot dengan setiap istilah kueri sehingga bobot ini digunakan untuk menghitung koefisien kesamaan.

5. Latent Semantic Indexing

Kemunculan term dalam dokumen direpresentasikan dengan matriks term-document. Matriks tersebut direduksi melalui Singular Value Decomposition (SVD) untuk menyaring noise yang ditemukan dalam sebuah dokumen sehingga dua dokumen yang memiliki semantik yang sama terletak berdekatan satu sama lain dalam ruang multidimensi.

6. Neural Network

Urutan "neuron", atau simpul dalam jaringan, yang menyala saat diaktifkan oleh kueri yang memicu tautan ke dokumen. Kekuatan setiap tautan dalam jaringan ditransmisikan ke dokumen dan dikumpulkan untuk membentuk koefisien kesamaan antara kueri dan dokumen. Jaringan "dilatih" dengan menyesuaikan bobot pada tautan dalam menanggapi dokumen relevan dan tidak relevan yang telah ditentukan sebelumnya.

7. Genetic Algorithm

Permintaan optimal untuk menemukan dokumen yang relevan dapat dihasilkan oleh evolusi. Kueri awal digunakan dengan bobot istilah acak atau diperkirakan. Kueri baru dibuat dengan memodifikasi bobot ini. Kueri baru bertahan dengan berada dekat dengan dokumen relevan yang diketahui dan kueri dengan "kebugaran" yang lebih sedikit akan dihapus dari generasi berikutnya.

8. Fuzzy Set Retrieval

Sebuah dokumen dipetakan ke himpunan fuzzy (set yang tidak hanya berisi elemen tetapi juga nomor yang terkait dengan setiap elemen yang menunjukkan kekuatan keanggotaan). Kueri boolean dipetakan ke dalam himpunan fuzzy, operasi gabungan, dan operasi komplemen yang menghasilkan kekuatan keanggotaan yang terkait dengan setiap dokumen yang relevan dengan kueri. Kekuatan ini digunakan sebagai koefisien kesamaan.

Untuk strategi pengambilan yang diberikan, banyak utilitas yang berbeda digunakan untuk meningkatkan hasil dari strategi pengambilan. Perhatikan bahwa beberapa strategi dan utilitas didasarkan pada konstruksi matematika yang sangat berbeda. Misalnya, strategi pengambilan probabilistik secara teoritis tidak boleh digunakan bersama dengan tesaurus berdasarkan model ruang vektor. Namun, mungkin saja kombinasi seperti itu dapat meningkatkan efektivitas. Kami hanya mencatat bahwa perawatan harus dilakukan ketika mencampur dan mencocokkan strategi dan utilitas yang didasarkan pada model matematika yang sangat berbeda. Mencoba memperbaiki kueri, sebagian besar utilitas ini menambah atau menghapus istilah dari kueri awal. Lainnya hanya mempersempit fokus kueri (menggunakan subdokumen atau bagian alih-alih seluruh dokumen). Kuncinya adalah bahwa masing-masing utilitas ini (walaupun jarang disajikan seperti itu) adalah utilitas plug-and-play yang harus bekerja dengan strategi pengambilan sewenang-wenang.

Post a Comment

Lebih baru Lebih lama