pembahsan
kali ini saya akan membahas tentang web clustering dan carrot2. Apa itu
web clustering ? dan apa itu carrot2 ? pembahasan lebih lengkapnya silakan
baca di bawah ini :
Web clustering adalah Clustering (pengelompokan dokumen) yaitu
merupakan salah satu teknik yang dapat digunakan untuk memudahkan user dalam
menemukan dokumen web yang diinginkan dari sejumlah retrieved documents yang
dihasilkan search engine. Teknik ini mengelompokkan dokumen berdasarkan
kategori tertentu, sehingga penelusuran user terhadap retrieved documents akan
lebih mengerucut. Pengelompokan ini menggunakan
Algoritma Semantic Hierarchical Online Clustering (SHOC) yang merupakan salah
satu algoritma clustering yang mengelompokkan dokumen web hasil pencarian ke
dalam cluster tertentu berdasarkan frase-frase kunci yang terdapat dalam
dokumen tersebut.
gambar software carrot2
Salah satu software yang
mengimplementasikan teknik web clustering yaitu carrot2. carrot2
adalah pencari open source hasil mesin clustering. Hal ini dapat secara
otomatis klaster koleksi kecil dokumen, hasil pencarian
misalnya atau abstrak dokumen, ke dalam kategori tematik. Selain dari dua algoritma
hasil pencarian khusus clustering, carrot² menawarkan siap digunakan komponen
untuk mengambil hasil pencarian dari berbagai sumber. Carrot2 ditulis di Java dan didistribusikan di bawah lisensi BSD .
Arsitektur carrot2 didasarkan
pada komponen pengolahan yang
disusun menjadi pipa. Dua kelompok besar atau komponen pengolahan di carrot ²
adalah: dokumen
sumber dan algoritma
clustering. Dokumen sumber menyediakan data untuk diproses
lebih lanjut. Biasanya,
mereka akan mengambil hasil pencarian dari mesin pencari eksternal, Lucene /
Solr indeks beban atau file teks dari disk lokal.
Untuk saat ini carrot² memiliki
built-in dukungan untuk sumber-sumber dokumen sebagai berikut:
- Bing Search API
- Google Search API
- Google Desktop
- Lucene indeks
- Buka Pencarian
- PubMed
- Solr Server
- eTools metasearch engine
- Generic XML file
Sumber dokumen lainnya dapat diintegrasikan berdasarkan
contoh kode yang tersedia dengan carrot distribusi. carrot² menawarkan
dua algoritma clustering dokumen khusus yang menempatkan penekanan pada
kualitas label cluster:
- Lingo : sebuah algoritma clustering berdasarkan dekomposisi nilai singular
- STC : Suffix Pohon Clustering
Carrot² clustering dapat dipanggil
melalui beberapa API yaitu :
Java API
Sedang dilaksanakan di Java, carrot² dapat diintegrasikan dengan perangkat lunak asli Java melalui Ja va API.
C # /. NET API
carrot² menyediakan asli C # API untuk memanggil pengelompokan dari C # / . NET perangkat lunak tanpa menginstal runtime Java. Carrot2 C # API membutuhkan NET Framework versi 3.5 atau yang lebih baru.
- Platform lain dapat memanggil carrot² pengelompokan melalui SISA layanan terpapar oleh Server.Clustering Dokumen. Contoh kode integrasi disediakan untuk PHP5 , C # , Ruby dan CURL
carrot²
menawarkan sejumlah mendukung alat yang dapat digunakan dengan cepat membuat
pengelompokan pada data kustom, tuning lebih lanjut dari hasil clustering dan pengelompokan
carrot2 sebagai layanan remote:
Carrot2
Dokumen Clustering Workbench
- Carrot2 Dokumen Clustering Workbench: aplikasi GUI mandiri untuk bereksperimen dengan Wortel ² pengelompokan pada data dari mesin pencari umum atau data kustom.
- Carrot2 Dokumen Clustering Server: menghadapkan Wortel ² pengelompokan sebagai sisa layanan,
- Carrot2 Command Line Interface: aplikasi yang memungkinkan memanggil Wortel ² pengelompokan dari baris perintah,
- Carrot2 Aplikasi Web: menghadapkan Wortel ² pengelompokan sebagai aplikasi web untuk pengguna akhir.