Archive for April 2012

web clustering (carrot2)


.


pembahsan kali ini saya akan membahas tentang web clustering dan carrot2. Apa itu web clustering ? dan apa itu carrot2 ? pembahasan lebih lengkapnya silakan baca di bawah ini :

Web clustering adalah Clustering (pengelompokan dokumen) yaitu merupakan salah satu teknik yang dapat digunakan untuk memudahkan user dalam menemukan dokumen web yang diinginkan dari sejumlah retrieved documents yang dihasilkan search engine. Teknik ini mengelompokkan dokumen berdasarkan kategori tertentu, sehingga penelusuran user terhadap retrieved documents akan lebih mengerucut. Pengelompokan ini menggunakan Algoritma Semantic Hierarchical Online Clustering (SHOC) yang merupakan salah satu algoritma clustering yang mengelompokkan dokumen web hasil pencarian ke dalam cluster tertentu berdasarkan frase-frase kunci yang terdapat dalam dokumen tersebut. 

gambar software carrot2

Salah satu software yang mengimplementasikan teknik web clustering yaitu carrot2. carrot2 adalah pencari open source hasil mesin clustering. Hal ini dapat secara otomatis klaster koleksi kecil dokumen, hasil pencarian misalnya atau abstrak dokumen, ke dalam kategori tematik. Selain dari dua algoritma hasil pencarian khusus clustering, carrot² menawarkan siap digunakan komponen untuk mengambil hasil pencarian dari berbagai sumber. Carrot2  ditulis di Java dan didistribusikan di bawah lisensi BSD .

Arsitektur carrot2 didasarkan pada komponen pengolahan yang disusun menjadi pipa. Dua kelompok besar atau komponen pengolahan di carrot ² adalah: dokumen sumber dan algoritma clustering. Dokumen sumber menyediakan data untuk diproses lebih lanjut. Biasanya, mereka akan mengambil hasil pencarian dari mesin pencari eksternal, Lucene / Solr indeks beban atau file teks dari disk lokal.
Untuk saat ini carrot² memiliki built-in dukungan untuk sumber-sumber dokumen sebagai berikut:
  • Bing Search API
  • Google Search API
  • Google Desktop
  • Lucene indeks
  • Buka Pencarian
  • PubMed
  • Solr Server
  • eTools metasearch engine
  • Generic XML file
Sumber dokumen lainnya dapat diintegrasikan berdasarkan contoh kode yang tersedia dengan carrot distribusi. carrot² menawarkan dua algoritma clustering dokumen khusus yang menempatkan penekanan pada kualitas label cluster:
Carrot² clustering dapat dipanggil melalui beberapa API yaitu :
  •  Java API

Sedang dilaksanakan di Java, carrot² dapat diintegrasikan dengan perangkat lunak asli Java melalui Ja va API.

  • C # /. NET API

carrot² menyediakan asli C # API untuk memanggil pengelompokan dari C # / . NET perangkat lunak tanpa menginstal runtime Java. Carrot2 C # API membutuhkan NET Framework versi 3.5 atau yang lebih baru.

  •   Platform lain dapat memanggil carrot² pengelompokan melalui SISA layanan terpapar oleh Server.Clustering Dokumen. Contoh kode integrasi disediakan untuk PHP5 , C # , Ruby dan CURL
carrot² menawarkan sejumlah mendukung alat yang dapat digunakan dengan cepat membuat pengelompokan pada data kustom, tuning lebih lanjut dari hasil clustering dan pengelompokan carrot2 sebagai layanan remote:
Carrot2 Dokumen Clustering Workbench
  • Carrot2 Dokumen Clustering Workbench: aplikasi GUI mandiri untuk bereksperimen dengan Wortel ² pengelompokan pada data dari mesin pencari umum atau data kustom.
  • Carrot2 Dokumen Clustering Server: menghadapkan Wortel ² pengelompokan sebagai sisa layanan,
  • Carrot2 Command Line Interface: aplikasi yang memungkinkan memanggil Wortel ² pengelompokan dari baris perintah,
  • Carrot2 Aplikasi Web: menghadapkan Wortel ² pengelompokan sebagai aplikasi web untuk pengguna akhir. 
 sumber :