Nge-Skripsi: Mengambil Full Text Dari Halaman Web

Well, gw pengen sharing isi skripsi gw nih. Gw sekarang lagi berkutat membuat modul untuk mengambil full text dari suatu halaman web. Hehehe itung-itung berbagi ilmu dan juga sebagai catatan gw dalam pengerjaan skripsi gw. 😀

Ngambil full text dari halaman web sebenarnya bukan perkara mudah. Tidak ada struktur baku yang mendefinisikan kandungan suatu halaman web secara presisi. Dokumen HTML berisi informasi bentuk struktur dari layout halaman web namun tidak menyimpan informasi struktur kandungan dari dokumen tersebut. Berbeda dengan dokumen seperti RSS Feed yang merupakan file XML yang menyimpan struktur kandungan dari dokumen Feed tersebut. Kita tidak dapat melakukan penyimpulan dengan mudah di mana letak atau isi dari suatu dokumen pada dokumen HTML.

Karena dokumen HTML merupakan dokumen yang menyimpan informasi layout dari halaman web, maka banyak informasi yang tidak relevan dengan kandungan dari dokumen web tersebut. Contoh kandungan yang tidak relevan tersebut adalah seperti ad-banner, menu, header, footer, dan lain sebagainya. Informasi-informasi tersebut dapat kita sebut sebagai noise pada dokumen web yang harus disingkirkan agar kita dapat mengambil isi kandungan dokumen yang relevan dari suatu halaman web.

Bapak Samuel Louvan (@samuel_louvan), salah satu pengajar baru di Fasilkom UI membahas teknik pengambilan full text dari suatu halaman web pada thesis beliau. Tekniknya menggunakan supervised machine learning dengan training data berupa halaman-halaman web yang sudah diberikan tanda area full text dari dokumen web tersebut. Supervised machine learning-nya digunakan untuk menentukan nilai-nilai threshold suatu tag HTML yang merupakan posisi dari isi dokumen yang relevan dan apakah suatu tag HTML merupakan noise atau bukan.

Awalnya topik bapak Samuel tersebut akan menjadi bahan pembahasan dalam skripsi gw. Namun dosen pembimbing gw, bapak Ruli Manurung mengajukan topik yang lebih luas ketimbang implementasi modul itu saja. Walaupun tentu saja skripsi gw yang sekarang juga mengimplementasi modul yang melakukan proses tersebut. Bisa dibilang sih beban skripsi gw jadi dua atau tiga kali lipat lebih susah. Hehehe 😛

Nah sekarang gw berkutat membuat modul yang mengambil full text dari suatu dokumen web di mana kita memiliki sepotong kalimat yang merupakan ringkasan dari dokumen tersebut. Itu ga semudah yang dibayangkan ternyata. Banyak ketidak teraturan dalam suatu dokumen web yang harus di-handle. Sekarang aja gw masih berusaha nyari jalan bagaimana dokumen web yang tidak rapi tersebut menjadi rapi dan dapat diproses dengan mudah menggunakan teknik XML-XPath.

Gw ngoding menggunakan C# dan library tambahan seperti HTML Agility Pack dan HTML Tidy for .NET. Sekarang masih pengen nyari cara buat menggunakan HTML Tidy yang bener karena library tersebut cukup kurang stabil jika dalam suatu dokumen web ter-embed tag-tag XML non XHTML yang sekarang sedang mewabah, seperti Facebook FBML tag.

I’ll post the progress later. 😀

Mungkin Anda juga menyukai

2 Respon

  1. Suriono berkata:

    Assalamuallaikum bisa mendownload contoh skripsinya kita untuk tugas Akhirku saya sudah capeh cari contoh skripsi tapi belum dd dapat sekiranya bapak dapat membantu saya saya sangat berterimakasih terhadap semuanya.

Tinggalkan Balasan ke Gilang Batalkan balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *