LOCAL BINARIZATION FOR DOCUMENT IMAGES CAPTURED BY CAMERAS WITH DECISION TREE

Naser Jawas, Randy Cahya Wihandika, Agus Zainal Arifin

Abstract


Character recognition in a document image captured by a digital camera requires a good binary image as the input for the separation the text from the background. Global binarization method does not provide such good separation because of the problem of uneven levels of lighting in images captured by cameras. Local binarization method overcomes the problem but requires a method to partition the large image into local windows properly. In this paper, we propose a local binariation method with dynamic image partitioning using integral image and decision tree for the binarization decision. The integral image is used to estimate the number of line in the document image. The number of line in the document image is used to devide the document into local windows. The decision tree makes a decision for threshold in every local window. The result shows that the proposed method can separate the text from the background better than using global thresholding with the best OCR result of the binarized image is 99.4%. Pengenalan karakter pada sebuah dokumen citra yang diambil menggunakan kamera digital membutuhkan citra yang terbinerisasi dengan baik untuk memisahkan antara teks dengan background. Metode binarisasi global tidak memberikan hasil pemisahan yang bagus karena permasalahan tingkat pencahayaan yang tidak seimbang pada citra hasil kamera digital. Metode binarisasi lokal dapat mengatasi permasalahan tersebut namun metode tersebut membutuhkan metode untuk membagi citra ke dalam bagian-bagian window lokal. Pada paper ini diusulkan sebuah metode binarisasi lokal dengan pembagian citra secara dinamis menggunakan integral image dan decision tree untuk keputusan binarisasi lokalnya. Integral image digunakan untuk mengestimasi jumlah baris teks dalam dokumen citra. Jumlah baris tersebut kemudian digunakan untuk membagi citra dokumen ke dalam window lokal. Keputusan nilai threshold untuk setiap window lokal ditentukan dengan decisiontree. Hasilnya menunjukkan metode yang diusulkan dapat memisahkan teks dari dokumen citra lebih baik dari binarisasi global dengan tingkat pengenalan OCR hingga 99.4%.

Keywords


binarization; binerisasi; citra dokumen; decision tree; document images; image partitioning; local window; membagi image; window lokal

Full Text:

PDF


DOI: http://dx.doi.org/10.21609/jiki.v5i1.183

Refbacks

  • There are currently no refbacks.


Copyright © Jurnal Ilmu Komputer dan Informasi. Faculty of Computer Science Universitas Indonesia.

Creative Commons License

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

View JIKI Statistic