Apa itu OCR?

Clarisa Natalia
6 min readJun 5, 2021

--

Penggunaan OCR dalam Google Translate

Apakah anda pernah ingin mengerjemahkan suatu kalimat dari sebuah gambar dan anda menggunakan Google Translate, dimana aplikasi tersebut mampu membaca tulisan yang ada pada gambar anda menjadi tulisan digital dan menerjemahkannya ke bahasa yang anda pilih ? Pernahkan anda berpikir bagaimana aplikasi tersebut mampu memproses tulisan yang ada pada gambar menjadi tulisan digital? Teknologi yang digunakan dalam kasus tersebut adalah OCR. Optical Character Recognition atau Optical Character Reader merupakan sebuah teknologi yang dapat mengidentifikasi sebuah teks dalam gambar digital. Teknologi ini sering digunakan untuk mengubah teks tertulis yang berada dalam sebuah gambar, baik tulisan yang diketik, ditulis tangan, ataupun dicetak, menjadi sebuah data digital yang dapat dibaca oleh mesin.

Emanuel Goldberg

Teknologi OCR bermula dari mesin telegraf, dimana seorang fisikawan Emanuel Goldberg menciptakan sebuah mesin yang mampu membaca dan mengubah karakter menjadi kode telegraf. Pada tahun 1920, ia mampu mengembangkan temuannya tersebut dan menciptakan sistem pengambilan dokumen elektronik pertama. Seiring berkembangnya zaman, dunia bisnis lebih memilih untuk menyimpan catatan keuangan yang ukurannya diperkecil dari dokumen aslinya, namun mengambil catatan tertentu dengan cepat dari ukuran dokumen yang sangat besar merupakan hal yang mustahil. Oleh karena itu, Goldberg menggunakan sel fotoelektrik untuk melakukan pengenalan pola dengan alat pemutar film. Pengenalan pola tersebut berkembang menjadi teknologi OCR yang mampu mengenal pola tulisan fisik dan mengubahnya menjadi data digital.

Dengan menggunakan kembali teknologi yang sudah ada, Goldberg mengambil langkah pertama menuju automasi dalam mencatat dokumen. Sejak saat itu, teknologi OCR semakin berkembang dan bisnis bergantung pada teknologi ini untuk membantu mengurangi biaya mengekstrak data dari dokumen fisik.

Alur kerja OCR

Walaupun OCR merupakan sebuah temuan yang dapat membantu dalam mengolah data dari data fisik menjadi data digital, OCR masih memiliki beberapa masalah dalam mengerjakan tugasnya. Versi awal OCR memiliki masalah dalam hal mengenal karakter yang dibaca. Mesin OCR harus dilatih untuk mengenal satu per satu karakter yang ingin dibaca dan batas pembacaan mesin hanya satu karakter tiap satu kali pembacaan. Oleh karena itu, Ray Kurzweil membuat “omni-font OCR”, dimana proses OCR mampu mengenali hampir semua font teks. Pada awal tahun 2000, OCR mampu diakses secara daring dan mempunyai layanan yang berbasis cloud dan dapat diakses melalui desktop maupun aplikasi pada ponsel pintar. Seiring dengan perkembangan teknologi, sekarang terdapat sebuah host layanan OCR yang memberikan sebuah teknologi yang mampu mengenali semua karakter dan font teks dengan akurasi yang tinggi.

Dalam OCR terdapat beberapa atribut yang menjadi perhitungan dalam langkah kerjanya, yaitu kerapatan teks, struktur teks, font teks, tipe karakter, artefak, dan lokasi. Ketebalan teks merupakan salah satu atribut yang perlu diperhitungkan, contohnya seperti pada kertas yang dicetak atau ditulis, kerapatan teks lebih tebal dibandingkan tulisan pada simbol — simbol yang ada di jalan. Struktur teks yang dicetak pada kertas lebih rapi dibandingkan yang ditulis oleh tangan. Font teks yang digunakan juga memengaruhi kerja teknologi OCR, dimana font teks yang dicetak lebih mudah dibaca karena rapi dibandingkan dengan font teks hasil tulisan tangan. Tipe karakter yang digunakan dalam teks mungkin berbeda dari satu bahasa ke bahasa yang lain, hal tersebut akan memmengaruhi kerja teknologi OCR. Pembacaan teks dari dokumen yang dipindai menggunakan sebuah scanner lebih mudah dibaca dibandingkan hanya memfoto sebuah gambar di luar ruangan. Lokasi teks dalam dokumen yang dibaca juga dapat memengaruhi OCR, dimana gambar yang ingin dipindai mungkin membutuhkan beberapa perubahan seperti memotong gambar agar teks yang dibaca dapat terlihat lebih jelas, namun ada pula lokasi tulisan yang acak sehingga membuat kerja OCR menjadi lebih sulit.

Cara kerja OCR yang paling mendasar adalah membandingkan setiap karakter yang dibaca dengan karakter yang ada dalam database. Hal pertama yang akan dilakukan adalah memproses sebuah gambar. Proses ini memiliki berbagai macam metode, namun memiliki prinsip yang sama yaitu mengedit gambar agar dapat lebih mudah dibaca, seperti memutar teks, meluruskan teks, menghapus gambar latar belakang, membuat latar belakang berwarna putih, dan membuat warna teks yang akan dibaca lebih gelap agar lebih mudah dibaca.

Proses pembacaan tulisan dari gambar
Proses mengubah hurus dari pixel hitam putih menjadi matriks biner

Langkah berikutnya adalah OCR akan memproses dan mengidentifikasi satu per satu karakter yang ada dalam gambar. Langkah ini juga memiliki beberapa cara untuk menyelesaikannya, salah satunya adalah dengan mengenali pola tulisan. Proses tersebut dapat dilakukan dengan mengidentifikasi pixel hitam dan putih dalam sebuah gambar. Karakter teks akan dicek satu per satu dengan membaca jumlah pixel hitam yang ada di dalam kolom pixel putih. Setiap karakter akan diubah menjadi sebuah matriks biner, dimana pixel hitam menjadi 1 dan pixel putih menjadi 0. Untuk menghitung jarak antarkarakter, proses ini akan menghitung jarak antara bagian tengah matriks dengan pixel terjauh dalam gambar. Jarak tersebut akan digunakan sebagai radius untuk membuat lingkaran yang membagi teks dalam gambar menjadi beberapa bagian kecil agar dapat dibandingkan dengan karakter yang berada dalam database.

Seiring berkembangnya teknologi OCR, karakter yang dibaca dari dokumen fisik tidak hanya dibaca satu per satu karakter, namun juga secara keseluruhan kata. Tidak jarang kita menemukan penulisan 1 dan l yang mirip. Dengan perkembangan OCR, OCR mampu mengecek apakah suatu kata itu merupakan suatu kata yang valid atau tidak sehingga mampu mengubah karakter hasil pemindaian menjadi sebuah kata yang memiliki makna.

OCR pada Microsoft Word

Kegunaan OCR yang paling banyak digunakan oleh masyarakat adalah mengubah sebuah dokumen fisik menjadi dokumen digital. Dengan mengubahnya menjadi dokumen digital, kita dapat mengedit dokumen tersebut dalam aplikasi word processor¸ seperti Microsoft Word dan Google Docs. Sebelum OCR ditemukan, satu — satunya opsi untuk membuat dokumen fisik menjadi dokumen digital adalah dengan mengetiknya secara manual, di mana hal ini banyak membuang waktu dan memungkinkan terjadinya kesalahan mengetik ulang. Dengan menggunakan OCR, kita dapat menulis ulang dokumen 40 kali lebih cepat dibandingkan mengetik ulang secara manual dan mengurangi kemungkinan terjadinya salah ketik.

Machine Readable Zone pada passport Indonesia

OCR juga digunakan untun membaca machine readable zone (MRZ) pada passport ataupun kartu tanda pengenal lainnya. Dengan menggunakan OCR untuk membaca MRZ, kita dapat mempercepat proses pengidentifikasian dan pendaftaran orang — orang tanpa harus menulis ulang data per orang satu per satu ke dalam sistem. Teknologi ini berguna untuk petugas keamanan di perbatasan atau pos pemeriksaan lainnya. Selain itu, OCR juga dapat digunakan untuk meningkatkan kecepatan dalam melayani konsumen, seperti saat proses check-in dalam hotel ataupun proses registrasi dalam bank atau bisnis lainnya.

Dengan teknologi OCR yang mengubah sebuah dokumen fisik menjadi dokumen digital, kita mampu mengedit dokumen tersebut menjadi bentuk lain yang kita inginkan. Salah satunya adalah menjadi bentuk suara yang dapat digunakan para penyandang tunanetra untuk membantunya dalam menjalankan kegiatan sehari — hari.

Daftar pustaka :

(n.d.). NECC. https://www.necc.mass.edu/wp-content/uploads/accessible-media-necc/uncategorized/resources/What-is-OCR.pdf

Shperber, G. (2021, February 15). A gentle introduction to OCR. Medium. https://towardsdatascience.com/a-gentle-introduction-to-ocr-ee1469a201aa

What is OCR ? (n.d.). IRIS — The World leader in OCR, PDF and Portable scanner. https://www.irislink.com/EN-ID/c1135/What-is-OCR--.aspx

What is OCR and what is it used for? (2021, April 6). Document Data Capture And Workflow Automation. https://docparser.com/blog/what-is-ocr/

What is OCR? Introduction to optical character recognition. (n.d.). Anyline — The Mobile Text Recognition. https://anyline.com/news/what-is-ocr/

What-is-optical-character-recognition-ocr. (n.d.). Hyland Software | Information Management | Products | Careers. https://www.hyland.com/en/resources/terminology/data-capture/what-is-optical-character-recognition-ocr

--

--

Clarisa Natalia
Clarisa Natalia

No responses yet