
KESULITAN EKSTRAK RESUME DENGAN OCR TRADISIONAL
Rekrutmen merupakan industri global bernilai 200 miliar USD. Jutaan orang mengunggah resume dan melamar pekerjaan setiap hari di ribuan platform rekrutmen. Perusahaan membuka lowongan di platform tersebut dan para pencari kerja pun berdatangan untuk melamar. Setiap bisnis memiliki departemen rekrutmen yang memeriksa resume atau CV pelamar secara manual dan mengekstrak data untuk melihat apakah mereka orang yang tepat.
Seiring berkembangnya kreativitas dan desain resume, mengekstraksi data dari resume secara otomatis menjadi hal yang sulit, sehingga sebagian besar masih dilakukan secara manual. Beberapa penelitian menunjukkan hanya 1% dari resume pelamar di portal rekrutmen yang lolos ke tahap berikutnya. Jadi saat ini kita sedang membicarakan tentang waktu berjam-jam yang terbuang begitu saja hanya untuk melihat resume yang bahkan tidak membutuhkan keahlian dasar apa pun.
Situasi dari kacamata para pencari kerja juga tidak ideal. Anda memiliki 50 portal rekrutmen berbeda seperti JobStreet atau Kalibrr di mana Anda harus membuat profil baru setiap saat. Kemudian Anda harus menemukan lowongan yang cocok dalam daftar yang begitu panjang. Anda selalu merasa tidak puas karena masih ada banyak pekerjaan di luar sana dan Anda harus menggalinya lebih jauh. Anda juga mendaftar ke email newsletter yang mengirimi Anda lowongan tidak relevan di luar sana.
Jadi pertanyaannya adalah, bagaimana cara mengekstraksi data dari resume yang lebih cepat dan baik?
Resume dari setiap pelamar memiliki format yang berbeda dalam hal presentasi, desain, font, dan tata letak. Sistem yang ideal harus mampu mengekstraksi informasi mendalam atau konten di dalam resume secepat mungkin dan membantu perekrut mencari kandidat yang tepat. Tanpa peduli dengan tampilan resume, sistem ideal dapat menghasilkan data dari resume yang berisikan kualifikasi penting, seperti pengalaman, keterampilan, keunggulan, dan akademik. Selain itu, seorang kandidat dapat mengunggah resume ke platform rekrutmen dan mendapatkan daftar pekerjaan yang cocok secara instan atau bahkan informasi pekerjaa baru melalui email.
Apa Itu Penyaringan Resume
Melalui penyaringan resume, bentuk data resume yang tidak terstruktur berubah menjadi format yang lebih terstruktur. Program ini menganalisis dan mengekstrak data resume/CV dan mengembalikan output yang dapat dibaca oleh XML atau JSON, sehingga membantu untuk menyimpan dan menganalisis data secara otomatis.
Keuntungan Penyaringan Resume Berbasis OCR
Seorang perekrut dapat menetapkan kriteria dan kandidat yang tidak cocok dapat disaring dengan cepat dan otomatis.
- Perekrut dapat menghemat waktu jam kerja dan melayani kandidat potensial dengan lebih baik.
- Kandidat dapat dinilai dan dicocokkan untuk peran lain yang lebih sesuai.
- Perusahaan dapat melacak kualitas pelamar dari waktu ke waktu, menghasilkan analitik kandidat yang bermakna.
- Jika langkah selanjutnya adalah mengikuti tes online, proses seleksi dan tes dapat diintegrasi.
- Proses pendaftaran untuk portal rekrutmen menjadi mudah. Saat ini kandidat masih harus mengisi data mereka saat mendaftar ke situs web.
Mengapa Ekstraksi Data Resume Sulit Dilakukan Dengan Metode Tradisional
Sekarang kita akan menelusuri penelitian “Resume Information Extraction” (2018) oleh sebuah tim di Institut Teknologi Beijing. Tujua dari penelitian ini adalah untuk mengekstrak informasi dari resume dan menampilkan pekerjaan yang cocok secara otomatis. Kami mengutipnya sebagai Teknik Tradisional karena algoritma yang diusulkan menggunakan heuristik aturan sederhana dan pola pencocokan teks. Penulis penelitian ini mengusulkan dua langkah sederhana untuk mengekstrak informasi. Pada langkah pertama, teks resume diidentifikasi sebagai blok resume yang berbeda. Untuk mencapai tujuan tersebut, mereka merancang fitur yang disebut Writing Style, untuk memodelkan informasi sintaksis pada blok teks.
Untuk mengidentifikasi blok teks, algoritme cukup mengikuti beberapa teks seperti “Pengalaman” atau “Minat dan Hobi”. Setiap kali teks tersebut diidentifikasi, sistem akan menindaklanjuti dengan melewati setiap baris hingga teks berikutnya diidentifikasi. Setelah blok-blok ini tersegmentasi, mereka menggunakan fitur Writing Style dan melakukan beberapa heuristik berbasis aturan pada setiap barisnya. Dalam skenario mereka, resume Cina menggunakan spasi untuk memisahkan tag yang berbeda, yang merupakan Writing Style yang sangat jelas. Berikut adalah contoh bagaimana pelamar Cina menyebutkan pengalaman kerja mereka.
Tantangan Algoritma Tradisional yang Gagal
- Sulit melakukan iterasi melalui template resume dan aturan penulisan dikarenakan adanya 1000 format berbeda.
- Rumitnya membuat hierarki antara teks dan nested content.
- Tidak mudah membuat aturan untuk mengekstraksi data seperti pengalaman atau tahun kelulusan tidak selalu mudah.
- Aturan perlu diubah seiring perubahan bahasa saat bidang pekerjaan berubah (marketing vs. engineering).
#CV #resume #automatedOCR #OCR #datacapture #intelligentdatacapture #intelligentautomation #intelligentdocumentprocessing #IDP #digitalautomation #machinelearning