EKSTRAK RESUME YANG AKURAT MENGGUNAKAN DEEP LEARNING

Pada bagian sebelumnya, kita telah membahas metode tradisional. Pada bagian ini, kita akan membahas cara membuat model otomatis yang akurat untuk penyaringan resume. Mari kita mulai!

Bagaimana caranya? Bagaimana kita bisa membuat model yang generik untuk semua template resume di luar sana? Di sinilah Deep Learning (DL) dan Computer Vision (CV) berperan. Jika Anda tidak terbiasa dengan DL, anggap saja metode ini sebagai otak buatan yang mempelajari data menggunakan rumus matematika. Tidak seperti algoritme tradisional, algoritme ini dianggap cerdas yang berarti dapat bekerja dalam berbagai skenario dengan akurasi tinggi. Keuntungan lainnya adalah algoritme ini dapat dengan mudah diintegrasikan atau digunakan ke dalam sistem yang ada, tidak seperti algoritme tradisional. Di sisi lain, algoritme Computer Vision itu ibarat mata pada mesin, mereka mendeteksi, memproses gambar, dan mengubahnya menjadi data yang dapat disunting dalam waktu singkat.

Melihat masalah yang timbul dari Penyaringan Resume, Deep Learning dapat menemukan area yang berguna dari resume dan meneruskannya ke Computer Vision di mana sistem ini akan mengidentifikasi bagian tersebut menjadi teks yang dapat diedit. Sekarang kita akan memahami seluruh proses pembuatan model dengan melalui berbagai teknik.

Deteksi Objek dan OCR

Resume pada dasarnya adalah template yang terdiri dari beberapa bagian. Artinya, sebagian besar bagian dalam resume serupa tetapi diatur dalam format yang berbeda. Berbagai komponen resume adalah [Tujuan Karir, Latar Belakang Pendidikan, Pengalaman Kerja, Kepemimpinan, Publikasi, dll.]. Untuk mengekstrak komponen ini, kami menganggapnya sebagai objek dan mendeteksinya melalui algoritme deteksi objek. Ada beberapa tantangan yang perlu diatasi seperti ekstraksi tabel (terkadang komponen seperti latar belakang pendidikan ditambahkan dalam tabel), variasi font, variasi template, dll.

Kami sekarang akan menyelidiki cara penggunaan deteksi objek untuk mengekstrak komponen dari resume. Untuk mencapai hal tersebut, Convolution Neural Networks (CNNs) biasanya digunakan. Ada beberapa aplikasi berbasis CNN yang memiliki kinerja baik untuk menangani permasalahan klasifikasi dan segmentasi gambar.

Untuk penyaringan resume dengan deteksi objek, langkah pertamanya adalah melakukan segmentasi halaman. Tujuan utama segmentasi halaman adalah untuk membagi resume ke dalam area teks dan non-teks. Kemudian, kami mengekstrak objek komponen yang berbeda, seperti tabel (bagian dari non-teks). Tidak seperti metode berbasis aturan tradisional yang melibatkan banyak parameter, tujuan utama metode berbasis pemelajaran (dalam hal ini CNN) adalah untuk membagi halaman dokumen menjadi beberapa baris terlebih dahulu, kemudian mengklasifikasikan setiap baris, dan menggabungkan hasil klasifikasi berdasarkan aturan yang berbeda.

Sekarang kita akan membahas beberapa Metode Deteksi Objek

[Catatan: Algoritme ini tidak selalu sama, dengan teknik baru dan kinerja neural network architectures yang berbeda dan selalu berubah]

Metode 1: Deteksi Objek Berbasis CNN dalam Gambar Dokumen

Sistem ini diusulkan oleh Xiaohan Yi dan timnya pada tahun 2017 di ICDAR (International Conference on Document Analysis and Recognition). Tujuan dari penelitian ini adalah untuk mendeteksi area tertentu dari halaman yang dipindai menggunakan CNN. Algoritme yang diusulkan mampu mencapai hasil yang baik setelah tiga fase, mari kita bahas.

Fase 1: Pada fase ini, data dikumpulkan oleh penulis yang terdiri dari 12.000 halaman gambar dokumen berbahasa Inggris yang dipilih dari 1.100 makalah ilmiah CiteSeer. Masing-masing dokumen memiliki variasi dari segi tata letak maupun teks (font, warna). Mereka telah menganotasi objek di setiap halaman secara manual, total 380.000 objek halaman dokumen secara keseluruhan, terdiri dari 350.000 baris teks, 22.000 rumus, 5.783 gambar, dan 2.295 tabel.

Untuk mendeteksi objek, ada dua metode yang dapat digunakan. Pertama, Rough Proposal, di mana Breadth-First Search (BFS) digunakan untuk menemukan semua 8 area komponen yang terhubung dengan gambar biner yang terfilter. Setelah komponen dihasilkan, komponen tersebut diganti dengan bounding rectangle untuk mengurangi informasi yang tidak relevan pada gambar. Kedua, strategi Pruning digunakan untuk mendeteksi kolom di halaman dan menyaring area yang terdapat pada multi-kolom.

Fase 2: Fase kedua melibatkan perancangan dan pelatihan CNN. Penulis mengusulkan CNN berbasis Spatial Pyramid Pooling (SPP) yang dibangun di atas Jaringan VGG-16. Salah satu perbedaan utama menggunakan SPP dibandingkan CNN adalah, struktur SPP menyatukan Feature Map ke ukuran tetap dengan pengambilan sampel skala rendah. Stochastic Gradient Descent digunakan untuk melatih jaringan.

Fase 3: Pada fase terakhir, hasil pun tercapai. Jaringan telah mencapai tingkat akurasi Recall pada segmentasi baris teks, forum, tabel, dan angka dengan masing-masing 94,1%, 90,9%, 88,5%, 83,2%.

Metode 2: Mengekstrak Struktur Semantik dari Dokumen Menggunakan CNN Multimodal

Pada bagian ini, kami akan membahas penelitian “Belajar Mengekstrak Struktur Semantik dari Dokumen Menggunakan Jaringan Convolutional Neural Networks” yang diusulkan oleh para peneliti dari Adobe dan The Pennsylvania State University. Penulis mengusulkan jaringan end-to-end multimodal CNN untuk mengekstraksi struktur semantik dari gambar dokumen. Jaringan ini mengambil dokumen sebagai input dan membaginya menjadi area yang diminati dan mengenali peran masing-masing area. Mari kita lihat cara mencapainya dalam berbagai fase yang diusulkan.

Fase 1: Fase pertama mirip dengan yang dibahas dalam pendekatan sebelumnya–segmentasi halaman. Alih-alih memberi anotasi langsung pada gambar, metode ini menyematkan teks ke dalam peta. Anda dapat menganggapnya sebagai teknik Text Embeddings yang mempelajari teks, di mana kata-kata dengan arti yang sama memiliki representasi yang serupa. Keuntungan menggunakan Text Embedding adalah dapat mengetahui perbedaan antara daftar dan beberapa paragraf karena selanjutnya akan direpresentasikan dalam dimensi yang lebih rendah.

Fase 2: Fase ini disebut sebagai analisis struktur logis. Didasarkan pada semantik gambar yang mengkategorikan setiap area ke dalam kelas yang relevan secara semantik seperti paragraf dan judul. Pada dasarnya fase ini merupakan output dari jaringan CNN multimodal yang mereka usulkan.

Salah satu fitur inti dari model ini adalah menggunakan Skip Connection alternatif yang diilustrasikan oleh panah biru pada gambar dan blok Dilated Convolution yang terinspirasi oleh arsitektur Inception. Setiap blok Dilated Convolution terdiri dari 5 Dilated Convolution dengan ukuran kernel 3 × 3 dan sebuah Dilation d = 1, 2, 4, 8, 16. Perlunya menggunakan model ini dalam CNN reguler adalah untuk mengurangi kehilangan informasi saat melakukan downsampling. Arsitektur ini dilatih pada kumpulan data yang terdiri dari total 271 dokumen berlabel dengan tata letak yang bervariasi dan rumit. Semua lapisan Convolution memiliki ukuran kernel 3 × 3 dan stride 1. Penggabungan (dalam enkoder) dan pemisahan (dalam dekoder) memiliki ukuran kernel 2 × 2. Batch normalization layer langsung diterapkan setelah setiap Convolution dan sebelum semua fungsi non-linear. Jaringan telah mencapai Akurasi IOU dalam mengekstraksi bkg, gambar, tabel, bagian, judul, daftar, paragraf dengan masing-masing akurasi 84,6%, 83,3%, 79,4%, 58,3%, 61,0%, 66,7%, 77,1%.

MENGGUNAKAN NANONETS

Dengan menggunakan Nanonets API, Anda dapat secara otomatis mengekstrak semua informasi yang diperlukan dari resume yang diperlukan untuk pencarian dan pencocokan pekerjaan. Cukup unggah resume dan dapatkan semua data dalam format yang sudah dipilih dari area yang diekstraksi.

Kami mengatasi sebagian besar masalah yang tercantum di atas, sehingga Anda tidak perlu menghabiskan waktu mencari alat canggih yang bisa membantu Anda dalam mengatasi masalah tersebut.

Mengidentifikasi Key-value Pair: Key dalam data memiliki format yang beragam. Menggunakan penerapan GCN, kami dapat mengurai Key di seluruh resume. Implementasi GCN kami mencakup pengoptimalan untuk menemukan pencarian di dalam area yang tepat untuk mendapatkan hasil terbaik dari kayanya fitur dan kurangnya konteks agar model dapat menginterpretasikan Key dengan benar.
Mempertimbangkan banyak bahasa. Model kami telah dilatih dengan teknik Text Embeddings yang merupakan Language Agnostic. Hal ini dapat dicapai dengan membuat ruang fitur sedemikian rupa, sehingga Text Embedding untuk ‘Education,’ ‘educación’ (Spanyol) atau ‘educação’ (Portugis) dipetakan ke ruang fitur yang sama. Jadi fitur teks terbebas dari permasalahan bahasa dan model tidak perlu dilatih per bahasa.
Data tidak cukup untuk dilatih untuk Key tertentu (ketidakseimbangan kelas): Kami memiliki korpus besar resume yang dilatih oleh model kami untuk mengurangi masalah ini.

Masalah lainnya

1. Rotasi dan Pemotongan: Kami telah menerapkan model rotasi dan pemotongan sebagai bagian dari langkah pre-processing kami untuk mengidentifikasi tepi dokumen dan mengarahkan dokumen dengan benar. Model yang digunakan mirip dengan model deteksi objek dengan fungsi yang telah dimodifikasi, yaitu untuk mengidentifikasi 4 sudut sebagai lawan dari 2 titik standar dalam masalah deteksi objek. Permasalahan rotasi dan pemotongan pun dapat terselesaikan.

2. Blur dan Kualitas Dokumen yang Buruk: Kami memiliki model bagian dari preprocessing yang hanya menerima dokumen di atas tingkatan kualitas tertentu. Model tersebut merupakan pengklasifikasi biner yang dapat mengklasifikasi gambar sederhana dan telah dilatih pada sejumlah dokumen yang berkualitas baik maupun buruk. Dalam Document Data Capture, dokumen dapat ditolak lebih awal jika tidak memenuhi syarat standar kualitas dan dapat dikirim untuk diambil kembali atau diproses secara manual.

2. Data yang Menyimpang: Penyimpangan data merupakan masalah saat model hanya mengambil data dari satu vendor atau satu wilayah. Jika model telah dilatih secara historis pada berbagai vendor yang berbeda, industri geografi, dll, kemungkinan penyimpangan data akan sangat berkurang.

#CV #resume #automatedOCR #OCR #datacapture #intelligentdatacapture #intelligentautomation #intelligentdocumentprocessing #IDP #digitalautomation #machinelearning

EKSTRAK RESUME YANG AKURAT MENGGUNAKAN DEEP LEARNING

Tags:

Alamat

Produk Kami