Implementasi Regular Expression

Regular Expression atau RegEx pada sistem ini digunakan untuk mendeteksi Bahasa Inggris yang ada pada dokumen. Dengan demikian, dapat diketahui Bahasa Inggris yang ada sudah diberi tanda miring (italic) atau tidak. Perbendaharaan Bahasa Inggris yang digunakan telah dikurangi dengan kata-kata serapan dan kata lain yang ada dalam KBBI. Syntax yang digunakan dalam RegEx menggunakan syntax yang sederhana dari set karakter, pernyataan posisi dan quantifier.

RegEx juga digunakan dalam mendeteksi jenis-jenis string yang ada pada daftar pustaka. Misalkan dalam sebuah daftar pustaka terdiri atas nama, tahun, judul buku, dan penerbit maka bagian-bagian tersebut akan dideteksi dengan RegEx sehingga diperoleh string pattern. String pattern dibangun dengan menggunakan karakter khusus tambahan yang ada pada RegEx.

Karakter khusus yang digunakan terdiri atas beberapa jenis fungsi seperti, set karakter, pernyataan posisi, dan quantifier. Tabel 5 merupakan set karakter yang berguna untuk mencocokkan string dengan syntax.

Tabel 5  Set karakter

Syntax

Arti

. (titik) Semua karakter kecuali \n
[charList] Sebuah karakter yang ada pada charList
[^charList] Sebuah karakter yang tidak ada pada charList
[char0-char1] Sebuah karakter yang ada pada jarak char0-char1
\w Semua word character ([a-zA-Z_0-9])
\W Bukan word character
\s Spasi ([\n\r\t\v\f])
\S Bukan spasi
\d Angka desimal ([0-9])
\D Bukan angka

Pernyataan posisi digunakan untuk memberikan batasan-batasan string pada aturan RegEx. Syntax yang digunakan dapat dilihat pada Tabel 6.

Tabel 6  Pernyataan posisi

Syntax

Arti

^ Awal
$ Akhir
\A Awal dari string
\Z Akhir dari string
\z Tepat akhir dari string
\b Batas
\s Kata

Quantifier berguna untuk memberikan optional-optional tambahan untuk memberikan pernyataan dari sebuah string. Tabel 7 merupakan contoh quantifier yang digunakan. Contoh beberapa pola-pola RegEx yang digunakan untuk membangun sebuah string pattern dapat dilihat pada Tabel 8.

Tabel 7  Quantifier

Quantifier

Arti

* Kata yang cocok 0 atau lebih
+ Kata yang cocok 1 atau lebih
? Ada atau tidak ada
{n} Tepat sejumlah n
{n, m} Minimal n hingga m

Tabel 8  Contoh pola string daftar pustaka

Topik

Pola String

Tahun “[0-9]{4}[-.$]”
Link/url @”http(s)?://([\w-]+\.)+ [\w-]+(/[\w- ./?%&=]*)?”
Nama “^[a-zA-Z’,’-‘\\s]{1,100} [-.$]”
Judul “^[a-zA-Z+\\s(.$)] {1,1000}”
Nama Jurnal @”^[\w\s]*[0-9\s]{1,4} [:\s][0-9-\s]{1,10}[\.$]”

Dalam pembentukan string pattern menggunakan RegEx pada daftar pustaka, setiap bagian dalam daftar pustaka diubah menjadi sebuah string untuk mewakili jenis bagian tersebut. Daftar peubah string daftar pustaka dapat dilihat pada Tabel 9.

Tabel 9  Indikator string peubah

String Pattern

String yang Diubah

A Nama
B Tahun
C Judul buku
D Halaman
E Nama jurnal
F Tempat terbit
G Nama editor
H Judul publikasi
I Lokasi
J Tanggal
K Jenis media pada (skripsi, tesis atau disertasi)
L Nama penerbit
M Deskripsi (peta atau sumber audio/video)
N Nomor abstrak
O Jenis media
Q Keterangan
R Url
S Nomor paten
T Nomor halaman
U Nomor kolom (media koran)
V Area (peta)
W Jenis peta

Bersambung….

Tinggalkan Balasan