Misalkan sebuah daftar pustaka yang diambil dari sebuah buku. Contohnya:
Bruney A. 2006. Professional VSTO 2005: Visual Studio 2005 Tools for Office. Indiana: Wiley Publishing, Inc. |
Pada contoh ini, daftar pustaka memiliki 4 buah bagian, antara lain:
- nama pengarang (Bruney A),
- tahun terbit (2006),
- judul buku (Professional VSTO 2005: Visual Studio 2005 Tools for Office),
- tempat terbit dan nama penerbit (Indiana: Wiley Publishing, Inc).
Dengan demikian, dari keempat bagian tersebut dicari kemungkinan string yang dapat dibentuk. String pattern yang terbentuk adalah, ABCFL, ABCIO, ABCO, ABCQ, ABCS, ABOC, ABOFL, ABOQ, ABOS, ABQC, ABQFL, ABQIO, ABQO, ABQS, ABSC, ABSFL, ABSIO, ABSO, dan ABSQ. Kemudian string yang terbentuk dicari kemiripannya dengan konstanta aturan string pattern setiap jenis daftar pustaka menggunakan algoritma Levenshtein.
Penggunaan RegEx juga dipakai dalam memeriksa keterangan tabel dan gambar. Penggunaan RegEx pada keterangan tabel dan gambar dapat dilihat pada Tabel 10. Aturan yang digunakan dalam memeriksa keterangan tabel maupun gambar dan berhubungan dengan penggunaan RegEx yaitu:
- antara nama tabel atau gambar dengan keterangannya dipisahkan oleh dua spasi,
- keterangan gambar menggunakan tanda baca titik (‘.’) pada akhir kalimat sedangkan keterangan gambar tidak.
Tabel 10 Â Pola RegEx pada keterangan tabel dan gambar
Keterangan |
RegEx |
Tabel | @”^Tabel [0-9]{1,3}Â [\w\W\s]{1,1000}” |
Gambar | @”^Gambar [0-9]{1,3}Â [\w\W\s]{1,1000}[\.$]” |
Ada empat bagian yang digunakan dalam mengidentifikasi keterangan tabel dan gambar. Bagian pertama adalah nama tabel atau gambar (^Gambar [0-9]{1,3} atau ^Tabel [0-9]{1,3}) yang berfungsi untuk menyatakan bahwa kalimat yang sedang diperiksa merupakan keterangan tabel atau gambar disertai dengan nomor gambar. Kedua, terdapat jarak dua spasi sesuai dengan aturan penulisan bahwa jarak antara nama tabel atau gambar dengan keterangannya adalah dua spasi. Bagian yang ketiga merupakan pola RegEx untuk mengecek keterangan tabel maupun gambar ([\w\W\s]{1,1000}) dimana aturan ini merupakan pengecekan karakter huruf, angka atau simbol yang memungkinkan pada keterangan (karakter bebas). Bagian yang keempat merupakan aturan RegEx tambahan ([\.$]) khusus pada keterangan gambar, karena aturan ini merupakan pengecekan tanda baca titik (‘.’).