Petunjuk Penggunaan LinkR EDU

Daftar Isi
Loading...
  1. Alur Penggunaan

    Flow penggunaan aplikasi LinkR ini adalah sebagai berikut:

    1. Membentuk koneksi database yang akan digunakan untuk input dan output dari process.

    2. Memasukan dan memindahkan data tabular excel, csv, dan tsv ke database table target.

    3. Melakukan profiling untuk mengenali pola data yang dimiliki agar dapat dibersihkan dari sumber data.

    4. Menjalankan standardization untuk menyeragamkan kondisi data yang akan diproses.

    5. Membentuk konfigurasi deduplikasi. Informasi konfigurasi yang dilakukan akan dijelaskan pada bab 2.

    6. Menjalankan proses deduplikasi dengan menggunakan konfigurasi yang diinginkan.

    7. Setelah proses deduplikasi selesai, output dari proses tersebut dapat dilihat dalam bentuk summary.

    8. Selain melihat dalam bentuk summary tersebut, user dapat melakukan pengecekan dan melakukan perubahan grouping dengan menggunakan data steward.

    9. Jika konfigurasi yang dibentuk sudah sesuai dan ingin dijalankan proses incremental atau harian hanya dengan mengolah data yang baru dan berubah, maka dilakukan perubahan konfigurasi dengan menghapus tanda centang pada setting Initial.

  2. Petunjuk Penggunaan

    1. Menjalankan Aplikasi

      Jalankan aplikasi LinkR Edu dengan menjalankan aplikasi yang sudah didownload. Ketika dijalankan akan keluar splash screen seperti berikut menandakan adanya proses loading.

      LinkR User Guide

      Setelah selesai loading maka akan terbuka halaman home seperti bab berikutnya.

    2. Halaman Home

      Setelah aplikasi terbuka akan masuk ke halaman home. Pada halaman home terdapat dua tampilan yaitu tampilan awal dan tampilan setelah memiliki konfigurasi deduplikasi. Tampilan awal akan seperti gambar dibawah.

      LinkR User Guide

      Tampilan setelah memiliki konfigurasi deduplikasi akan memberikan summary status konfigurasi, seperti berikut:

      LinkR User Guide
    3. Membentuk Koneksi Database

      Hal yang perlu dilakukan sebelum melakukan konfigurasi deduplikasi dan menu lainnya adalah membentuk koneksi database. Jika koneksi database yang diinginkan sudah dikonfigurasi, koneksi tersebut dapat langsung digunakan.

      Jika database PostgreSQL atau SQL Server belum terinstalasi, LinkR Edu menyediakan koneksi database default ke h2 bernama LinkR_Basic.

      Langkah untuk membentuk konfigurasi koneksi database tersebut adalah sebagai berikut:

      • Pilih menu Database Manager, pada halaman database manager akan menampilkan koneksi yang telah dibentuk. Tambahkan koneksi baru dengan menekan tombol Add Connection.

        LinkR User Guide
      • Tombol Add Connection akan menampilkan pop up untuk membentuk koneksi. Isi textbox dengan informasi yang diinginkan. Sebelum menyimpan koneksi tersebut, dapat dilakukan test koneksi dengan menekan tombol Test Connection. Setelah itu tekan tombol Save untuk menyimpan koneksi.

      • Penjelasan menu pop-up New Connection sebagai berikut:

        Konfigurasi Catatan
        Connection Name Identitas/Nama Koneksi yang akan digunakan
        Database Type

        Tipe Database

        Catatan: Tersedia beberapa database type yaitu PostgreSQL, SQLServer, SQLServer Windows Auth, H2 dan H2 Embedded

        Database Host IP Address host Database
        Port Number Nomor Port yang digunakan
        Database Name Nama Database
        Username Username akses ke database
        Password Password akses ke database
      • Setelah informasi koneksi di input, maka dapat di tes koneksinya melalui button Test Connection.

      • Koneksi yang tersimpan akan tampil pada list koneksi. Koneksi tersebut dapat diubah dan dihapus.

      Connection yang sudah tersimpan akan tampil di halaman Database Manager. Penjelasan fungsi button pada halaman Database Manager adalah, sebagai berikut:

      Tombol Catatan
      Test Connection Test connection terhadap informasi yang digunakan untuk connect database.
      Edit

      Dapat mengubah info yang ada di connection yang sudah dibuat.

      (Cth: Mengubah informasi Port, User, Password, dan lainnya)

      Delete Menghapus Koneksi
    4. Data Staging

      1. Membentuk Konfigurasi Data Staging

        Pada menu Data Staging, pengguna dapat memindahkan data dari file excel, csv, dan tsv ke dalam database table lainnya yang akan digunakan untuk kebutuh fitur lain nya. Langkah ini tidak harus dilakukan jika koneksi dan data sumber yang akan dipakai sudah tersedia dan dapat digunakan untuk data deduplication dan data profiling.

        Data staging terdiri dari beberapa datasets, setiap datasets dapat memiliki beberapa import setting (config) dan beberapa file. Setiap config dan file pada suatu dataset tidak dapat diakses oleh dataset lainnya.

        Langkah untuk menggunakan menu data staging adalah sebagai berikut:

        • Pilih menu Data Staging, halaman tersebut akan menampilkan list dataset yang sudah pernah dibentuk dan dijalankan. Tekan tombol Add Dataset untuk membentuk dataset baru. Sebuah dataset dapat menampung beberapa file dan konfigurasi.

          LinkR User Guide
        • Langkah berikutnya, bentuklah konfigurasi staging sesuai dengan kebutuhan. Konfigurasi yang diperlukan akan sesuai dengan import setting yang dipilih. Contoh tampilan awal konfigurasi, seperti gambar di bawah:

          LinkR User Guide
        • Konfigurasi staging terdapat 2 jenis yaitu Text Files dan Excel Files. Penjelasan untuk masing konfigurasi tersebut adalah sebagai berikut:

          LinkR User Guide
          Konfigurasi Catatan
          Source File Tempat untuk melakukan upload file yang akan diproses.
          Sheet Menu untuk staging excel. Memilih sheet excel yang akan diproses.
          Setting

          Setting pada staging excel adalah Start Column dan Start Row. Start Column diisi dengan alphabet kolom excel dan Start Row diisi dengan nomor baris excel. Button Preview berfungsi untuk membantu memilih Start Column dan Start Row.

          Jika Has a header tercentang maka baris pertama akan dianggap sebagai header table dan sebaliknya.

          Row Limit Jumlah row yang akan diproses dan masuk ke table. Jika bernilai 0 maka akan memproses semua baris.
          LinkR User Guide
          Konfigurasi Catatan
          Source File Tempat untuk melakukan upload file yang akan diproses.
          Setting

          Setting pada staging text adalah Delimiter dan Enclosure. Jika Delimiter dan Enclosure tidak diisi maka aplikasi akan otomatis mencoba mendapatkan nilainya dari file ketika diproses. Delimiter adalah simbol pemisah kolom pada text file. Enclosure adalah simbol pembuka dan penutup suatu cell (kolom dan baris tertentu).

          Jika Has a header tercentang maka baris pertama akan dianggap sebagai header table dan sebaliknya.

          Row Limit Jumlah row yang akan diproses dan masuk ke table. Jika bernilai 0 maka akan memproses semua baris.
        • Untuk penjelasan konfigurasi dan button dibagian bawah yang ada pada staging excel dan staging text adalah sebagai berikut:

          Konfigurasi Catatan
          Target Connection Database tujuan di mana data hasil staging akan dimasukan.
          Target Table

          Dropdown yang akan terisi dengan list table yang ada pada koneksi yang telah dipilih.

          Tombol New Table di sebelah kanan berfungsi untuk mengubah target table menjadi textbox untuk membentuk target table baru yang belum ada.

          Import Source

          Tombol untuk mengambil informasi source column dan data sample dari file dan setting yang dipakai.

          Tombol ini harus ditekan terlebih dahulu sebelum menggunakan setting dibawah.

          Use All Columns Tombol untuk menggunakan semua kolom yang terbaca dari proses import source dan melakukan auto mapping ke kolom target table.
          Source Column List kolom sumber yang akan dimapping dan pakai untuk mengisi kolom target.
          Data Sample Contoh data pada kolom tersebut yang didapat dari file sumber.
          Target Column Kolom yang akan diisi dari source column. Akan berupa textbox jika dalam kondisi new table. Lambang kunci berwarna kuning disebelah kanan menandakan kolom primary key (dapat lebih dari satu kolom).
          Type Tipe data kolom pada table target.
      2. Menjalankan Staging Process

        Proses staging dapat dijalankan dengan menekan tombol run pada list dataset atau konfigurasi seperti gambar di bawah. Akan ada progress bar pada nama konfigurasi yang sedang diproses. Ketika sudah selesai maka status dari konfigurasi tersebut akan centang.

        LinkR User Guide

        Fungsi dari tombol pada kolom Action adalah sebagai berikut:

        Tombol Catatan
        Run Dataset Menjalankan proses staging semua konfigurasi pada dataset tersebut.
        Configs Pindah ke halaman config list dari dataset tersebut.
        Files Pindah ke halaman file list yang telah di upload pada dataset tersebut.
        Summary Halaman summary dari proses staging untuk dataset tersebut. Berisi persentasi dan list data yang masuk ke table target.
        Edit Pindah ke halaman konfigurasi untuk melihat atau mengubah konfigurasi.
        Hide / Show Menyembunyikan konfigurasi agar tidak terlihat dan diperhitungkan pada halaman home atau sebaliknya.
        Delete Menghapus konfigurasi dan file yang berhubungan dengan konfigurasi tersebut.
    5. Data Standardization

      1. Membentuk Konfigurasi Data Standardization

        Dengan menggunakan fitur Data Standardization, pengguna dapat membentuk tabel baru dan menambahkan kolom baru yang berisi kolom yang telah di standarisasi. Langkah ini bersifat opsional sesuai dengan kebutuhan pengguna. Tabel yang dibentuk akan di delete create setiap proses.

        Proses standarisasi akan dilakukan dengan menggunakan domain rules yang di set pada konfigurasi. Domain adalah sebauh kelompok atau cakupan aturan standarisasi yang berisi aturan (rules) yang telah dimasukan.

        Langkah untuk menggunakan menu data standardization adalah sebagai berikut:

        • Pilih menu Data Standardization, halaman tersebut akan menampilkan list konfigurasi yang sudah pernah dibentuk dan dijalankan. Tekan tombol Add Configuration untuk membentuk konfigurasi baru.

          LinkR User Guide
        • Langkah berikutnya, bentuklah konfigurasi standarisasi sesuai dengan kebutuhan. Konfigurasi yang dilakukan adalah dengan menambahkan informasi tabel masukan dan tabel hasil akhir, kemudian kolom tambahan yang akan dimasukan ke dalam tabel hasil akhir. Contoh tampilan konfigurasi, seperti gambar di bawah:

          LinkR User Guide

          Penjelasan untuk masing konfigurasi tersebut adalah sebagai berikut:

          Configuration Notes
          Configuration Name Nama Konfigurasi sebagai penanda konfigurasi digunakan untuk keperluan tertentu. Nama Konfigurasi ini akan ditampilkan pada list konfigurasi.
          Configuration Description Berisi penjelasan singkat dari konfigurasi yang dibentuk. Informasi ini akan ditampilkan pada detail config.
          Source Connection Dropdown koneksi yang akan digunakan untuk proses. Tabel sumber yang dapat dipilih adalah tabel yang ada di koneksi tersebut.
          Source Table Dropdown yang akan terisi dengan list table yang ada pada koneksi yang telah dipilih. Digunakan sebagai tabel dasar untuk proses standarisasi.
          Target Table

          Berisi nama tabel tujuan dari proses standarisasi. Nilai target table tidak boleh sama dengan source table, karena pada saat proses akan melakukan delete create tabel tujuan.

          Dianjurkan target table pada setiap config memiliki nilai yang berbeda karena akan ada hasil proses terakhir saja.

          Additional Columns Bagian kolom tambahan. Memiliki 2 jenis masukan yaitu constant atau tidak. Jika constant maka nilai masukan adalah nilai statik (kolom tersebut akan memiliki nilai yang sama). Jika tidak constant maka nilai yang dipakai akan didapatkan dari kolom masukan.
          Constant Toggle untuk menentukan infomasi yang dipakai sebagai input dari nilai statik atau kolom masukan.
          Source Value Bernilai Textbox ketika toggle constant menyala dan bernilai dropdown kolom dari source table ketika toggle constant dalam posisi mati.
          Icon Magnifier

          Tombol untuk melihat informasi summary dan profile dari kolom masukan. Tombol berikut dapat digunakan jika source table yang digunakan pernah dipakai untuk proses Data Profiling.

          Informasi lebih lanjut terkait Data Profiling akan dijelaskan pada bab Data Profiling.

          Target Column Kolom textbox nama dari kolom baru yang akan dipakai ditambahkan pada target table.
          Target Data Type Tipe data kolom pada target table.
          Domains

          Menu untuk menambahkan aturan standarisasi yang akan dipakai pada kolom tersebut.

          Sebuah kolom dapat menggunakan beberapa aturan domain. Urutan proses yang dijalankan pada domain yang dipilih akan dijalankan dari atas ke bawah.

          List Domains yang dapat digunakan akan dijelaskan pada bab Additional Features.

      2. Menjalankan Standardization Process

        Proses profiling dapat dijalankan dengan menekan tombol run pada list konfigurasi seperti gambar di bawah. Sama seperti pada menu Data Staging. Status pada list konfigurasi akan berubah mengikuti kondisi proses. Status akan bernilai success jika proses sudah selesai, kemudian tombol summary dapat ditekan.

        LinkR User Guide

        Fungsi dari tombol pada kolom Action adalah sebagai berikut:

        Configuration Notes
        Run Config Menjalankan proses konfigurasi tersebut.
        Summary Halaman summary dari proses standariasi pada konfigurasi tersebut. Berisi persentasi dan list kolom tambahan yang bukan constant dan masuk ke target table.
        Edit Pindah ke halaman konfigurasi untuk melihat atau mengubah konfigurasi.
        Hide / Show Menyembunyikan konfigurasi agar tidak terlihat pada halaman config list atau sebaliknya.
        Delete Menghapus konfigurasi yang berhubungan dengan konfigurasi tersebut.
      3. Output Standardization Summary

        Halaman standardization summary memiliki informasi jumlah baris data dan waktu yang dibutuhkan untuk proses. Untuk setiap kolom tambahan yang bukan constant akan memiliki informasi summary perubahan dari kolom tersebut. Ketika judul kolom tambahan tersebut di tekan maka akan menampilkan pop up preview nilai kolom tersebut.

        Hasil summary dari proses standarisasi memiliki 2 view yaitu Card View dan Table View. Tampilan halaman summary tersebut adalah seperti gambar di bawah:

        Card View Summary Data Standardization

        LinkR User Guide

        Table View Summary Data Standardization

        LinkR User Guide

        Penjelasan dari beberapa informasi pada halaman summary adalah sebagai berikut:

        Configuration Notes
        Count Data Jumlah baris data pada source table.
        Target Column Nama kolom tambahan pada target table.
        Affected % Persentasi jumlah nilai yang dipengaruhi domain rules dibanding dengan jumlah count data.
        Source Column Nama kolom masukan yang dipakai untuk membentuk target column.
        Data Type Nilai tipe data hasil akhir pada target column.
        Different Tye Bernilai Yes jika tipe data pada source column dan target column berbeda dan sebaliknya.
        Unique Count Source Jumlah variasi nilai pada source column.
        Unique Count Target Jumlah variasi nilai pada target column. Untuk menunjukan jumlah variasi yang dihasilkan setelah dilakukan standarisasi.
        Affected Rows Jumlah data yang berubah karena aturan pada domain rules.
        Domain Rules Informasi aturan standarisasi yang digunakan pada kolom tersebut.
    6. Data Profiling

      1. Membentuk Konfigurasi Data Profiling

        Data Profiling berfungsi untuk mengenali pola data pada semua kolom suatu table. Langkah untuk menggunakan menu data profiling adalah sebagai berikut:

        • Pilih menu Data Profiling, halaman tersebut akan menampilkan list konfigurasi yang sudah pernah dibentuk dan dijalankan. Tekan tombol Add Configuration untuk membentuk konfigurasi baru.

          LinkR User Guide
        • Langkah berikutnya, bentuklah konfigurasi profiling sesuai dengan kebutuhan. Contoh tampilan awal konfigurasi, seperti gambar di bawah:

          LinkR User Guide
        • Pilih dropdown Source Connection untuk mengisi dropdown Source Schema. Kemudian pilih dropdown Source Schema untuk menampilkan dropdown Source Table. Untuk konfigurasi target hanya terdapat Target Connection, ketika di proses hasil profiling akan terbentuk secara otomatis pada Target Connection. Setelah selesai tekan tombol Save.

      2. Menjalankan Profiling Process

        Proses profiling dapat dijalankan dengan menekan tombol run pada list konfigurasi seperti gambar di bawah. Sama seperti pada menu Data Staging. Status pada list konfigurasi akan berubah mengikuti kondisi proses. Status akan bernilai success jika proses sudah selesai, kemudian tombol summary dapat ditekan.

        LinkR User Guide

        Fungsi dari tombol pada kolom Action adalah sebagai berikut:

        Tombol Catatan
        Run Menjalankan proses profiling.
        Summary Pindah ke halaman summary berisi informasi statistic dan pola setiap kolom hasil run.
        Edit Config Pindah ke halaman konfigurasi untuk melihat atau mengubah konfigurasi.
        Hide / Show Menyembunyikan konfigurasi agar tidak terlihat dan diperhitungkan pada halaman home atau sebaliknya.
        Delete Menghapus konfigurasi dan komponen yang berhubungan dengan konfigurasi tersebut. Tetapi tidak menghapus table trx_profilr_log dan trx_profilr_summary di koneksi target.
      3. Output Profling Summary

        Halaman profiling summary memiliki informasi jumlah kolom dan baris beserta waktu yang dibutuhkan untuk melakukan proses tersebut. Selain itu terdapat informasi keunikan data dan pola dari setiap kolom yang ada. Tampilan halaman summary tersebut adalah seperti gambar di bawah:

        LinkR User Guide

        Pada informasi summary dari setiap kolom memiliki 4 jenis View Type. View Type tersebut dapat diubah dengan menggunakan dropdown di kanan atas atau menggunakan 4 icon di dalam masing-masing kolom. Penjelasan variasi dan view untuk setiap tampilan tersebut dari kiri ke kanan adalah sebagai berikut:

        View Type Catatan
        Data Keunikan data pada kolom tersebut.
        Pattern Pola Regex dari setiap data yang terdapat pada kolom tersebut.
        Pattern Alias Nama dan kelompok lain dari tampilan pattern.
        Pattern Length Alias Sama seperti Pattern Alias tetapi melihat panjang data tersebut.
    7. Data Deduplication

      1. Membentuk Konfigurasi Data Deduplication

        Di dalam Data deduplication, data terbagi menjadi 2 jenis, Data Reference dan Data Compare. Data reference adalah golden/master record dari suatu kelompok. Data compare adalah data yang terdeteksi duplikasi untuk suatu golden record tertentu.

        Koneksi yang telah dibentuk dapat digunakan pada saat melakukan konfigurasi deduplikasi. Langkah untuk membentuk konfigurasi baru deduplikasi adalah sebagai berikut:

        • Pilih menu Data Deduplication, halaman tersebut akan menampilkan list konfigurasi yang sudah pernah dibentuk dan dijalankan. Tekan tombol Add Configuration untuk membentuk konfigurasi baru.

          LinkR User Guide
        • Langkah berikutnya, bentuklah konfigurasi deduplikasi sesuai dengan kebutuhan. Contoh tampilan awal konfigurasi, seperti gambar di bawah:

          LinkR User Guide
        • Pilih dropdown Connection untuk mengisi dropdown Table. Kemudian pilih dropdown Table untuk menampilkan list column dan tekan tombol Add Rule untuk mengeluarkan konfigurasi kolom yang akan dipakai untuk proses deduplikasi.

          LinkR User Guide
        • Penjelasan menu konfigurasi pada bagian atas adalah sebagai berikut:

          LinkR User Guide
          Konfigurasi Catatan
          Configuration Name Nama Konfigurasi sebagai penanda konfigurasi digunakan untuk keperluan tertentu. Nama Konfigurasi ini akan ditampilkan pada list konfigurasi.
          Connection Dropdown berisi list koneksi yang dapat digunakan. Akan bernilai koneksi yang sudah dibentuk di Database Manager.
          Table Dropdown yang akan terisi dengan list table yang ada pada koneksi yang telah dipilih.

          List table yang dapat digunakan untuk proses deduplikasi harus mengikuti aturan seperti berikut:
          1. Tidak boleh ada kata linkr di depan nama table.
          2. Tidak boleh ada kata exact, reference, match, metric, master, stage, alter, state, history di akhir nama table.
          3. Harus memiliki kolom Primary Key.
          4. Tipe data pada semua kolom hanya boleh bernilai VARCHAR, INT, BIGINT, DATE, DATETIME, FLOAT, DECIMAL.
          Source Order By

          Dropdown kolom dan operator yang digunakan untuk mengurutkan data sebelum melakukan proses deduplikasi. Kolom yang dipilih pada bagian ini harus dimasukkan dalam kolom konfigurasi deduplikasi.

          Jika kolom yang dipilih tidak berhubungan dengan konfigurasi deduplikasi maka diberikan nilai pembobotan 0 dan Skip di centang.

          ID Column Dropdown kolom yang akan diisi dengan kolom nilai unique seperti primary key.
          Golden Record Rule

          Dropdown untuk menentukan aturan row data mana yang akan dipakai sebagai acuan (Reference) dari sekelompok data.

          Primary adalah aturan prioritas pertama dan Secondary adalah aturan yang akan dipakai jika pemilihan acuan tidak dapat ditentukan oleh Primary.

          Initial, Check Checkbox jika tercentang maka akan melakukan proses deduplikasi dari awal (initial).
          Initial, Uncheck Checkbox jika tidak tercentang maka akan melakukan proses lanjutan dari data deduplikasi sebelumnya (Incremental).
          Rule Playground Menu untuk melakukan percobaan perhitungan yang akan dilakukan oleh konfigurasi Rule terhadap data yang dicoba.
          Rule Template Menu untuk menggunakan rekomendasi rule untuk kondisi tertentu.
        • Terdapat dua jenis proses deduplikasi pada LinkR, berdasarkan dicentang dan tidak dicentangnya konfigurasi Use Rule Threshold.

          • Konfigurasi Use Rule Threshold Tidak Tercentang

            LinkR User Guide
          • Konfigurasi Use Rule Threshold Tercentang

            LinkR User Guide
        • Tombol Add Field untuk menambahkan kolom yang diperhatikan untuk melakukan deduplikasi pada rule tersebut.

        • Tombol Add Rule untuk menambahkan Rule yang dipakai untuk melakukan deduplikasi. Rule yang digunakan bersifat menambahkan hasil duplikasi, jika tidak sesuai dengan Rule 1 maka akan dicoba dengan Rule 2, dan seterusnya.

        • Penjelasan menu konfigurasi tersebut adalah sebagai berikut:

          Konfigurasi Catatan
          Is Null Similar

          Konfigurasi untuk menentukan jika nilai null dibandingkan dengan null maka akan dianggap sama atau berbeda.

          Jika dicentang maka akan dianggap sama. Jika tidak dicentang maka akan dianggap berbeda.

          Use Rule Threshold, Check

          Jika Use Rule Threshold di Check mark, maka kita dapat menyesuaikan Weight.

          Dengan menggunakan weight, nilai dari setiap kolom akan dikalikan dengan nilai weight kemudian dijumlahkan dan dibandingkan dengan nilai pada Rule Threshold.

          Use Rule Threshold, Uncheck

          Jika Use Rule Threshold di Uncheck, maka anda kita dapat menyesuaikan Individual Threshold.

          Dengan menggunakan Individual Threshold, data dianggap duplikat atau sama jika semua kolom memenuhi nilai Individual Threshold masing-masing kolom.

          Rule Threshold Semakin besar threshold nya maka akan semakin sulit untuk mendapatkan matching records karena deduplikasi yang dicari semakin akurat/exact match.
          Skip

          Jika fitur skip digunakan, maka kolom yang dipilih untuk di skip tidak akan melewati proses deduplikasi tetapi akan dibandingkan secara nilai threshold atau weight.

          Salah satu kebutuhan lainnya adalah untuk kolom Source Order By.

          Destination Column List nama kolom sumber yang digunakan untk proses deduplikasi.
          Comparator

          Nilai untuk menentukan cara menentukan score pada kolom tersebut.

          Comparator terdiri dari 2 jenis yaitu WORD dan FUZZY.

          1. WORD: Untuk membandingkan secara kata.

          2. FUZZY: Untuk menemukan data dengan penulisan yang salah.

          Standardized Domain

          Dropdown untuk menentukan karakterisik data pada kolom tersebut, pemilihan nilai pada Standardized Domain akan membantu proses untuk menentukan hasil.

          Nilai karakteristik yang sesuai dengan kolom tersebut akan meningkatkan hasil akurasi.

          Nilai Standardized Domain terdiri dari 5 jenis yaitu:

          1. ID_NUMBER: Data 1 kata atau rangkaian angka seperti KTP dan NPWP.

          2. ADDRESS: Data yang memiliki banyak kata.

          3. NAME: Data yang terdiri dari 2 sampai 5 kata.

          4. BIRTHDATE: Data dengan format tanggal seperti yyyy-mm-dd.

          5. POSTAL_CODE: Data 1 kata dengan panjang 5 huruf atau angka.

          6. EMAIL: Data dengan format email.

          Weight

          Konfigurasi Ketika Use Rule Threshold tercentang. (Menggunakan Threshold global).

          Glossary:

          1. Threshold Global: Batas bawah untuk keseluruhan column yang digunakan untuk proses deduplikasi.

          2. Weight: Bobot hasil duplikasi yang akan menjadi acuan batas bawah dan keseluruhan column yang dilakukan deduplikasi (Hanya dapat digunakan Ketika threshold global digunakan/dipakai).

          Individual Threshold

          Data dianggap sama jika semua kolom memiliki nilai yang sama atau diatas Individual Threshold.

          Glossary:

          1. Threshold: Kondisi batas bawah yang menyatakan score itu termasuk dari kondisi duplikat (batas bawah masing-masing column).

          2. Score: Adalah nilai dari kemiripan dari data tersebut (0-1).

          Non Repeat Jika suatu kolom memiliki nilai Non Repeat tercentang maka nilai pada kolom tersebut pada sebuah kelompok data tidak boleh sama atau berulang.
        • Setelah selesai melakukan konfigurasi, tekan tombol save yang ada atas kanan halaman. Konfigurasi yang telah dibentuk dapat di ubah dan dipakai untuk membentuk konfigurasi baru.

      2. Menjalankan Deduplication Process

        Proses deduplikasi dapat dijalankan dengan menekan tombol run pada list konfigurasi seperti gambar di bawah. Akan ada progress bar pada nama konfigurasi yang sedang diproses. Ketika sudah selesai maka status dari konfigurasi tersebut akan bertuliskan success, kemudian tombol summary dan data steward dapat ditekan.

        LinkR User Guide

        Fungsi dari tombol pada kolom Action adalah sebagai berikut:

        Tombol Catatan
        Run Menjalankan proses deduplikasi.
        Data Steward Pindah ke halaman Data Steward, untuk melihat dan memverifikasi hasil deduplikasi.
        Summary Pindah ke halaman summary berisi informasi statistik hasil run.
        Show on Home Untuk memilih summary config yang akan ditampilkan pada halaman home.
        Edit Config Pindah ke halaman konfigurasi untuk melihat atau mengubah konfigurasi.
        Clone Membentuk konfigurasi baru berdasarkan konfigurasi lama/Duplikat konfigurasi yang telah dibuat sebelumnya.
        Hide / Show Menyembunyikan konfigurasi agar tidak terlihat dan diperhitungkan pada halaman home atau sebaliknya.
        Delete Menghapus konfigurasi dan komponen yang berhubungan dengan konfigurasi tersebut.
      3. Output Deduplication Summary

        Setelah process deduplikasi selesai, tekan tombol summary. Halaman akan berpindah ke halaman summary seperti gambar di bawah:

        LinkR User Guide

        Halaman tersebut akan menunjukkan beberapa summary dari hasil deduplikasi. Penjelasan terkait summary tersebut adalah sebagai berikut:

        Informasi Catatan
        Total Records Adalah jumlah record yang ada di table yang di pilih.
        Master Records Adalah jumlah data yang telah di identifikasi sebagai referensi utama atau master data. Master data ini sendiri dapat dibagi menjadi dua kelompok data yaitu With Duplicates dan Without Duplicates.
        With Duplicates Records yang menjadi Data Reference (Master Records yang memiliki duplikat).
        Without Duplicates Master Records yang tidak memiliki data yang duplikat.
        Duplicate Records Adalah jumlah data lain yang telah diidentifikasi sebagai pasangan duplikat master data (atau data compare). Jenis duplikat ini terbagi menjadi dua kelompok Identical dan Non-Identical.
        Unique Records dari Duplicate Records Adalah jumlah cluster dari Duplicate Records. Nilainya akan sama dengan With Duplicates.
        Identical Duplikat data dengan penulisan data yang sama persis (Exact Match).
        Unique Records dari Identical Adalah data tidak sama persis/exact pada kumpulan, data identical.
        Non-Identical Duplikat data dengan kemiripan penulisan data (Similar).
        Unique Records dari Non-Identical Adalah data yang tidak sama persis/exact pada kumpulan, data Non-Identical

        Berikut juga keterangan pada grafik yang ada di tampilan summary:

        Grafik Catatan
        LinkR User Guide Bentuk Chart dari informasi Data Count Statistic
        LinkR User Guide Grafik frekuensi Scoring Similarity
        LinkR User Guide Grafik frekuensi jumlah data duplikat (Berapa banyak duplikasi dalam satu record)
      4. Data Steward

        Pada halaman summary atau pada list konfigurasi deduplikasi terdapat tombol Data Steward untuk masuk ke dalam halaman Data Steward. Halaman Data Steward digunakan untuk melihat data hasil dedup beserta aksi untuk mengubah hasil grouping dari proses.

        LinkR User Guide

        Aksi yang dapat dilakukan untuk mengubah hasil grouping adalah sebagai berikut:

        Aksi Catatan
        Merge Menggabungkan sebuah group kedalam sebuah group lainnya.
        Move Memindahkan row data kedalam sebuah group lainnya.
        Split Memisahkan row data dari group data tersebut ke dalam group baru.
        Make as Master Memilih row data tersebut menjadi row acuan. Data tersebut akan dipilih menjadi data yang mewakili data pada kelompoknya.
        Confirm / Unconfirm Menandai bahwa group data tersebut sudah terkonfirmasi atau sebaliknya.

        Aktivitas data steward tersebut akan tercatat dan dapat dilihat pada halaman audit trail melalui tombol History pada kanan atas. Fungsi dari menu pada kanan atas adalah sebagai berikut:

        Menu Catatan
        Export Steward Melakukan export data hasil deduplikasi ke dalam bentuk tabular excel file.
        Setting Table Konfigurasi untuk mengubah list kolom yang ditampilkan pada data steward atau mengganti nama kolom menjadi yang lain pada tampilan.
        History Masuk ke halaman Audit Trail proses data steward pada konfigurasi deduplikasi tersebut.
        Collapse All Menutup semua kelompok yang tampil pada data steward.
        Expand All Membuka semua kelompok yang tampil pada data steward.

        Terdapat juga beberapa dropdown yang akan mempengaruhi data yang dikeluarkan pada data steward. Nilai tersebut adalah sebagai berikut:

        Filter Catatan
        Score Filter Untuk mengeluarkan group data yang memiliki score memenuhi filter tersebut.
        Unconfirmed, Confirmed, All Untuk mengeluarkan group data berdasarkan status konfirmasi.
        All, have duplicates, unique

        Untuk mengeluarkan group data berdasarkan status group nya apakah memiliki data duplikat atau tidak. Akan mempengaruhi sifat dari search box. Sifat tersebut adalah sebagai berikut:

        1. All: Search box akan mencari data pada acuan/master maupun anggota/duplicate.

        2. Have Duplicates: Search box akan mencari pada data anggota/duplicate saja.

        3. Unique: Search box akan mencari pada acuan/master saja.

        Search box pada Data Steward memiliki 2 sifat seperti berikut:

        1. Data String atau Character, dapat mencari nilai dari potongan kata atau huruf.

        2. Data Integer atau angka, dapat mencari dari nilai lengkap.