Hash Table

1. Introduction

Hash Table adalah sebuah struktur data untuk memetakan kunci-kunci ke nilai-nilai (juga disebut Tipe Data Abstrak (Abstract Data Type, ADT) Tabel atau Map). Hash Table menggunakan sebuah fungsi hash untuk memetakan kunci-kunci besar ataupun bukan bilangan bulat ke indeks-indeks dalam range kecil (biasanya [0...hash_table_size-1]).


Kemungkinan dua kunci berbeda untuk bertabrakan (colliding) ke indeks yang sama cukup tinggi dan setiap dari potensi tabrakan (collision) harus diselesaikan untuk menjaga integritas data yang ada.


Terdapat beberapa strategi-strategi untuk memecahkan masalah tabrakan (collision resolution) yang akan disorot di visualisasi ini: Pengalamatan Terbuka (Open Addressing) (Linear Probing, Quadratic Probing, dan Double Hashing) dan Pengalamatan Tertutup (Closed Addressing) (Separate Chaining). Cobalah klik Search(8) untuk sebuah animasi contoh pencarian sebuah nilai di dalam Table Hash menggunakan teknik Separate Chaining.

2. Motivasi

Hashing adalah sebuah algoritma (lewat fungsi hash) yang memetakan set-set data besar dengan panjang variable, disebut kunci-kunci, tidak harus bilangan-bilangan bulat, ke set-set data bilangan bulat yang lebih kecil dengan panjang tertentu.


Sebuah Tabel Hash adalah struktur data yang menggunakan fungsi hash untuk memetakan secara efisien kunci-kunci ke nilai-nilai (ADT Tabel atau Map), untuk pencarian/pengambilan, pemasukkan, dan/atau penghapusan yang efisien.


Tabel Hash sering digunakan di berbagai perangkat lunak komputer, terutama untuk larik-larik asosiatif, indeks basis data, caches, dan sets.


Di Kuliah Maya ini, kita akan menyamping sebentar ke ADT Tabel, ide-ide dasar dari Hashing, diskusi dari Fungsi-fungsi Hash sebelum masuk ke detil-detil dari struktur data Tabel Hash itu sendiri.

2-1. ADT Tabel

Sebuah ADT Tabel harus mendukung setidaknya tiga operasi dibawah ini dengan seefisien mungkin:

  1. Cari(v) — tentukan apabila nilai v terdapat di dalam tabel atau tidak,
  2. Masukkan(v) — masukkan nilai v kedalam ADT,
  3. Hapus(v) — hapus nilai v dari ADT.

Tabel Hash adalah salah satu pilihan implementasi until ADT Tabel ini (pilihan yang lain adalah ini).


PS1: Untuk dua implementasi yang lebih lemah dari ADT Tabel, anda bisa meng-klik link berikut: array tidak beratur atau array teratur untuk membaca diskusi lebih dalam.


PS2: Dalam kelas langsung, anda mungkin mau membandingkan persyaratan-persyaratan dari ADT Table versus ADT List.

2-2. (Direct Addressing Table, DAT)

Ketika range dari kunci-kunci bilangan bulat adalah kecil, yaitu [0..M-1], kita dapat menggunakan larik (Boolean) A yang pada awalnya kosong dengan ukuran M dan mengimplementasikan operasi-operasi ADT Tabel secara langsung:

  1. Cari(v): Cek apakah A[v] adalah benar (terisi) atau salah (kosong),
  2. Masukkan(v): Set A[v] menjadi benar (terisi),
  3. Hapus(v): Set A[v] menjadi salah (kosong).

Itu saja, kita menggunakan kunci bilangan bulat kecil itu sendiri untuk menentukan alamatnya di larik A, maka namanya adalah Pengalamatan Langsung (Direct Addressing). Jelas bahwa semua operasi-operasi ADT Tabel utama adalah O(1).


Catatan: Ide ini juga digunakan ditempat lain, misalkan dalam Pengurutan dengan Menghitung (Counting Sort).

2-3. Contoh dari DAT

Di Singapura (akurat sampai Sep 2021), rute-rute bus dinomori dari [2..991].


Tidak semua bilangan-bilangan bulat diantara [2..991] digunakan pada saat ini, misalkan tidak ada rute bus 989 — Cari(989) harus mengembalikan salah. Sebuah rute bus baru x mungkin ditambahkan, yaitu Masukkan(x) atau sebuah rute bus y yang sudah ada mungkin tidak dilanjutkan, yaitu Hapus(y).


Karena range dari rute-rute bus yang memungkinkan adalah kecil, untuk menyimpan data apakah sebuah nomor rute bus ada atau tidak, kita bisa menggunakan sebuah DAT dengan sebuah larik Boolean dengan ukuran 1000.


Diskusi: Dalam kelas nyata, kita bisa membahas kenapa kita menggunakan 1 000 dan bukan 991 (atau 992).

2-4. Contoh dari DAT dengan Data Satelit

Sadari bahwa kita dapat selalu menambahkan data satelit daripada hanya menggunakan larik Boolean untuk menyimpan eksistensi dari kunci-kunci.


Contohnya, kita dapat menggunakan larik String asosiatif A untuk memetakan nomor rute bus ke nama operatornya, misalkan:

A[2] = "Go-Ahead Singapore",
A[10] = "SBS Transit",
A[183] = "Tower Transit Singapore",
A[188] = "SMRT Buses", dsb.

Diskusi: Dapatkah anda memikirkan beberapa contoh-contoh DAT di kehidupan nyata?

2-5. Jawabannya

[This is a hidden slide]

2-6. Batasan-Batasan DAT

Kunci-kuncinya harus (atau bisa dengan mudah dipetakan ke) nilai-nilai bilangan-bulat tidak-negatif. Sadari bahwa DAT dasar memiliki masalah dalam versi penuh dari contoh di dua slide sebelumnya karena sesungguhnya ada variasi-variasi dari nomor rute bus di Singapore, yaitu 96B, 151A, NR10, dsb.


Range dari kunci-kunci haruslah kecil. Penggunaan memori akan (luar biasa) besar jika kita memiliki range yang (luar biasa) besar.


Kunci-kuncinya harus padat, yaitu tidak banyak celah-celah dalam nilai-nilai kunci. DAT akan memiliki terlalu banyak sel-sel kosong kalau tidak.


Kita akan mengatasi batasan-batasan ini dengan hashing.

3. Hashing: Ide-Ide

Dengan hashing, kita dapat:

  1. Memetakan (beberapa) kunci-kunci bukan-bilangan-bulat ke kunci-kunci bilangan bulat,
  2. Memetakan bilangan bulat besar ke bilangan bulat yang lebih kecil.

3-1. Contoh Nomor-Nomor Telepon

Contohnya, kita mempunyai N = 400 nomor-nomor telepon Singapura (nomor telepon Singapura memiliki 8 digit, jadi ada maksimum 10^8 = 100M nomor-nomor telepon yang memungkinkan di Singapura).


Daripada menggunakan sebuah DAT dan menggunakan larik raksaksa berukuran M = 100 Juta, kita bisa menggunakan fungsi hash sederhana berikut ini h(v) = v%997.


Dengan ini, kita memetakan nomor-nomor telepon 8 digit 6675 2378 dan 6874 4483 masing-masing menjadi hanya 3 digit h(6675 2378) = 237 dan h(6874 4483) = 336. Oleh karena itu, kita hanya perlu mempersiapkan larik dengan ukuran M = 997 (atau sederhanakan saja ke 1000) daripada M = 100 Juta.

3-2. Pratinjau (Preview) Table Hash

Dengan hashing, kita sekarang dapat mengimplementasikan operasi-operasi ADT Tabel berikut menggunakan larik bilangan bulat (daripada larik Boolean) sebagai berikut:

  1. Cari(v): Mengecek bila A[h(v)] != -1 (kita menggunakan -1 untuk sel yang kosong dengan asumsi v ≥ 0),
  2. Masukkan(v): Set A[h(v)] = v (kita hash v ke h(v) sehingga kita juga perlu menyimpan kunci v),
  3. Hapus(v): Set A[h(v)] = -1 — untuk dijelaskan lebih lanjut.

3-3. Table Hash dengan Data Satelit

Jika kita memiliki kunci-kunci yang dipetakan ke data satelit dan kita mau menyimpan kunci-kunci aslinya juga, kita dapat mengimplementasikan Tabel Hash menggunakan larik pasangan (pair) (Bilangan bulat, tipe-data-satelit) sebagai berikut:

  1. Cari(v): Kembalikan A[h(v)], yang adalah pair (v, data-satelit), mungkin kosong,
  2. Masukkan(v, data-satelit): Set A[h(v)] = pair(v, data-satelit),
  3. Hapus(v): Set A[h(v)] = (pair kosong) — untuk dijelaskan lebih lanjut.

Tetapi, pada saat ini anda harusnya menyadari bahwa sesuatu tidak komplet...

3-4. Tabrakan (Collision)

Sebuah fungsi hash mungkin, dan sebenarnya sangat mungkin, memetakan kunci-kunci yang berbeda (bilangan bulat atau tidak) ke slot bilangan bulat yang sama, yaitu pemetaan banyak-ke-satu daripada pemetaan satu-ke-satu.


Contohnya, h(6675 2378) = 237 dari tiga slide-slide sebelumnya dan jika kita mau memasukkan nomor telepon lain yaitu 6675 4372, kita akan mendapatkan sebuah masalah karena h(6675 4372) = 237 juga.


Situasi ini disebut sebagai tabrakan (collision), yaitu dua kunci (atau lebih) memiliki nilai hash yang sama.

3-5. Kemungkinan terjadi Tabrakan

Paradoks Ulang Tahun (von Mises) menanyakan hal ini: 'Berapa banyak orang (jumlah kunci-kunci) harus berada di sebuah ruangan (Tabel Hash) dengan ukuran 365 kursi-kursi (sel-sel) sebelum kemungkinan bahwa beberapa orang memiliki hari ulang tahun yang sama (tabrakan (collision), dua kunci ter-hash ke sel yang sama), mengabaikan tahun-tahun kabisat (yaitu semua tahun memiliki 365 hari), menjadi > 50 persen (yaitu lebih mungkin terjadi daripada tidak)?'


Jawabannya, yang mungkin mengejutkan bagi sebagian dari kita, adalah Reveal.


Mari melakukan beberapa kalkulasi.

3-6. Perhitungannya

Biarlah Q(n) adalah kemungkinan ulang tahun unik untuk n orang didalam sebuah ruangan.
Q(n) = 365/365 × 364/365 × 363/365 × ... × (365-n+1)/365,
yaitu, ulang tahun dari orang pertama bisa hari apapun dari 365 hari, ulang tahun orang kedua bisa hari apapun dari 365 hari kecuali hari ulang tahun orang pertama, dan seterusnya.


Biarlah P(n) adalah kemungkinan ulang tahun yang sama (tabrakan (collision)) untuk n orang didalam sebuah ruangan.
P(n) = 1-Q(n).


Kita menghitung bahwa P(23) = 0.507 > 0.5 (50%).


Oleh karena itu, kita hanya memerlukan 23 orang (sedikit jumlah kunci-kunci) didalam sebuah ruangan (Tabel Hash) dengan ukuran 365 kursi-kursi (sel-sel) supaya (lebih dari) 50% kemungkinan tabrakan (collision) terjadi (ulang tahun dari dua orang yang berbeda diruangan tersebut adalah salah satu dari 365 hari/slot).

3-7. Dua Isu-Isu Penting

Isu 1: Kita telah melihat fungsi hash sederhana seperti h(v) = v%997 digunakan dalam contoh Nomor-nomor Telepon yang memetakan range besar dari kunci-kunci bilangan bulat ke range yang lebih kecil dari kunci-kunci bilangan bulat, tetapi bagaimana dengan kunci-kunci yang bukan bilangan bulat? Bagaimana caranya melakukan hashing dengan efisien untuk hal tersebut?


Isu 2: Kita telah melihat bahwa dengan hashing, atau pemetaan, range besar ke range yang lebih kecil, mungkin sekali akan ada tabrakan (collision). Bagaimana caranya mengatasi hal tersebut?

4. Fungsi-Fungsi Hash

Bagaimana caranya untuk menciptakan sebuah fungsi hash yang baik dengan properti yang diinginkan berikut ini?

  1. Cepat untuk dihitung, yaitu dalam O(1),
  2. Menggunakan slot-slot/ukuran Table Hash M seminimum mungkin,
  3. Menyebarkan kunci-kunci ke alamat-alamat dasar yang berbeda seragam mungkin ∈ [0..M-1],
  4. Mengalami tabrakan sesedikit mungkin.

4-1. Dasar-Dasar

Misalkan kita mempunya tabel hash dengan ukuran M dimana kunci-kunci digunakan untuk mengidentifikasikan data satelit dan sebuah fungsi hash spesifik digunakan untuk menghitung nilai hash.


Sebuah nilai hash/kode hash dari kunci v dihitung dari kunci v dengan menggunakan sebuah fungsi hash untuk mendapatkan sebuah bilangan bulat dalam range 0 ke M-1. Nilai hash ini digunakan sebagai indeks/alamat dasar/rumah dari masukan Tabel Hash untuk data-satelit.

4-2. Contoh dari Fungsi Hash yang Jelek

Di contoh Nomor-nomor Telepon, jika kita mendefinisikan h(v) = floor(v/1 000 000), yaitu kita memilih dua digit pertama dari sebuah nomor telepon.

h(66 75 2378) = 66
h(68 74 4483) = 68

Diskusi: Apa yang terjadi jika anda menggunakan fungsi hash seperti itu? Petunjuk: Lihat ini.

4-3. Jawabannya

[This is a hidden slide]

4-4. Fungsi Hash Sempurna

Sebelum mendiskusikan kenyataan, mari mendiskusikan kasus ideal: fungsi-fungsi hash sempurna.


Sebuah fungsi hash sempurna adalah pemetaan satu-ke-satu antara kunci-kunci dan nilai-nilai hash, yaitu tidak ada tabrakan sama sekali. Hal ini memungkinkan jika semua kunci-kunci diketahui sebelumnya. Contohnya, sebuah pencarian compiler/interpreter untuk kata-kata kunci reserved. Tetapi, kasus-kasus seperti ini jarang.


Fungsi hash sempurna yang paling minim terpenuhi ketika ukuran tabel sama dengan jumlah kata-kata kunci yang disediakan. Kasus ini lebih jarang lagi.


Jika anda tertarik, anda bisa mengeksplorasi GNU gperf, sebuah generator fungsi hash sempurna yang tersedia secara gratis yang ditulis dalam bahasa C++ yang secara otomatis membuat fungsi-fungsi sempurna (sebuah program C++) dari daftar kata-kata kunci yang disuplai oleh pengguna.

4-5. Meng-hash Integer - Praktik Terbaik

Orang-orang telah mencoba berbagai cara untuk meng-hash range besar bilangan bulat ke range bilangan bulat yang lebih kecil secara seragam mungkin. Dalam Kuliah Maya ini, kita meloncat langsung ke salah satu versi yang terbaik dan yang paling populer: h(v) = v%M, yaitu petakan v ke Tabel Hash dengan ukuran M slot. Operasi (%) adalah operasi modulo yang memberikan kita sisa setelah pembagian. Ini tentu cepat, yaitu O(1) dengan asumsi bahwa v tidak lebih besar dari batasan tipe data Integer yang natural.


Ukuran Tabel Hash M di set sebagai bilangan prima yang cukup besar tidak dekat dengan pangkat 2, sekitar 2+ kali lebih besar dari jumlah ekspektasi kunci-kunci N yang akan pernah digunakan di dalam Tabel Hash. Dengan cara ini, maka load factor α = N/M < 0.5 — kita akan melihat nanti bahwa dengan memiliki load factor rendah, dengan demikian merelakan ruang-ruang kosong, sebenarnya membantu memperbaiki performa Tabel Hash.


Diskusi: Apa yang terjadi jika kita mengeset M sebagai pangkat dari 10 (desimal) atau pangkat dari 2 (biner)?

4-6. Jawabannya

[This is a hidden slide]

4-7. Meng-hash String - Praktik Terbaik

Orang-orang juga telah mencoba berbagai cara untuk meng-hash String ke range bilangan bulat yang kecil secara seragam mungkin. Dalam Kuliah Maya ini, kita meloncat langsung ke salah satu versi yang terbaik dan yang paling populer, yang ditunjukkan dibawah:

int fungsi_hash(string v) { // asumsi 1: v memakai ['A'..'Z'] saja
int jumlah = 0; // asumsi 2: v adalah string pendek
for (auto& c : v) // untuk setiap karakter c dalam v
jumlah = ((jumlah*26)%M + (c-'A'+1))%M; // M adalah ukuran tabel
return jumlah;
}

Diskusi: Dalam kelas nyata, diskusikan komponen-komponen dari fungsi hash diatas, misalkan kenapa kita loop melalui semua karakter-karakter?, akankah itu lebih lambat dari O(1)?, kenapa mengalikan dengan 26?, apa yang terjadi jika string v menggunakan lebih dari karakter-karakter HURUF BESAR?, dsb

4-8. Jawabannya

[This is a hidden slide]

5. Resolusi Tabrakan

Ada dua ide-ide utama: Metode Pengalamatan Terbuka (Open Addressing) dibandingkan dengan Pengalamatan Tertutup (Closed Addressing).


Dalam Open Addressing, semua kunci-kunci yang di-hash terletak di sebuah larik tunggal. Kode hash dari sebuah kunci adalah alamat dasarnya. Tabrakan (Collision) diselesaikan dengan mengecek/menyelidiki (probing) berbagai alamat-alamat alternatif (sehingga dinamai terbuka (open)) di dalam tabel berdasarkan aturan tertentu.


Dalam Closed Addressing, Table Hash nya terlihat seperti Daftar Adjacency (Adjacency List) (sebuah struktur data graf). Kode hash dari sebuah kunci memberikan alamat dasar yang tetap/tertutup (closed). Tabrakan (Collision) diselesaikan dengan menambahkan kunci-kunci yang bertabrakan tersebut didalam sebuah Senarai Berantai (Ganda) yang diidentifikasikan oleh alamat dasarnya.

5-1. Open Addressing (OA)

Ada tiga teknik-teknik resolusi tabrakan Open Addressing (OA) yang dibahas di visualisasi ini: Linear Probing (LP), Quadratic Probing (QP), dan Double Hashing (DH).


Untuk berpindah diantara ketiga mode, silahkan klik tajuk (header) yang bersangkutan.


Biarlah:
M = HT.length = ukuran sekarang dari tabel hash,
base = (key%HT.length),
step = langkah probing sekarang,
secondary = smaller_prime - key%smaller_prime (untuk menghindari angka nol — akan dibahas segera)

Kita akan segera melihat bahwa urutan-urutan penyelidikan (probing) di ketiga mode adalah:
Linear Probing: i=(base+step*1) % M,
Quadratic Probing: i=(base+step*step) % M, dan
Double Hashing: i=(base+step*secondary) % M.

5-2. Separate Chaining (SC)

Teknik resolusi tabrakan Separate Chaining (SC) sederhana saja. Kita menggunakan M kopi dari struktur data tambahan, biasanya Senarai Berantai Ganda. Jika dua kunci a dan b keduanya memiliki nilai hash yang sama i, keduanya akan ditambahkan ke (depan/belakang) dari Senarai Berantai Ganda i (dalam visualisasi ini, kita menambahkan ke belakang dalam O(1) dengan bantuan penunjuk ekor). Itu saja, dimana kunci-kunci akan dimasukkan benar-benar hanya tergantung kepada fungsi hash itu sendiri, maka kita juga memanggil Separate Chaining sebagai teknik resolusi tabrakan Pengalamatan Tertutup (Closed Addressing).


Jika kita menggunakan Separate Chaining, load factor α = N/M menjelaskan panjang rata-rata dari ke-M daftar-daftar dan ini akan menentukan performa dari Cari(v) karena kita harus mengeksplorasi α elemen-elemen secara rata-rata. Karena Hapus(v) — juga membutuhkan Cari(v), performanya akan mirip dengan Cari(v). Masukkan(v) dengan jelas adalah O(1).


Jika kita bisa membatasi α menjadi sebuah konstanta kecil (betul jika kita tahu N terbesar yang diharapkan dalam aplikasi Tabel Hash kita sehingga kita dapat mengeset M dengan tepat), maka operasi-operasi Cari(v), Masukkan(v), dan Hapus(v) menggunakan Separate Chaining akan menjadi O(1).

6. Visualisasi

Lihatlah visualisasi Table Hash Table diatas.


Dalam visualisasi ini, kami tidak memperbolehkan pemasukkan dari kunci-kunci duplikat.


Dikarenakan ruangan terbatas pada layar, kami membatasi ukuran maksimum Table Hash menjadi M = 19.


Table Hash divisualisasikan secara horisontal seperti sebuah larik dimana indeks 0 ditaruh di sisi paling kiri dan indeks M-1 ditaruh di sisi paling kanan tetapi detil-detilnya berbeda ketika kita memvisualisasikan teknik collision resolution tipe Open Addressing dibandingkan dengan Separate Chaining.


Bahas: Apa yang harus diubah untuk mengijinkan kunci-kunci duplikat?

6-1. Versi Open Addressing

Ada tiga teknik-teknik resolusi tabrakan Pengalamatan Terbuka (Open Addressing) yang dibahas di visualisasi ini: Linear Probing (LP), Quadratic Probing (QP), dan Double Hashing (DH).


Untuk ketiga teknik-teknik tersebut, setiap sel Tabel Hash ditampilkan sebagai sebuah simpul dengan nilai sel [0..99] yang ditampilkan sebagai label simpul. Tanpa kehilangan makna umum, kami tidak menunjukkan data satelit apapun dalam visualisasi ini karena kami mengkonsentrasikan hanya kepada pengaturan kunci-kunci. Kami mencadangkan nilai -1 untuk mengindikasikan 'sel KOSONG' (divisualisasikan sebagai simpul kosong) dan -2 untuk mengindikasikan 'sel TERHAPUS' (divisualisasikan sebagai sebuah simpul dengan label singkatan "DEL"). Indeks-indeks sel berkisar antara [0..M-1] ditunjukkan sebagai label merah dibawah setiap simpul.

6-2. Versi Separate Chaining

Untuk teknik resolusi tabrakan Separate Chaining (SC), baris pertama berisikan M penunjuk-penunjuk "H" (Head/kepala) dari M Senarai Berantai Ganda.


Lalu, setiap Senarai Berantai Ganda i berisikan semua kunci-kunci yang semuanya ter-hash ke i dalam urutan apapun. Secara matematis, semua kunci-kunci yang bisa diekspresikan sebagai i (mod M) ter-hash ke DLL i. Lagi-lagi, kami tidak menaruh data satelit di visualisasi ini.

7. Linear Probing (LP)

Dalam teknik resolusi tabrakan Linear Probing, kita menelusuri kedepan satu indeks setiap saat untuk slot kosong/terhapus berikutnya (kembali kedepan ketika kita telah mencapai slot terakhir) bilamana terjadi tabrakan.


Contohnya, mari asumsikan bahwa kita memulai dengan Tabel Hash kosong HT dengan ukuran tabel M = HT.length = 7 seperti yang ditunjukkan diatas yang menggunakan indeks 0 ke M-1 = 7-1 = 6. Sadri bahwa 7 adalah bilangan prima. Fungsi hash (primer) sederhana saja, h(v) = v%M.


Walk-through ini akan menunjukkan anda langkah-langkah yang diambil oleh operasi-operasi Masukkan(v), Cari(v), dan Hapus(v) ketika menggunakan Linear Probing sebagai teknik resolusi tabrakan.

7-1. Masukkan([18, 14, 21])

Sekarang klik Insert([18,14,21]) — tiga pemasukkan individual dalam satu perintah.


Ulasan (akan ditunjukkan setelah anda mengklik tombol diatas).


Secara formal, kita mendeskripsikan indeks Linear Probing i sebagai i = (base+step*1) % M dimana base adalah nilai hash (primer) dari kunci v, yaitu h(v) dan step adalah langkah Linear Probing yang dimulai dari 1.


Tip: Untuk melakukan kalkulasi mental yang cepat dari sebuah bilangan bulat (kecil) V modulo M, kita secara sederhana mengurangi V dengan kelipatan terbesar dari MV, yaitu 18%7 = 18-14 = 4, karena 14 adalah kelipatan terbesar dari 7 yang ≤ 18.

7-2. Masukkan([1, 35])

Sekarang klik Insert([1,35]) (selain dari tiga nilai-nilai pertama yang sudah dimasukkan di slide sebelumnya).


Rekap (akan ditunjukkan setelah anda mengklik tombol diatas)

7-3. Cari(35) dan Cari(8)

Sekarang kita mengilustrasikan operasi Cari(v) dimana kita menggunakan Linear Probing sebagai teknik resolusi tabrakan. Langkah-langkah yang diambil sangat mirip dengan operasi Masukkan(v), yaitu kita mulai dari nilai hash kunci (primer) dan mengecek jika kita telah menemukan v, kalau tidak kita maju satu indeks kedepan satu per satu (kembali ke depan jika perlu) dan mengecek ulang apakah kita telah menemukan v. Kita berhenti ketika kita menjumpai sel kosong yang berarti v tidak berada dalam Tabel Hash sama sekali (karena operasi Masukkan(v) sebelumnya harusnya sudah menaruh v disana kalau tidak).


Sekarang klik Search(35) — anda harus melihat urutan penyelidikan (probing) [0,1,2,3 (kunci 35 ditemukan)].


Sekarang klik Search(8) — [1,2,3,4, 5 (sel kosong, jadi kunci 8 tidak ditemukan di Tabel Hash)].

7-4. Hapus(v) - Pendahuluan

Sekarang mari diskusikan operasi Hapus(v).


Jika kita baru saja mengeset sel HT[i] = KOSONG langsung dimana i adalah indeks yang mengandung v (setelah probing linear jika diperlukan), apakah anda menyadari bahwa kita akan menyebabkan sebuah masalah? Kenapa?


Petunjuk: Ulas tiga slide-slide terakhir tentang bagaimana Masukkan(v) dan Cari(v) bekerja.

7-5. Jawabannya

[This is a hidden slide]

7-6. Hapus(21)

Sekarang mari lihat Hapus(v) yang lengkap. Jika kita menemukan v pada indeks i (setelah Linear Probing jika diperlukan), kita harus mengeset HT[i] = TERHAPUS (disingkat sebagai DEL dalam visualisasi ini) dimana DEL adalah simbol spesial (secara umum anda harus hanya menggunakan simbol yang tidak dipakai di aplikasi anda) untuk mengindikasikan bahwa sel tersebut bisa di-lewati jika perlu oleh Cari(v) di masa mendatang, tetapi bisa ditimpa oleh Masukkan(w) di masa mendatang. Strategi ini desebut sebagai Penghapusan Malas (Lazy Deletion).


Sekarang klik Remove(21) — [0,1 (kunci 21 ditemukan dan kita set H[1] = DEL)].


Setelah itu, silahkan lanjutkan diskusi di slide berikuktnya.

7-7. Cari(35) Lagi

Sekarang klik Search(35) — [0,1 (melewati sel yang TERHAPUS), 2,3 (menemukan kunci 35)].


Bayangkan apa yang akan terjadi jika kita salah mengeset H[1] = KOSONG.

7-8. Masukkan(28) - Timpa (Overwrite) DEL

Sekarang klik Insert(28) — anda harusnya melihat barisan probing [0,1 (menemukan sel dengan simbol DEL)], jadi sel ini sebenarnya bisa ditimpa dengan nilai baru tanpa mempengaruhi kebenaran dari Cari(v) di masa mendatang. Jadi, kita taruh 28 di indeks 1.

7-9. Pengelompokan Primer, Bagian 1

Meskipun kita bisa mengatasi tabrakan dengan Linear Probing, ini bukan cara yang paling efektif.


Kita mendefinisikan sebuah kluster sebagai kumpulan dari slot-slot yang terisi secara berurutan. Sebuah cluster yang meliputi alamat dasar dari sebuah kunci disebut sebagai kluster primer dari kunci tersebut.


Sekarang sadari bahwa Linear Probing bisa menciptakan primary cluster yang besar yang akan meningkatkan waktu pengerjaan dari operasi-operasi Cari(v)/Masukkan(v)/Hapus(v) lebih dari O(1) yang diiklankan.


Lihat contoh diatas dengan M = 11 dan kita telah memasukkan kunci-kunci yang semuanya adalah 6 (modulo 11), yaitu semua memiliki sisa hasil bagi 6 jika dibagi dengan by 11. Sekarang lihat seberapa 'pelan' Insert(94) jadinya.

7-10. Urutan Linear Probing

Urutan penyelidikan (probe) dari Linear Probing bisa secara formal dideskripsikan sebagai berikut:

 h(v) // alamat dasar
(h(v) + 1*1) % M // langkah probing ke-1 jika terjadi tabrakan
(h(v) + 2*1) % M // langkah probing ke-2 jika masih terjadi tabrakan
(h(v) + 3*1) % M // langkah probing ke-2 jika masih terjadi tabrakan
...
(h(v) + k*1) % M // langkah probing ke-k, dsb...

Selama Masukkan(v), jika terjadi tabrakan tetapi ada slot kosong (atau TERHAPUS) yang tersisa di Tabel Hash, kita pasti akan menemukannya setelah paling banyak M langkah-langkah Linear Probing. Dan ketika kita menemukannya, isu tabrakan akan terselesaikan, tetapi kluster primer dari kunci v diperluas karenanya dan operasi-operasi Tabel Hash di masa mendatang akan menjadi sedikit lebih lambat juga. Cobalah Search(94) yang lambat pada Tabel Hash yang sama dengan slide sebelumnya tetapi dengan banyak penanda-penanda TERHAPUS.

7-11. Pengelompokan Primer, Bagian 2

Di slide sebelumnya (Kluster Primer, Bagian 1), kita memecahkan asumsi bahwa fungsi hash harus dengan uniform mendistribusikan kunci-kunci disekitar [0..M-1]. Di contoh berikutnya, kita akan menunjukkan kalau masalah kluster primer dapat tetap terjadi meski fungsi hash mendistribusikan kunci-kunci secara uniform sekitar [0..M-1].


Di layar, anda melihat M = 11 dimana 4 kunci-kunci pertama telah dimasukkan {11, 2, 4, 6}. Jika kita lalu mengisi 4 kunci-kunci berikutnya {22, 24, 26, 28}, kunci-kunci ini akan pada awalnya bertabrakan dengan sel-sel yang telah berisi {11, 2, 4, 6}, memiliki probe-probe satu-langkah "pendek", lalu dengan melakukan hal itu 'menutup' sel-sel kosong dan secara tidak sengaja meng-annex (atau menggabungkan) kluster-kluster tetangga (yang sebelumnya terpisah)) menjadi satu kluster primer yang panjang. Sehingga pemasukan kunci berikutnya {33} yang mendarat pada (permulaan dari) kluster primer panjang ini akan pada akhirnya melakukan hampir O(M) langkah-langkah probing hanya untuk menemukan sebuah sel kosong. Cobalah Insert([22,24,26,28,33]).

8. Quadratic Probing (QP)

Untuk mengurangi primary clustering, kita bisa memodifikasi urutan penyelidikan (probe) menjadi:

 h(v) // alamat dasar
(h(v) + 1*1) % M // langkah probing ke-1 jika terjadi tabrakan
(h(v) + 2*2) % M // langkah probing ke-2 jika masih terjadi tabrakan
(h(v) + 3*3) % M // langkah probing ke-3 jika masih terjadi tabrakan
...
(h(v) + k*k) % M // langkah probing ke-k, dsb...

Seperti itu, penyelidikannya (probe) meloncat secara kuadratik, kembali ke depan Tabel Hash seperlunya.


Sebuah kesalahan yang paling sering karena hal ini adalah Quadratic Probing tipe lain:
Melakukan h(v), (h(v)+1) % M, (h(v)+1+4) % M, (h(v)+1+4+9) % M, ...

8-1. Masukkan(38)

Asumsikan bahwa kita telah memanggil Masukkan(18) dan Masukkan(10) ke Tabel Hash yang pada awalnya kosong dengan ukuran M = HT.length = 7. Karena 18%7 = 4 dan 10%7 = 3, 18 dan 3 tidak bertabrakan dan keduanya masing-masing berada di indeks 4 dan 3 seperti yang ditunjukkan diatas.


Sekarang, mari klik Insert(38).


Ulangan (akan ditunjukkan setelah anda mengklik tombol diatas).

8-2. Hapus(18) dan Cari(38) Lagi

Operasi-operasi Hapus(x) dan Cari(y) didefinisikan dengan mirip. Hanya saja kali ini kita menggunakan Quadratic Probing dan bukan Linear Probing.


Contohnya, asumsikan bahwa kita telah memanggil Hapus(18) setelah slide sebelumnya dan kita menandai HT[4] = TERHAPUS. Jika kita lalu memanggil Search(38), kita akan menggunakan urutan Quadratic Probing yang sama seperti slide sebelumnya, tetapi menembus HT[4] yang sudah di tandai sebagai TERHAPUS.

8-3. Lebih Baik dari Linear Probing?

Sekilasi, Quadratic Probing yang meloncat +1, +4, +9, +16, ... secara kuadratik sepertinya bisa menyelesaikan isu primary clustering yang kita hadapi dengan Linear Probing sebelumnya, tetapi akah ini adalah teknik resolusi tabrakan yang sempurna?


Cobalah Insert([12,17]).


Apakah anda menyadari apa yang baru saja terjadi?

8-4. Detil-Detilnya

Kita bisa memasukkan 12 dengan mudah karena h(12) = 12%7 = 5 sebelumnya kosong (lihat diatas).


Tetapi kita akan memiliki masalah mayor dalam memasukkan kunci 17 bahkan ketika kita masih memiliki 3 slot kosong karena:
h(17) = 17%7 = 3 sudah terisi oleh kunci 10,
(3+1*1) % 7 = 4 sudah terisi oleh kunci 18,
(3+2*2) % 7 = 0 sudah terisi oleh kunci 38,
(3+3*3) % 7 = 5 sudah terisi oleh kunci 12,
(3+4*4) % 7 = 5 lagi sudah terisi oleh kunci 12,
(3+5*5) % 7 = 0 lagi sudah terisi oleh kunci 38,
(3+6*6) % 7 = 4 lagi sudah terisi oleh kunci 18,
(3+7*7) % 7 = 3 lagi sudah terisi oleh kunci 10,
Akan terjadi siklus selamanya jika kita melanjutkan Quadratic Probing ini...


Meskipun kita masih memiliki beberapa (3) sel-sel kosong, kita tidak bisa memasukkan nilai baru 17 ini kedalam Tabel Hash...

8-5. Sebuah Teorema

Jika α < 0.5 dan M adalah sebuah bilangan prima (> 3), maka kita bisa selalu mendapatkan slot kosong menggunakan Quadratic Probing. Ingat: α adalah load factor dan M adalah ukuran Tabel Hash (HT.length).


Jika kedua persyaratan diatas terpenuhi, kita bisa membuktikan bahwa M/2 indeks-indeks Quadratic Probing pertama, diluar alamat dasar h(v) adalah berbeda dan unik.


Tetapi tidak ada garansi setelah itu. Sehingga jika kita mau menggunakan Quadratic Probing, kita perlu menjamin bahwa α < 0.5 (tidak dipaksakan dalam visualisasi ini tetapi kita keluar dari loop setelah M langkah untuk menghindari infinite loop).

8-6. Sebuah Pembuktian

Kita akan menggunakan pembuktian dengan kontradiksi. Kita pertama berasumsi bahwa dua langkah Quadratic Probing:
x dan y, x != y (misalkan x < y), bisa menghasilkan alamat yang sama modulo M.

h(v) + x*x = h(v) + y*y (mod M)
x*x = y*y (mod M) // hapus h(v) dari kedua sisi
x*x - y*y = 0 (mod M) // pindahkan y*y ke sisi kiri
(x-y)*(x+y) = 0 (mod M) // atur ulang formula

Sekarang, antara (x-y) atau (x+y) harus sama dengan nol.
Karena asumsi kita bilang bahwa x != y, maka (x-y) tidak bisa 0.
Karena 0 ≤ x < y ≤ (M/2) dan M adalah bilangan prima > 3 (sebuah bilangan bulat ganjil),
maka (x+y) juga tidak mungkin bisa 0 modulo M.


Kontradiksi!


Jadi M/2 langkah-langkah pertama dari Quadratic Probing tidak bisa menghasilkan alamat yang sama modulo M

(jika kita mengeset M sebagai bilangan prima lebih besar dari 3).


Diskusi: Bisakah kita membuat Quadratic Probing menggunakan ~50% sel-sel tabel yang lainnya?

8-7. Quadratic Probing yang Lebih Baik

[This is a hidden slide]

8-8. Pengelompokan Sekunder

Dalam Quadratic Probing, clusters terbentuk sepanjang jalur probing, bukan sekitar alamat dasar seperti pada Linear Probing. Clusters ini disebut Secondary Clusters.


Secondary clusters terbentuk sebagai akibat dari menggunakan pola yang sama dalam probing oleh semua kunci-kunci, yaitu jika dua kunci yang berbeda memiliki alamat dasar yang sama, urutan Quadratic Probing mereka akan sama.


Untuk menggambarkan ini, lihatlah layar dengan M = 19. Kami telah mengisi Tabel Hash dengan hanya 7 kunci-kunci (jadi faktor beban α = 7/19 ≥ 0.5) dan Tabel Hash kelihatan 'cukup kosong' (tidak ada kluster primer yang besar dan jelas). Tetapi, jika kita lalu memasukkan Insert(38), meskipun fakta bahwa ada banyak (19-7 = 12) sel-sel kosong dan 19 != 38 (kunci-kunci berbeda yang tidak sengaja dihash ke indeks 0), kita akhirnya melakukan 7 langkah-langkah probing melalui kluster sekunder 'yang kurang kelihatan' ini.


Secondary Clustering dalam Quadratic Probing tidak sejelek primary clustering dalam Linear Probing karena sebuah fungsi hash yang baik harusnya secara teori menyebarkan kunci-kunci ke alamat-alamat dasar yang berbeda ∈ [0..M-1] pada mulanya.

9. Double Hashing (DH)

Untuk mengurangi clustering tipe primary dan secondary, kita dapat memodifikasi urutan probe ke:

 h(v) // alamat dasar
(h(v) + 1*h2(v)) % M // langkah probing ke-1 jika terjadi tabrakan
(h(v) + 2*h2(v)) % M // langkah probing ke-2 jika masih terjadi tabrakan
(h(v) + 3*h2(v)) % M // langkah probing ke-3 jika masih terjadi tabrakan
...
(h(v) + k*h2(v)) % M // langkah probing ke-k, dsb...

Seperti itu, probe nya meloncat sesuai nilai dari fungsi hash kedua h2(v), wrapping around Table Hash seperlunya.

9-1. Fungsi Hash Sekunder h2(v)

Jika h2(v) = 1, maka Double Hashing bekerja sama persis seperti Linear Probing.
Jadi secara umum kita mau h2(v) > 1 untuk menghindari primary clustering.


Jika h2(v) = 0, maka Double Hashing tidak bekerja karena alasan yang sangat jelas karena langkah penyelidikan (probing) apapun dikalikan dengan 0 tetaplah 0, yaitu kita tetap di alamat dasar selamanya pada setiap tabrakan. Kita perlu menghindari hal ini.


Biasanya (untuk kunci-kunci bilangan bulat), h2(v) = M' - v%M' dimana M' adalah bilangan prima yang lebih kecil dari M.
Ini membuat h2(v) ∈ [1..M'], yang adalah cukup beragam untuk menghindari secondary clustering.


Penggunaan fungsi hash sekunder membuat Double Hashing secara teori susah untuk mengalami isu clustering primary ataupun secondary.

9-2. Masukkan([35, 42])

Klik Insert([35,42]) untuk memasukkan 35 dan lalu 42 ke Table Hash saat ini diatas.


Rekap (akan ditunjukkan setelah anda mengklik tombol diatas).

9-3. Hapus(17) dan Cari(35) Lagi

Operasi-operasi Hapus(x) dan Cari(y) didefinisikan dengan mirip. Hanya saja kali ini kita menggunakan Double Hashing dan bukan Linear Probing atau Quadratic Probing.


Contohnya, asumsikan bahwa kita telah memanggil Hapus(17) setelah slide sebelumnya dan kita menandai HT[3] = TERHAPUS. Jika kita lalu memanggil Search(35), kita akan menggunakan urutan Double Hashing yang sama seperti slide sebelumnya, tetapi menembus HT[3] yang sudah ditandai sebagai TERHAPUS.

9-4. Teknik Collision Resolution OA yang Baik

Pada kesimpulannya, teknik resolusi tabrakan Pengalamatan Terbuka (Open Addressing) harus:

  1. Selalu menemukan slot kosong jika ada,
  2. Mengurangi clustering (jenis apapun),
  3. Memberikan urutan penyelidikan (probe) yang berbeda jika 2 kunci-kunci yang berbeda bertabrakan,
  4. Cepat, O(1).

Sekarang, mari lihat tes kasus yang sama yang menyulitkan Quadratic Probing sebelumnya. Sekarang cobalah Insert(38) lagi. Meskipun h(19) = h(38) = 0 dan mereka bertabrakan, langkah-langkah probing mereka tidak sama: h2(19) = 17-19%17 = 15 tidak sama dengan h2(38) = 17-38%17 = 13.


Diskusi: Double Hashing sepertinya memenuhi semua syarat. Tetapi... Apakah strategi Double Hashing cukup fleksibel untuk bisa digunakan sebagai implementasi library default dari sebuah Tabel Hash? Mari kita lihat...

10. Separate Chaining (SC)

Coba Insert([9,16,23,30,37,44]) untuk melihat bagaimana operasi Masukkan(v) bekerja jika kita menggunakan Separate Chaining sebagai teknik collision resolution. Pada pemasukan-pemasukan acak, performanya bagus dan setiap pemasukan dengan jelas adalah O(1).


Tetapi, jika kita mencoba Insert([79,68,90]), sadari bahwa semua bilangan-bilangan bulat {76,68,90} adalah 2 (modulo 11) jadi semuanya akan ditambahkan ke (bagian belakang dari) Senarai Berantai Ganda 2. Kita akan memiliki sebuah rantai yang panjang di senarai itu. Catat bahwa karena limitasi layar, kami membatasi panjang maksimum dari setiap Senarai Berantai Ganda sebesar 6.

10-1. Cari(35) dan Hapus(7)

Coba Search(35) untuk melihat bahwa Cari(v) bisa dibuat berjalan dalam O(1+α).


Coba Remove(7) untuk melihat bahwa Hapus(v) bisa dibuat berjalan dalam O(1+α) juga.


Jika α besar, performa Separate Chaining tidak benar-benar O(1). Tetapi, jika kita secara kasar mengetahui potensial jumlah terbesar dari kunci-kunci N yang aplikasi kita akan pernah gunakan, maka kita bisa mengeset ukuran tabel M seperlunya supaya α = N/M adalah angka positif (floating-point) yang sangat rendah, dengan demikian membuat performa Separate Chaining diharapkan O(1).

10-2. Open Addressing vs Separate Chaining?

Diskusi: Setelah semua penjelasan-penjelasan ini, mana dari kedua teknik collision resolution yang lebih baik?

10-3. Jawaban (Sekarang)

[This is a hidden slide]

11. Tambahan-Tambahan

Anda telah mencapai akhir dari materi-materi dasar dari struktur data Table Hash ini dan kami mendorong anda untuk mengeksplorasi lebih jauh di Mode Eksplorasi.


Tetapi, kami masih mempunyai beberapa tantangan-tantangan Table Hash untuk anda yang diuraikan di bagian ini.

11-1. Hash Ulang

Performa dari Tabel Hash menurun ketika load factor α menjadi lebih tinggi. Untuk teknik resolusi tabrakan Quadratic Probing (standar), pemasukkan bisa gagal jika Tabel Hash memiliki α > 0.5.


JIka itu terjadi, kita bisa melakukan hash ulang. Kita buat Tabel Hash lain sekitar dua kali lebih besar dengan fungsi hash yang baru. Kita lalui semuai kunci-kunci di Tabel Hash asli, hitung ulang nilai-nilai hash baru, dan memasukkan ulang kunci-kunci (dan dengan data satelitnya) ke Tabel Hash yang baru dan lebih besar, sebelum pada akhirnya kita menghapus Tabel Hash yang lama dan lebih kecil.


Sebuah aturan praktis adalah untuk melakukan hash ulang ketika α ≥ 0.5 jika kita menggunakan Pengalamatan Terbuka (Open Addressing) dan ketika α > konstanta kecil (dekat dengan 1.0, sesuai kebutuhan) jika kita menggunakan Separate Chaining.


Jika kita mengetahui nilai maksimum dari total kunci-kunci yang mungkin dipakai, kita bisa selalu mempengaruhi α menjadi angka kecil.

11-2. Implementasi Table Hash

Tetapi, jika anda perlu mengimplementasikan sebuah Tabel Hash dalam C++, Python, atau Java dan kunci-kunci anda adalah Integer atau Strings, anda bisa menggunakan C++ STL, perpustakaan standar Python, atau Java API yang sudah built-in. Mereka sudah memiliki implementasi built-in yang baik dari fungsi-fungsi hash default untuk Integer atau String.


Lihat C++ STL unordered_map, unordered_set, Python dictsetatau Java HashMap, HashSet.


Untuk C++, catat bahwa implementasi-implementasi std::multimap/std::multiset juga tersedia dimana kunci-kunci duplikat diperbolehkan.


Untuk OCaml, kita bisa menggunakan Hashtbl.


Tetapi, inilah implementasi Separate Chaining sederhana versi kami: HashTableDemo.cpp | py | java.