
Histogram digunakan untuk menampilkan distribusi atau sebaran dari kumpulan data numerik. Dalam histogram, data dibagi menjadi beberapa interval (bin), dan frekuensi data dalam setiap interval ditampilkan dalam bentuk batang.
Dalam artikel ini akan dibahas mengenai apa itu histogram, dan bagaimana cara membuatnya menggunakan Matplotlib.
Perbedaan Histogram dengan Barchart
Import package yang akan digunakan. Dalam hal ini kita gunakan matplotlib untuk visualisai dan numpy untuk membuat data dummy.
import matplotlib.pyplot as plt
import numpy as npUntuk contoh pertama kita akan menggunakan data berikut ini.
# Contoh data tinggi badan dalam cm
tinggi_badan = [145, 150, 152, 148, 155, 160, 140,
142, 157, 145, 149, 151, 153,
158, 162, 143, 147, 154, 156, 159]Untuk menampilkan histogram kita gunakan fungsi plt.hist() atau axes.hist()
# Membuat histogram
plt.hist(tinggi_badan)
# Menambahkan label dan judul
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Frekuensi')
plt.title('Histogram Tinggi Badan')
# Menampilkan grafik
plt.show()
Fungsi hist() memiliki beberapa parameter yang penting untuk melakukan kustomisasi, di antaranya yaitu:
Berikut ini contoh penggunaan beberapa parameter di atas untuk melakukan kustomisasi
plt.hist(tinggi_badan, bins=5, edgecolor='black', color='grey')
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Frekuensi')
plt.title('Histogram Tinggi Badan')
plt.show()
Histogram dapat digunakan untuk membandingkan sebaran dari dua atau lebih dataset. Dengan menempatkan histogram berdampingan atau bersamaan dalam satu grafik, kita dapat dengan mudah melihat kesamaan dan perbedaan dalam pola distribusi.
Untuk membandingkan beberapa histogram dalam satu grafik yang sama, kita dapat memanfaatkan parameter alpha untuk mengatur transparansi tiap histogram.
Dalam contoh ini kita akan menggunakan data yang digenerate secara random menggunakan fungsi numpy.
Kita buat dua dataset tinggi badan dengan sebaran normal, menggunakan fungsi random.normal().
Fungsi ini menerima 3 parameter : nilai mean sebagai pusat distribusi, standar deviasi, dan ukuran/jumlah dataset.
tinggi_badan_grup1 = np.random.normal(145, 6, 100)
tinggi_badan_grup2 = np.random.normal(155, 7, 100)plt.hist(tinggi_badan_grup1, bins=20, alpha=0.5,
label='Grup 1', edgecolor='grey')
plt.hist(tinggi_badan_grup2, bins=20, alpha=0.5,
label='Grup 2', edgecolor='brown')
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Frekuensi')
plt.title('Histogram Tinggi Badan Dua Kelompok')
plt.legend()
plt.show()
Kita juga dapat membandingkan sebaran beberapa grup dengan menampilkan histogramnya secara bersisihan menggunakan subplot.
fig, axs = plt.subplots(2,layout='constrained')
axs[0].hist(tinggi_badan_grup1, bins=20, edgecolor='black')
axs[1].hist(tinggi_badan_grup2, bins=20, edgecolor='black')
axs[0].set_title('Tinggi badan Kelompok 1')
axs[1].set_title('Tinggi badan Kelompok 2')
fig.suptitle('Perbandingan Sebaran Tinggi Badan Antar Kelompok\n')
plt.show()
Histogram adalah alat yang sangat berguna untuk memvisualisasikan distribusi data numerik. Dengan Matplotlib, kita dapat dengan mudah membuat histogram yang informatif dan menarik. Memahami parameter-parameter penting seperti bins, range, dan density dapat membantu dalam membuat histogram yang sesuai dengan kebutuhan analisis data.
Simak juga tutorial-tutorial sebelumnya