Back to: Analisis Big Data
Back to: Analisis Big Data
Banyak tipe chart atau diagram yang dapat digunakan dalam visualisasi data. Berikut beberapa jenis chart yang sering digunakan.
Bar chart atau diagram batang adalah salah satu jenis visualisasi data yang paling umum digunakan. Diagram ini menggambarkan data kategorikal, dengan menggunakan batang untuk mewakili nilai numerik dari setiap kategori. Setiap batang mewakili satu kategori, dan tinggi atau panjang batang mewakili nilai yang dibandingkan. Semakin tinggi batang, semakin besar nilai yang diwakilinya.
Bar chart digunakan untuk membandingkan nilai antar kategori. Jika salah satu variabelnya berupa waktu (hari, tahun, bulan, dll.), bar chart dapat menunjukkan perubahan dalam satu kategori dari waktu ke waktu, maupun menunjukkan trend.
Diagram batang dapat diorientasikan secara vertikal ataupun horizontal. Diagram batang vertikal disebut juga diagram kolom/column chart.
Diagram batang harus diplot/ditampilkan dengan garis dasar bernilai nol. Diagram yang dimulai dari nilai selain nol dapat memberikan kesan yang keliru terhadap proporsi nilai yang sebenarnya.
Misalnya jika chart di atas alih-alih menggunakan garis dasar 0, digunakan garis dasar 200. Akan tampak seolah-olah terjadi perubahan yang jauh lebih besar dari tahun ke tahun dibanding kondisi sebenarnya. Pengunjung tahun 2022 seolah-olah mencapai 3 kali lipat lebih dibanding pengunjung tahun 2020, padahal kenyataannya tidak demikian.
Jika terdapat kita ingin melibatkan 2 variabel kategorik dalam perbandingan, maka kita dapat menggunakan grouped bar chart atau stacked bar chart.
Misalnya untuk contoh di atas, kita tambahkan kategori pengunjung berupa Member dan Non-Member.
Pada stacked bar chart, kita dapat tetap melihat total pengunjung harian, dan proporsi masing-masing sub-group. Akan tetapi jika kardinalitas dari variabel kedua (jumlah sub-grup) cukup besar, misalnya lebih dari 4, akan sulit untuk melihat fluktuasi atau perubahan dari masing-masing subgroup. Dalam kasus ini, grouped bar chart/column chart dapat menunjukkan dengan lebih jelas perubahan dari tiap subgroup.
Line chart atau diagram garis digunakan untuk menampilkan nilai kuantitatif/numerik dalam interval atau periode waktu yang berkesinambungan. Diagram garis paling sering digunakan untuk menunjukkan tren dan menganalisis perubahan data seiring waktu.
Arah atau kemiringan garis pada grafik menunjukkan pola dalam data: arah ke atas menunjukkan peningkatan nilai dan arah ke bawah menunjukkan penurunan.
Beberapa rangkaian data data lain dapat ditampilkan dalam satu diagram yang sama.
Histogram digunakan untuk menampilkan distribusi data dari sebuah variabel numerik yang kontinyu. Setiap batang dalam histogram mewakili frekuensi yang ditabulasikan pada setiap interval/bin. Sumbu x pada histogram menunjukkan nilai variabel kontinyu, dan sumbu y menunjukkan frekuensinya.
Histogram membantu memberikan perkiraan mengenai di mana nilai-nilai terkonsentrasi, berapa nilai-nilai ekstrimnya, apakah terdapat gap, atau adakah nilai-nilai yang tidak biasa.
Boxplot atau Box and whisker plot digunakan untuk menampilkan distribusi data dengan menggunakan nilai kuartilnya.
Garis yang memanjang sejajar dengan kotak disebut “kumis” atau whisker, digunakan untuk menunjukkan data yang nilainya di luar kuartil atas dan bawah. Pencilan/outlier biasanya ditampilkan sebagai titik yang sejajar dengan garis whisker.
Boxplot dapat ditampilkan secara vertikal atau horizontal.
Boxplot dapat digunakan untuk membandingkan distribusi antara banyak grup atau kumpulan data.
Pie chart merupakan salah satu jenis grafik yang paling populer, digunakan untuk menunjukkan proporsi dan persentase antar kategori, dengan membagi lingkaran menjadi segmen yang proporsional.
Setiap panjang busur mewakili proporsi setiap kategori, sedangkan lingkaran penuh mewakili jumlah total semua data.Jika nilainya berupa persentase, jumlah keseluruhan harus sama dengan 100%.
Scatterplot adalah jenis visualisasi data yang digunakan untuk menunjukkan hubungan antara dua variabel numerik. Dalam scatterplot, setiap titik data mewakili satu pengamatan dan posisinya pada sumbu X dan Y menunjukkan pasangan nilai dari dua variabel yang berbeda.
Dengan melihat pola dari grafik yang dihasilkan, kita dapat mendeteksi apakah ada hubungan atau korelasi antara kedua variabel tersebut, dan apa jenis korelasinya.
Jika nilai x dan nilai y meningkat seiring : korelasi positif. Jika nilai x meningkat seiring dengan menurunnya y, atau sebaliknya : korelasi negatif, atau tidak ada korelasi.
Selain itu dari bentuk polanya juga dapat diketahui apakah korelasinya bersifat linear, eksponensial, polinomial, atau acak.
Kekuatan korelasi dapat ditentukan dari kedekatan titik-titik data dalam grafik
Selain korelasi, scatterplot juga dapat menunjukkan adanya kelompok data (cluster), kesenjangan (gap), maupun pencilan (outlier).
Jika kita memiliki variabel ke-3, yang biasanya berupa kategorikal variabel, kita dapat merepresentasikan variabel ini dengan warna atau bentuk titik yang berbeda
Ketika data point yang divisualisasikan terlalu banyak atau terlalu rapat, kita akan sulit melihat pola scatterplot yang dihasilkan dan menentukan di mana pusat kerapatannya. Untuk mengatasinya kita dapat menggunakan density plot 2 dimensi (2d density plot).
Density plot 2 dimensi adalah scatterplot yang dihaluskan dan kontinu, yang diestimasi dari data. Bentuk estimasi yang paling umum adalah estimasi kepadatan kernel (kernel density estimation – KDE). Dalam metode ini, kurva kontinu (kernel) digambar pada setiap titik data dan semua kurva ini kemudian dijumlahkan untuk membuat estimasi kepadatan. Kernel yang paling sering digunakan adalah Gaussian kernel.
Heatmap digunakan untuk menampilkan informasi menggunakan skala warna dalam grid dua dimensi. Heatmap biasanya digunakan untuk memvisualisasikan data tabular di mana setiap sel grid mewakili kombinasi dari dua variabel kategorikal, dan intensitas warna digunakan untuk mewakili suatu nilai numerik.
Pada umumnya, skala warna mengarah dari warna yang lebih terang atau lebih gelap, yang mencerminkan nilai data yang lebih rendah atau lebih tinggi, sesuai dengan interval nilai yang ditentukan.
Heatmap dilengkapi dengan legend yang menunjukkan skala warna dan interval nilai yang diwakilinya. Pilihan warna solid juga dapat digunakan untuk mewakili beberapa rentang nilai (0-10, 11-20, 21-30, dll).
Heatmap dapat digunakan untuk menunjukkan korelasi antar dua variabel
Atau untuk menunjukkan pola atau trend dalam data