Tipe Chart/Diagram


Tipe Chart/Diagram

Banyak tipe chart atau diagram yang dapat digunakan dalam visualisasi data. Berikut beberapa jenis chart yang sering digunakan.

Bar Chart

Bar chart atau diagram batang adalah salah satu jenis visualisasi data yang paling umum digunakan. Diagram ini menggambarkan data kategorikal, dengan menggunakan batang untuk mewakili nilai numerik dari setiap kategori. Setiap batang mewakili satu kategori, dan tinggi atau panjang batang mewakili nilai yang dibandingkan. Semakin tinggi batang, semakin besar nilai yang diwakilinya.

Bar chart digunakan untuk membandingkan nilai antar kategori. Jika salah satu variabelnya berupa waktu (hari, tahun, bulan, dll.), bar chart dapat menunjukkan perubahan dalam satu kategori dari waktu ke waktu, maupun menunjukkan trend.

Diagram batang dapat diorientasikan secara vertikal ataupun horizontal. Diagram batang vertikal disebut juga diagram kolom/column chart.

Diagram batang harus diplot/ditampilkan dengan garis dasar bernilai nol. Diagram yang dimulai dari nilai selain nol dapat memberikan kesan yang keliru terhadap proporsi nilai yang sebenarnya.

Misalnya jika chart di atas alih-alih menggunakan garis dasar 0, digunakan garis dasar 200. Akan tampak seolah-olah terjadi perubahan yang jauh lebih besar dari tahun ke tahun dibanding kondisi sebenarnya. Pengunjung tahun 2022 seolah-olah mencapai 3 kali lipat lebih dibanding pengunjung tahun 2020, padahal kenyataannya tidak demikian.

Grouped dan Stacked Bar Chart

Jika terdapat kita ingin melibatkan 2 variabel kategorik dalam perbandingan, maka kita dapat menggunakan grouped bar chart atau stacked bar chart. 

Misalnya untuk contoh di atas, kita tambahkan kategori pengunjung berupa Member dan Non-Member. 

Pada stacked bar chart, kita dapat tetap melihat total pengunjung harian, dan proporsi masing-masing sub-group. Akan tetapi jika kardinalitas dari variabel kedua (jumlah sub-grup) cukup besar, misalnya lebih dari 4, akan sulit untuk melihat fluktuasi atau perubahan dari masing-masing subgroup. Dalam kasus ini, grouped bar chart/column chart dapat menunjukkan dengan lebih jelas perubahan dari tiap subgroup.

Line Chart

Line chart atau diagram garis digunakan untuk menampilkan nilai kuantitatif/numerik dalam interval atau periode waktu yang berkesinambungan. Diagram garis paling sering digunakan untuk menunjukkan tren dan menganalisis perubahan data seiring waktu.

Arah atau kemiringan garis pada grafik menunjukkan pola dalam data: arah ke atas menunjukkan peningkatan nilai dan arah ke bawah menunjukkan penurunan.

Beberapa rangkaian data data lain dapat ditampilkan dalam satu diagram yang sama.

Histogram

Histogram digunakan untuk menampilkan distribusi data dari sebuah variabel numerik yang kontinyu. Setiap batang dalam histogram mewakili frekuensi yang ditabulasikan pada setiap interval/bin. Sumbu x pada histogram menunjukkan nilai variabel kontinyu, dan sumbu y menunjukkan frekuensinya.

Histogram membantu memberikan perkiraan mengenai di mana nilai-nilai terkonsentrasi, berapa nilai-nilai ekstrimnya, apakah terdapat gap, atau adakah nilai-nilai yang tidak biasa. 

Boxplot

Boxplot atau Box and whisker plot digunakan untuk menampilkan distribusi data dengan menggunakan nilai kuartilnya.

Garis yang memanjang sejajar dengan kotak disebut “kumis” atau whisker, digunakan untuk menunjukkan data yang nilainya di luar kuartil atas dan bawah. Pencilan/outlier biasanya ditampilkan sebagai titik yang sejajar dengan garis whisker. 

Boxplot dapat ditampilkan secara vertikal atau horizontal.

Boxplot dapat digunakan untuk membandingkan distribusi antara banyak grup atau kumpulan data.

Pie Chart

Pie chart merupakan salah satu jenis grafik yang paling populer, digunakan untuk menunjukkan proporsi dan persentase antar kategori, dengan membagi lingkaran menjadi segmen yang proporsional. 

Setiap panjang busur mewakili proporsi setiap kategori, sedangkan lingkaran penuh mewakili jumlah total semua data.Jika nilainya berupa persentase, jumlah keseluruhan harus sama dengan 100%.

Scatterplot

Scatterplot adalah jenis visualisasi data yang digunakan untuk menunjukkan hubungan antara dua variabel numerik. Dalam scatterplot, setiap titik data mewakili satu pengamatan dan posisinya pada sumbu X dan Y menunjukkan pasangan nilai dari dua variabel yang berbeda.

Dengan melihat pola dari grafik yang dihasilkan, kita dapat mendeteksi apakah ada hubungan atau korelasi antara kedua variabel tersebut, dan apa jenis korelasinya.

Jika nilai x dan nilai y meningkat seiring : korelasi positif. Jika nilai x meningkat seiring dengan menurunnya y, atau sebaliknya : korelasi negatif, atau tidak ada korelasi.

Selain itu dari bentuk polanya juga dapat diketahui apakah korelasinya bersifat linear, eksponensial, polinomial, atau acak.

Kekuatan korelasi dapat ditentukan dari kedekatan titik-titik data dalam grafik

Selain korelasi, scatterplot juga dapat menunjukkan adanya kelompok data (cluster), kesenjangan (gap), maupun pencilan (outlier).

Jika kita memiliki variabel ke-3, yang biasanya berupa kategorikal variabel, kita dapat merepresentasikan variabel ini dengan warna atau bentuk titik yang berbeda

2D Density Plot

Ketika data point yang divisualisasikan terlalu banyak atau terlalu rapat, kita akan sulit melihat pola scatterplot yang dihasilkan dan menentukan di mana pusat kerapatannya. Untuk mengatasinya kita dapat menggunakan density plot 2 dimensi (2d density plot).

Density plot 2 dimensi adalah scatterplot yang dihaluskan dan kontinu, yang diestimasi dari data. Bentuk estimasi yang paling umum adalah estimasi kepadatan kernel (kernel density estimation – KDE). Dalam metode ini, kurva kontinu (kernel) digambar pada setiap titik data dan semua kurva ini kemudian dijumlahkan untuk membuat estimasi kepadatan. Kernel yang paling sering digunakan adalah Gaussian kernel.

Heatmap

Heatmap digunakan untuk menampilkan informasi menggunakan skala warna dalam grid dua dimensi. Heatmap biasanya digunakan untuk memvisualisasikan data tabular di mana setiap sel grid mewakili kombinasi dari dua variabel kategorikal, dan intensitas warna digunakan untuk mewakili suatu nilai numerik.

Pada umumnya, skala warna mengarah dari warna yang lebih terang atau lebih gelap, yang mencerminkan nilai data yang lebih rendah atau lebih tinggi, sesuai dengan interval nilai yang ditentukan.

Heatmap dilengkapi dengan legend yang menunjukkan skala warna dan interval nilai yang diwakilinya. Pilihan warna solid juga dapat digunakan untuk mewakili beberapa rentang nilai (0-10, 11-20, 21-30, dll).

Heatmap dapat digunakan untuk menunjukkan korelasi antar dua variabel

Atau untuk menunjukkan pola atau trend dalam data

Mid Project

This section does not have any lessons.

Apache Hadoop

This section does not have any lessons.

Apache Spark

This section does not have any lessons.

Apache Spark for Machine Learning

This section does not have any lessons.

Apache Airflow

This section does not have any lessons.

Realtime Architechture

This section does not have any lessons.


Sebuah program edukasi yang disusun oleh Solusi247 untuk membangun talenta data Indonesia

Contact Us

Segitiga Emas Business Park
Jl. Prof. Dr. Satrio KAV 6, Setia Budi
Jakarta Selatan
P: +62 21 579 511 32
M: info@datalearns247.com