Kharisma Wiati Gusti

0 orang menyukai ini
Suka
Summary

Project ini melakukan analisis korelasi terhadap dua variabel, yaitu curb_weight dan length. 
Tahapan yang dilakukan adalah 
1. Import dataset menggunakan library pandas. dataset yang digunakan adalah data automotive yang diperoleh dari UCI Machine Learning. 
2. Melakukan normalisasi untuk mengubah missing value menjadi 0 dan mengubah tipe data.
3. Melakukan analisis korelasi untuk mengukur hubungan atau ketergantungan antara dua variabel atau lebih dalam dataset. 
4. Hasil analisis yang diperoleh adalah  nilai pearson antara curb weight dan length adalah 0.88 yang berarti hubungan antara keduanya memiliki korelasi positif yang kuat. Nilai p value yang ditunjukkan juga lebih kecil dari 0.05 yang menandakan bahwa nilai bersifat konsisten.

Description

Project ini melakukan analsisi korelasi untuk memeriksa hubungan atau ketergantungan antara dua atau lebih variabel dalam sebuah dataset. Ini membantu kita memahami sejauh mana perubahan dalam satu variabel terkait dengan perubahan dalam variabel lainnya.

  • Import Data digunakan untuk dapat membaca dan menggunakan library panda.
  • Import LIbrary
  1. Seaborn adalah library untuk membuat grafik dan statistik dengan menggunakan Python. Library ini dibangun berdasarkan library Matplotlib yang sudah ada. Kemudian terintegrasi dengan struktur data pada Pandas.
  2. Matplotlib merupakan salah satu library Python yang komprehensif digunakan sebagai visualisasi data baik statis maupun interaktif. Visualisasi yang dihasilkan oleh Matplotlib Python bisa disajikan baik dalam bentuk 2D ataupun 3D.

Perbedaan kedua antara Matplotlib dan Seaborn terletak pada sintaks yang digunakan untuk menghasilkan visualisasi data.

3. SciPy (Scientific Python) adalah perpustakaan open-source yang digunakan untuk perhitungan ilmiah tingkat tinggi. Jenis library ini dibangun di atas ekstensi NumPy dan bekerja bersama untuk menangani komputasi yang kompleks.

Library Pandas dapat membaca sebuah file data dan menampilkannya dalam format DataFrame. Pandas menyediakan beberapa function untuk membaca file sesuai dengan format file, contoh: read_csv untuk file .csv, read_excel untuk file Excel, read_gbq untuk membaca tabel dari Google BigQuery, dan lainnya.Untuk menampilkan informasi mengenai semua data, apakah berisi data Null atau tidak (missing value). Serta mengecek tipedata dari setiap variabel, karena selanjutnya untuk melakukan korelasi data harus berupa numerik.Informasi menjelaskan beberapa hal:

RangeIndex: 205 entries, 0 to 204 menjelaskan bahwa terdapat 205 baris dengan indeks 0 sampai 204. Data columns (total 26 columns): menjelaskan terdapat total 26 kolom yang diikuti informasi tiap kolom di bawahnya. membuat pertanyaan-pertanyaan awal seperti:

Kolom mana saja yang memiliki missing value?

Berapa persentase missing value pada masing-masing kolom?

Apakah semua kolom sudah berasosiasi dengan tipe data yang benar?

Untuk mengisi data yang kosong, dapat dilakukan dengan mengganti data dengan angka numerik 0. Contoh kita mengganti Nilai ? dengan 0.

Dalam portofolio didapatkan Korelasi Pearson 0.8777284608306425. Nilai ini mendekati angka 1. Sehingga Curb-weight dan length memiliki korelasi positif, artinya setiap kenaikan curb-weight sebesar satu satuan maka nilai length memiliki peningkatan juga. Dan nilai P value 8.728145747823458e-67 yang berarti nilai lebih kecil dari 0.05 sehingga nilai signifikan dan dapat diterima.