Data Analytic dan Machine Learning


 Apa Itu Data

Data adalah kumpulan fakta-fakta yang merangkum situasi secara luas. KBBI mengartikan data sebagai informasi konkret yang digunakan sebagai dasar analisis dan penarikan kesimpulan. Data dapat berupa angka, teks, gambar, video, atau bentuk lainnya yang dapat diproses oleh komputer atau digunakan untuk keperluan analisis manual. Selain itu, data yang sudah diolah juga akan digunakan untuk membantu perusahaan dalam membuat keputusan yang lebih baik, terkait hal-hal tertentu misalnya strategi penjualan, pemasaran, dan lain sebagainya.

apa itu Data Analyst

Data analyst adalah orang yang meneliti dan menganalisis informasi menggunakan alat analisis data. Seorang Data Analyst juga bertanggung jawab dalam menganalisis data numerik, mengolah dan menerjemahkan data yang ada ke suatu laporan yang bisa mudah dipahami oleh perusahaan.

Apa itu big data

Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data yang sangat besar dan kompleks yang terlalu banyak untuk dianalisis dan diproses menggunakan teknik dan metode tradisional. Istilah ini mencakup berbagai jenis data, termasuk data terstruktur dan tidak terstruktur, serta data yang dihasilkan dari berbagai sumber seperti media sosial, sensor, perangkat seluler, file log, dan server web.

Karena volume, variasi, dan kecepatan data terus meningkat dengan kecepatan eksponensial, pendekatan manajemen dan pemrosesan data tradisional tidak lagi memadai. Hal ini memunculkan konsep big data, yang membutuhkan teknologi dan teknik baru untuk menangani dan mendapatkan wawasan dari informasi yang sangat banyak ini.

apa itu Pandas DataFrame

Pandas Dataframe adalah struktur yang berisi data dua dimensi beserta label-label yang sesuai. Pandas DataFrame banyak digunakan dalam ilmu data, machine learning, komputasi ilmiah, dan banyak bidang lain yang memerlukan data intensif.

Pandas DataFrame mirip dengan tabel SQL atau spreadsheet yang seperti Excel atau Calc. Dalam banyak kasus, Pandas DataFrame lebih cepat, lebih mudah digunakan, dan lebih kuat dibandingkan dengan tabel atau spreadsheet karena mereka adalah bagian integral dari ekosistem Python dan NumPy.

Library visualisasi data pada bahasa Python

1. Matplotlib, merupakan package visualisasi data yang banyak digunakan di Python. Library ini mampu untuk menghasilkan visualisasi seperti histogram, grafik, plot, serta bisa di custom hingga bagian terkecil.
2. Seaborn, merupakan library yang sering digunakan bersamaan dengan matplotlib. Selain dibuat diatas library Matplotlib, library ini juga terintegrasi dengan numpy dan pandas. Warna dan tampilan yang disajikan dari library ini terlihat lebih menarik dan modern. 
3. Plotly. Selain R, Python juga memiliki library yang bernama plotly. Library ini menjadi salah satu library yang cukup interaktif serta memiliki banyak pilihan grafik, seperti histogram, heatmaps, dll. 
4. Geoplotlib, merupakan salah satu library yang menyediakan visualisasi data dalam bentuk map geografis.
5. Altair, merupakan package yang cukup interaktif serta tidak membutuhkan coding yang rumit. Hanya saja, untuk menggunakan library ini, kamu akan membutuhkan library lain seperti python 3.6, entrypoints, jsonschema, NumPy, Pandas, dan Toolz karena library ini sangat bergantung pada library tersebut.

apa itu Machine Learning

machine learning (ML) merupakan sebuah mesin yang dirancang untuk belajar secara mandiri tanpa arahan langsung dari pengguna. Berakar pada disiplin ilmu seperti statistika, matematika, dan data mining, pembelajaran mesin memungkinkan mesin untuk menganalisis data dan mempelajari informasi tanpa perlu diprogram ulang atau diperintah secara eksplisit. Kemampuan ML untuk memperoleh data dan mempelajari informasi yang ada memungkinkannya untuk menjalankan berbagai tugas yang bervariasi, tergantung pada konteks pembelajaran yang telah dilakukan. 

outlier pada data analytic

Dalam analisis data, outlier adalah nilai-nilai dalam dataset yang sangat berbeda dari yang lain. Outlier dapat menunjukkan variabilitas dalam pengukuran, kesalahan eksperimental, atau sesuatu yang baru.

Dalam contoh dunia nyata, tinggi rata-rata jerapah sekitar 16 kaki. Namun, ada penemuan baru-baru ini tentang dua jerapah yang masing-masing setinggi 9 kaki dan 8,5 kaki. Kedua jerapah ini akan dianggap sebagai outlier dibandingkan dengan populasi jerapah pada umumnya.

Ketika melalui proses analisis data, outlier dapat menyebabkan anomali dalam hasil yang diperoleh. Ini berarti bahwa mereka memerlukan perhatian khusus dan, dalam beberapa kasus, harus dihapus agar dapat menganalisis data secara efektif.

model supervised learning

Model supervised learning adalah jenis model machine learning yang dilatih menggunakan dataset yang sudah diberi label. Dalam supervised learning, model belajar dari data input (fitur) dan output (label) yang diketahui untuk membuat prediksi atau keputusan berdasarkan data baru yang belum diberi label. 

cross validation sampling

Cross-validation sampling adalah teknik yang digunakan dalam machine learning untuk menilai seberapa baik model yang dilatih akan bekerja pada data yang tidak terlihat. Ini melibatkan membagi dataset asli ke dalam beberapa subset atau "folds" dan menggunakan beberapa di antaranya untuk pelatihan model, sementara yang lainnya digunakan untuk pengujian. Proses ini diulang beberapa kali dengan kombinasi yang berbeda untuk memastikan hasil evaluasi yang lebih andal dan mengurangi overfitting.

 hyperparameter tuning

Hyperparameter tuning adalah nilai untuk parameter yang digunakan untuk mempengaruhi proses pembelajaran. Selain itu, faktor-faktor lain, seperti bobot simpul juga dipelajari. Untuk menggeneralisasi pola data yang beragam, model machine learning yang sama akan memerlukan batasan, bobot, atau kecepatan pembelajaran yang berbeda.

Nilai-nilai ini dikenal sebagai hyperparameter, dan nilai tersebut harus disesuaikan agar model dapat melakukan tugas machine learning secara optimal. Hyperparameter tuning adalah proses mengidentifikasi tuple hyperparameters yang menghasilkan model optimal yang meminimalkan fungsi kerugian yang telah ditentukan pada data independen yang disediakan.


Komentar

Postingan Populer