Skip to content Skip to sidebar Skip to footer

16 Soal Tentang Data Mining + Kunci Jawaban

Latihan Soal PG Bab Data Mining

1. Algoritma K-nearest neighbors (K-NN) merupakan contoh dari:
A. Supervised learning
B. Unsupervised learning
C. Reinforcement learning
D. Semi-supervised learning

Jawaban: 
A. Supervised learning


2. Apa yang dimaksud dengan "bias-variance trade-off" dalam Machine Learning?
A. Kompromi antara kinerja model dan kompleksitas model
B. Kompromi antara jumlah sampel dan jumlah atribut dalam dataset
C. Kompromi antara kecepatan pembelajaran dan akurasi prediksi
D. Kompromi antara presisi dan recall dalam evaluasi model

Jawaban: 
A. Kompromi antara kinerja model dan kompleksitas model


3. Algoritma DBSCAN digunakan untuk:
A. Mengelompokkan data ke dalam cluster berdasarkan kepadatan
B. Menggabungkan data dari sumber yang berbeda
C. Mencari pola frekuensi itemset dalam dataset
D. Memprediksi kelas target berdasarkan atribut yang mirip dengan tetangga terdekat

Jawaban: 
A. Mengelompokkan data ke dalam cluster berdasarkan kepadatan


4. Apa yang dimaksud dengan "out-of-bag error" dalam Random Forest?
A. Error yang dihasilkan dari penggunaan model pada data yang tidak digunakan dalam pembuatan model
B. Error yang dihasilkan saat melakukan proses imputasi data
C. Error yang terjadi karena overfitting pada model
D. Error yang dihasilkan saat melakukan proses discretization pada data

Jawaban: 
A. Error yang dihasilkan dari penggunaan model pada data yang tidak digunakan dalam pembuatan model


5. Apa kegunaan metode "feature selection" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
C. Mencari pola frekuensi itemset dalam dataset
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: 
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan


6. Algoritma C4.5 digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun decision tree
D. Mengidentifikasi data yang tidak normal

Jawaban: 
C. Memprediksi kelas target dengan membangun decision tree


7. Apa yang dimaksud dengan "bag of words" dalam text mining?
A. Representasi vektor yang menghitung frekuensi kemunculan kata-kata dalam dokumen
B. Representasi grafis yang menggambarkan keterkaitan kata-kata dalam dokumen
C. Representasi hierarkis yang mengorganisir kata-kata dalam dokumen
D. Representasi semantik yang menggambarkan makna kata-kata dalam dokumen

Jawaban: 
A. Representasi vektor yang menghitung frekuensi kemunculan kata-kata dalam dokumen


8. Metode "link analysis" digunakan untuk:
A. Menganalisis pola dan struktur hyperlink di web
B. Menganalisis pola dalam data teks
C. Mengelompokkan data ke dalam cluster
D. Menggabungkan data dari sumber yang berbeda

Jawaban: 
A. Menganalisis pola dan struktur hyperlink di web


9. Algoritma k-means++ digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun decision tree
D. Mengidentifikasi data yang tidak normal

Jawaban: 
A. Mengelompokkan data ke dalam cluster


10. Apa yang dimaksud dengan "overfitting" dalam Machine Learning?
A. Model yang terlalu sederhana dan tidak dapat menggeneralisasi dengan baik
B. Model yang terlalu kompleks dan cenderung menghafal data latih
C. Model yang tidak dapat memprediksi kelas target dengan akurat
D. Model yang tidak mampu menangani data yang memiliki noise

Jawaban: 
B. Model yang terlalu kompleks dan cenderung menghafal data latih


11. Apa yang dimaksud dengan "precision" dalam evaluasi model?
A. Proporsi positif yang benar terhadap total prediksi positif
B. Proporsi negatif yang benar terhadap total prediksi negatif
C. Proporsi positif yang benar terhadap total data positif
D. Proporsi negatif yang benar terhadap total data negatif

Jawaban: 
A. Proporsi positif yang benar terhadap total prediksi positif


12. Apa yang dimaksud dengan "recall" dalam evaluasi model?
A. Proporsi positif yang benar terhadap total prediksi positif
B. Proporsi negatif yang benar terhadap total prediksi negatif
C. Proporsi positif yang benar terhadap total data positif
D. Proporsi negatif yang benar terhadap total data negatif

Jawaban: 
C. Proporsi positif yang benar terhadap total data positif


13. Algoritma decision tree digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun pohon keputusan
D. Mengidentifikasi data yang tidak normal

Jawaban: 
C. Memprediksi kelas target dengan membangun pohon keputusan


14. Apa yang dimaksud dengan "bagging" dalam ensemble learning?
A. Menggabungkan model prediktif dengan melakukan voting
B. Menggabungkan atribut dari beberapa dataset yang berbeda
C. Menggabungkan teknik klasifikasi dan clustering
D. Menggabungkan data numerik dan data kategorikal dalam satu dataset

Jawaban: 
A. Menggabungkan model prediktif dengan melakukan voting


15. Apa kegunaan metode "logistic regression" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
C. Memprediksi kelas target dengan menggunakan fungsi logistik
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: 
C. Memprediksi kelas target dengan menggunakan fungsi logistik


16. Apa yang dimaksud dengan "clustering" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengelompokkan data ke dalam cluster berdasarkan kemiripan
C. Mencari pola frekuensi itemset dalam dataset
D. Memprediksi kelas target dengan membangun pohon keputusan

Jawaban: 
B. Mengelompokkan data ke dalam cluster berdasarkan kemiripan