16 Soal Tentang Data Mining + Kunci Jawaban
Latihan Soal PG Bab Data Mining
1. Algoritma K-nearest neighbors (K-NN) merupakan contoh dari:
A. Supervised learning
B. Unsupervised learning
C. Reinforcement learning
D. Semi-supervised learning
Jawaban:
A. Supervised learning
2. Apa yang dimaksud dengan "bias-variance trade-off" dalam Machine Learning?
A. Kompromi antara kinerja model dan kompleksitas model
B. Kompromi antara jumlah sampel dan jumlah atribut dalam dataset
C. Kompromi antara kecepatan pembelajaran dan akurasi prediksi
D. Kompromi antara presisi dan recall dalam evaluasi model
Jawaban:
A. Kompromi antara kinerja model dan kompleksitas model
3. Algoritma DBSCAN digunakan untuk:
A. Mengelompokkan data ke dalam cluster berdasarkan kepadatan
B. Menggabungkan data dari sumber yang berbeda
C. Mencari pola frekuensi itemset dalam dataset
D. Memprediksi kelas target berdasarkan atribut yang mirip dengan tetangga terdekat
Jawaban:
A. Mengelompokkan data ke dalam cluster berdasarkan kepadatan
4. Apa yang dimaksud dengan "out-of-bag error" dalam Random Forest?
A. Error yang dihasilkan dari penggunaan model pada data yang tidak digunakan dalam pembuatan model
B. Error yang dihasilkan saat melakukan proses imputasi data
C. Error yang terjadi karena overfitting pada model
D. Error yang dihasilkan saat melakukan proses discretization pada data
Jawaban:
A. Error yang dihasilkan dari penggunaan model pada data yang tidak digunakan dalam pembuatan model
5. Apa kegunaan metode "feature selection" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
C. Mencari pola frekuensi itemset dalam dataset
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi
Jawaban:
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
6. Algoritma C4.5 digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun decision tree
D. Mengidentifikasi data yang tidak normal
Jawaban:
C. Memprediksi kelas target dengan membangun decision tree
7. Apa yang dimaksud dengan "bag of words" dalam text mining?
A. Representasi vektor yang menghitung frekuensi kemunculan kata-kata dalam dokumen
B. Representasi grafis yang menggambarkan keterkaitan kata-kata dalam dokumen
C. Representasi hierarkis yang mengorganisir kata-kata dalam dokumen
D. Representasi semantik yang menggambarkan makna kata-kata dalam dokumen
Jawaban:
A. Representasi vektor yang menghitung frekuensi kemunculan kata-kata dalam dokumen
8. Metode "link analysis" digunakan untuk:
A. Menganalisis pola dan struktur hyperlink di web
B. Menganalisis pola dalam data teks
C. Mengelompokkan data ke dalam cluster
D. Menggabungkan data dari sumber yang berbeda
Jawaban:
A. Menganalisis pola dan struktur hyperlink di web
9. Algoritma k-means++ digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun decision tree
D. Mengidentifikasi data yang tidak normal
Jawaban:
A. Mengelompokkan data ke dalam cluster
10. Apa yang dimaksud dengan "overfitting" dalam Machine Learning?
A. Model yang terlalu sederhana dan tidak dapat menggeneralisasi dengan baik
B. Model yang terlalu kompleks dan cenderung menghafal data latih
C. Model yang tidak dapat memprediksi kelas target dengan akurat
D. Model yang tidak mampu menangani data yang memiliki noise
Jawaban:
B. Model yang terlalu kompleks dan cenderung menghafal data latih
11. Apa yang dimaksud dengan "precision" dalam evaluasi model?
A. Proporsi positif yang benar terhadap total prediksi positif
B. Proporsi negatif yang benar terhadap total prediksi negatif
C. Proporsi positif yang benar terhadap total data positif
D. Proporsi negatif yang benar terhadap total data negatif
Jawaban:
A. Proporsi positif yang benar terhadap total prediksi positif
12. Apa yang dimaksud dengan "recall" dalam evaluasi model?
A. Proporsi positif yang benar terhadap total prediksi positif
B. Proporsi negatif yang benar terhadap total prediksi negatif
C. Proporsi positif yang benar terhadap total data positif
D. Proporsi negatif yang benar terhadap total data negatif
Jawaban:
C. Proporsi positif yang benar terhadap total data positif
13. Algoritma decision tree digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target dengan membangun pohon keputusan
D. Mengidentifikasi data yang tidak normal
Jawaban:
C. Memprediksi kelas target dengan membangun pohon keputusan
14. Apa yang dimaksud dengan "bagging" dalam ensemble learning?
A. Menggabungkan model prediktif dengan melakukan voting
B. Menggabungkan atribut dari beberapa dataset yang berbeda
C. Menggabungkan teknik klasifikasi dan clustering
D. Menggabungkan data numerik dan data kategorikal dalam satu dataset
Jawaban:
A. Menggabungkan model prediktif dengan melakukan voting
15. Apa kegunaan metode "logistic regression" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
C. Memprediksi kelas target dengan menggunakan fungsi logistik
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi
Jawaban:
C. Memprediksi kelas target dengan menggunakan fungsi logistik
16. Apa yang dimaksud dengan "clustering" dalam Data Mining?
A. Menggabungkan atribut dari beberapa dataset yang berbeda
B. Mengelompokkan data ke dalam cluster berdasarkan kemiripan
C. Mencari pola frekuensi itemset dalam dataset
D. Memprediksi kelas target dengan membangun pohon keputusan
Jawaban:
B. Mengelompokkan data ke dalam cluster berdasarkan kemiripan