Daftar Isi
Pengertian Analisis Tes dan Butir Soal
Analisis Kualitas Tes dan Butir Soal – Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. sebab itu, tes digunakan guru harus memiliki kualitas yang baik. Analisis tes berkaitan dengan pertanyaan apakah tes itu mampu dijadikan sebagai alat ukur benar-banar mampu mengukur apa yang hendak diukur?, dan sampaimana tes tersebut dapat diandalkan dan berguna?.[2]
Kedua pertanyaan ini sebenarnya menunjuk pada dua hal pokok, yaitu validitas dan reliabilitas. Kedua hal ini sekaligus merupakan karakteristik alat ukur yang baik. Namun dalam tulisan ini penulis menambahi satu hal yang tidak kalah penting yaitu kepraktisan dengan maksud untuk menunjang kualitas tes.
Validitas
Analisis Kualitas Tes dan Butir Soal – Suatu instrument dapat dikatakan valid (sahih) apabila benar-benar mampu mengukur apa yang hendak diukur dengan tepat. Dalam validitas terdapat dua unsur penting, yaitu validitas menunjukan derajat, ada yang sempurna, ada yang sedang, da nada pula yang rendah atau hirarki dan validitas selalu dihubungkan dengan suatu tujuan yang spesifik karena tidak ada validitas yang berlaku secara umum.
3 faktor yang dapat mempengaruhi validitas hasil tes
1. Faktor Instrument Evaluasi
Instrument evaluasi yang kurang baik akan menghasilkan hasil evaluasi yang kurang baik pula. Untuk itu, dalam mengembangkan instrument evaluasi, seorang evaluator harus memperhatikan hal-hal yang mempengaruhi validitas instrument dan berkaitan dengan prosedur penyusunan instrument. Seperti silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci jawaban, penggunaan kalimat efektif, bentuk alternative jawaban, tingkat kesukaran, daya pembeda, dan sebagiannya.
2. Faktor Administrasi Evaluasi dan Penskoran
Banyak hal yang mempengaruhi hasil evaluasi yang berkaitan dengan administrasi dan penskoran, antara lain, alokasi waktu pengerjaan tes atau soal, kedisplinan guru pengawas, kedisplinan peserta tes, kesalahan penskoran, serta kondisi fisik dan psikis peserta tes. Dalam hal ini, banyak sekali terjadi penyimpangan atau kekeliruan, sehingga perlu diantisipasi.
3. Faktor Jawaban dari Pesera Didik
Dalam praktiknya, factor jawaban peserta didik justru lebih banyak berpengaruh terhadap validitas hasil tes dibandingkan dengan kedua factor di atas. Factor ini meliputi kecenderungan peserta didik untuk mengjawab dengan cepat namun kurang tepat, keinginan untuk coba-coba dan menggunakan gaya bahasa tertentu dalam menjawab soal bentuk uraian.[3]
Dalam literature modern tentang evaluasi, banyak dikemukakan tentang jenis-jenis validitas, yaitu:
a). Validitas Permukaan dalam Analisis Kualitas Tes dan Butir Soal
Analisis Kualitas Tes dan Butir Soal – Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau tampang dari instrument itu sendiri. Artinya, jika suatu tes secara sepintas telah dianggap baik maka tes tersebut dapat dikatakan telah memenuhi syarat validitas permukaan dan tidak membutuhkan judgement yang mendalam.
b). Validitas Isi
Analisis Kualitas Tes dan Butir Soal – Validitas isi sering digunakan dalam penilaian hasil belajar atau untuk mengetahui sejauh mana peserta didik menguasai materi pelajaran yang telah disampaikan dan perubahan psikologis yang terjadi setelah mengalami proses pembelajaran. Validitas isi disebut pula validitas kurikuler berkenan dengan relevansi materi tes dengan kurikulum yang ditentukan atau validitas perumusan berkenaan dengan apakah apek dalam soal tercakup dalam apa yang hendak diukur. Validitas kurikuler ini dapat dilakukan dengan dengan beberapa cara, antara lain mencocokkan materi tes dengan silabus dan kisi-kisi, melakukan diskusi dengan sesame pendidik, atau mencermati kembali subtansi dari konsep yang akan diukur.
c). Validitas Empiris
Analisis Kualitas Tes dan Butir Soal – Validitas empiris dilakukan dengan pendekatan korelasi untuk mencari hubungan skor tes dengan criteria tertentu. Validitas empiris disebut juga validitas yang dihubungkan dengan atau validitas statistik. Adapun validitas empiric ini dibagi menjadi 3, yaitu:
1.) Validitas prediktif (Predictive validity) yang digunakan untuk meramalkan prestasi belajar peserta didik pada masa depan. Validitas ini bermaksud untuk melihat, sampai mana suatu tes dapat mempraktikkan perilaku peserta didik pada masa yang akan datang.
2.) Validitas kongkuren (concurrent validity) digunakan untuk criteria standar yang berlainan. Misalnya, skor tes dalam mata pelajaran bahasa Indonesia dikorelasikan dengan skor tes bahasa inggris.
3.) Validitas sejenis (congruent validity) untuk criteria yang sejenis. Misalnya, bahasa Indonesia dengan bahasa Indonesia.
Dalam mengukur, validitas suatu tes hendaknya yang menjadi kriteria sudah betul-betul valid sehingga dapat diandalkan keampuhannya dan dapat dianggap sebagai test standar. Sebaliknya, bila kriterianyatidak valid, maka tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul dapat mengukur apa yang hendak diukur dari peserta didik tertentu.
Ada beberapa hal yang harus diperhatikan dalam menginterpretasikan koefisien validitas, antara lain data mengenai karakteristiksampel validitas, prosedur-prosedur dalam mengukur validitas, dan pola kriteria khusus yang dikorelasikan dengan hasil tes. Sehubungan dengan kriteia khusus maka terdapat delapan kriteria bahan bandingan berdasarkan pendapat Anastasi dalam Conny Semiawan Stamboel, yaitu:
1.) Diferensiasi umur
2.) Kemajuan akademis
3.) Kriteria dalam Pelaksanaan Latihan Khusus
4.) Kriteria dalam Pelaksanaan Kerja
5.) Penilaian
6.) Kelompok yang Bertentangan
7.) Korelasi dengan tes lain
8.) Konsistensi Internal[4]
Untuk menguji validitas empiric dapat digunakan jenis statistic korelasi product-moment,korelasi perbedaan peringkat, atau korelasi diagram pencar.
Contoh perhitungan korelasi:
1.) Korelasi Product Moment dengan Angka Simpangan
keterangan:
r = koefisien korelasi
∑xy = jumlah produk x dan y
Langkah-langkah penyelesaian:
– Membuat table persiapan
X | Y | x | Y | x2 | y2 | Xy | |
– Memasukan nilai masing-masing mata pelajaran X dan Y
– Jumlahkan seluruh nilai dan hitung rata-rata masing-masing variable
– Isi kolom x dengan nilai tiap peserta pada mata pelajaran X dikurangi dengan nilai rata-rata mata pelajaran X
– Isi kolom x dengan nilai tiap peserta pada mata pelajaran Y dikurangi dengan nilai rata-rata mata pelajaran Y
– Cari x2 dengan mengkuadratkan nilai pada kolom x
– Cari y2 dengan mengkuadratkan nilai pada kolom y
– Hitung xy dengan mengalikan nilai pada kolom x dan nilai pada kolom y[5]
Korelasi product-moment juga dapat dilakukan dengan menggunakan angka kasar, dengan rumus:
2.) Korelasi Perbedaan Peringkat (Rank Differences Correlation)
keterangan:
r = koefisien korelasi
1 dan 6 = bilangan tetap
D = perbedaan antara dua peringkat atau rank
n = jumlah sampel
Langkah-langkah:
– Cari peringkat dari tiap-tiapmata pelajaran dengan mengurutkan nilai-nilai dari yang terbesar sampai yang terkecil.
– Jika terdapat nilai yang sama, maka jumlahkan nilai peringkat pertama dengan kedua lalu bagi dua, maka kedua orang tersebut memiliki peringkat yang sama.
– Cari perbedaan peringkat dengan mengurangkan peringkat mata pelajaran X dengan Y
– Perbedaan peringkat kemudian dikuadratkan.[6]
3.) Teknik Diagram Pencar (Scatter Diagram)
Dalam statistika koefisien korelasi dinotasikan dengan “r” dimana -1,00 ≤ r ≥ 1,00, r = +1,00 artinya korelasi sempurna positif dan r = -1,00 artinya korelasi sempurna negative. Untuk menafsirkan koefisien korelasi dapat menggunakan criteria berikut:
0,81 – 1,00 = sangat tinggi
0,61 – 0,80 = tinggi
0,41 – 0,60 = cukup
0,21 – 0,40 = rendah
0,00 – 0,20 = sangat rendah
d). Validitas Konstruk
Analisis Kualitas Tes dan Butir Soal – Valditas konstruk merupakan konsep yang dapar diobservasi dan dapat diukur, validitas konstruk dikenal juga dengan istilah validitas logis dan digunakan dalam tes-tes psikologi untuk mengukur gejala perilaku yang abstrak. Validitas konstruk digunakan untuk mengetahui sejauh mana tes dapat mengobservasi dan mengukur fungsi psikologis. Seperti kesetia kawanan, kematangan emosi, sikap, motivasi, minat dan sebagainya.
e). Validitas Faktor
Penilaian hasil belajar kerap menggunakan pengukuran atas suatu variable yang terdiri dari beberapa factor yang diperoleh dari indicator. Validitas factor dapat dihitung dengan menghitung homogenitas skor setiap factor dengan total skor dan antara skor factor satu dengan lainnya.[7]
Reliabilitas
Analisis Kualitas Tes dan Butir Soal – Reliabilitas merupakan derajat konsistensi suatu instrument. Suatu tes dapat dikatan reliable apabila selalu memberikan hasil yang sama bila diteskan pada kelompok yang sama pada kesempatan yang berbeda. Berikut ini merupakan empat factor yang mempengaruhi reliabilitas, yaitu:
1. Panjang tes (Length of Test)
2. Sebaran skor (spread of scores)
3. Tingkat kesukaran (Difficulties Index)
4. Obyektifitas
Menurut perhitungan product Moment ada 3 macam reliabilitas, yaitu:
a). Koefisien stabilitas
Koefisien stabilitas merupakan jenis reliabilitas yang menggunakan teknik test and retest yaitu memberikan tes kepada sekelompok individu kemudian mengulang tes yang sama pada kelompok yang sama di waktuyangn berbeda.
b). Koefisien Ekuivalen
Koefisien ekuivalen dilakukan dengan mengkorelasikan tes yang paralel pada kelompok yang sama waktu yang sama dengan syarat kedua tes tersebut memiliki criteria, jumlah, isi, corak, tingkat kesukaran, petunjuk pengerjaan dan waktu pengerjaan yang sama.
c). Koefisien Konsistensi Internal
Koefisien konsistensi internal merupakan reliabilitas yang didapat dari mengkorelasikan dua buah tes dari kelompok yang sama tetapi diambil dari butir-butir yang berbeda namun jumlahnya sama (genap dengan ganjil atau acak)[8]
Rumus Spearman Brown
Rumus Kuder Richardson
Keterangan
P = proporsi peserta didik yang menjawab betul dari suatu butir soal
Q = 1-p
K = jumlah butir soal
Teknik Koefisien Alpha
Kepraktisan
Analisis Kualitas Tes dan Butir Soal – Kepraktisan berarti kemudahan baik dalam hal persiapan, penggunaan, mengolahan, penafsiran maupun pengadminitrasian. Kepraktisan merupakan syarat suatu tes standar. Kebanyakan seseorang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berfikir untuk orang lain. Akibatnya, ketika tes tersebut digunakan orang lain, maka orang tersebut akan merasakan kesulitan. Briikut ini merupakan faktir-faktor yang mempengaruhi kepraktisan, yaitu:
1. Kemudahan mengadministrasi
2. Waktu yang disediakan untuk melancarkan evaluasi
3. Kemudahan menskor
4. Kemudahan intrepretasi danaplikasi
5. Tersedianya bentuk instrument evaluasi yang ekuivalen.[9]
Analisis Butir Soal
a. Tingkat Kesukaran
Analisis Kualitas Tes dan Butir Soal – Perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran seimbang (proporsional), maka dapat dikatakanbahwa soal tersebut baik. Suatu soal hendaknya tidak terlalu sukar dan tidak terlalu mudah. (makalah)
1.) Soal bentuk objektif
Menggunakan rumus tingkat kesukaran
Keterangan:
WL = jumlah peserta didik yang menjawab salah dari kelompok bawah
WH = jumlah peserta didik yang menjawab salah adri kelompok atas
nL = jumlah kelompok bawah
nH = jumlah kelompok atas
Langkah-langkah
– Menyusun lembar jawaban dari skor tertinggi sampai terendah
– Menyisihkn 27% dari kelompok atas dan bawah
– Membuat tabel untuk mengetahui jawaban benar (+) salah (-)
Kriteria penafsiran tingkat kesukaran soal:
– ≤ 27% = mudah
– 27% – 72% = sedang
– ≥ 72% = sukar[10]
2.) Soal bentuk uraian
Menghitung tingkat kesukaran soal bentuk uraian adalah dengan menghitung persentase peserta didik yang gagal menjawab benar atau dibawah batas lulus
b. Daya Pembeda
Perhitungan daya pembeda adalah peengukuran sejauh mana suatu butir soal mampu membedakan peserta didik yang belum atau kurang mengasaui kompetensi.
Keterangan:
DP = daya pembeda
n = 27% x N
Kriteria Daya pembeda
– 0,40 and up = very good items
– 0,30 – 0,39 = reasonably good
– 0,20 – 0,30 = marginal items
– Below 0,19 = poor items
1.) Menghitung Signifikansi Daya Pembeda Soal Objektif
– Membuat table persiapan
– Menghitung jumlah WL dan WH
– Menguranngkan WL dengan WH
– Menambahkan WL dengan WH
– Membandingkan nilai WL-WH dengan nilai table signifikansi DP
2.) Menghitung Signifikansi Daya Pembeda Soal Uraian
Tekhnik yang digunakan untuk menghitung daya pembeda soal bentuk uraian adalah menghitung perbedaan dua rata-rata (mean), yaitu antara rata-rata dari kelompok atas dengan rata-rata dari kelompok bawah untuk tiap-tiap soal.[11]
Analisis Pengecoh
Indeks pengecoh:
Keterangan:
IP = Indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar
n = jumlah opsi
1 = bilangan tetap
Adapun kualitas pengecoh berdasarkan indeksnya adalah:
76% – 125% = sangat baik
51% -75% atau 126% – 150% = baik
26%- 50% atau 151% – 175% = kurang baik
0% – 25% atau 176% – 200% = jelek
Lebih dari 200% = sangat jelek[12]
Analisis Homogenitas Soal
Analisis Kualitas Tes dan Butir Soal – Homogentias diketahui dengan menghitung koefisien korelasi antara skor tiap butir dengan skor total. Salah satu teknik korelasi yang dapat digunakan adalah korelasi product moment atau korelasi point biserial.[13]
Efektivitas Fungsi Opsi
Langkah-langkah:
a. Menentukan jumlan peserta didik
b. Menentukan jumlah sampel kelompok atas danbawah
c. Membuat table pengujian efektivitas
d. Menghitung jumlah alternative jawaban yang diipilih peserta didik
e. Menentukan efektivitas fungsi opsi dengan criteria:
1.) Opsi kunci
– Jumlah pemilih kelompok atas dan bawah antara 25% – 75%
Keterangan:
∑PKA = jumlah pemilih kelompok atas
∑PKB = jumlah pemilih kelompok bawah
N1 = jumlah sampel kelompok atas (27 %)
N2 = jumlah sampel kelompok bawah (27 %)
– Jumlah pemilih kelompok atas harus lebih banyak dari jumlah pemilih kelompok bawah
2.) Untuk opsi pengecoh
– Jumlah pemilih kelompok atas dan bawah tidak kurang dari:
25% X X (Ka + Kb)
Keterangan:
d = jumlah opsi pengecoh
Ka = kelompok atas
Kb = kelompok bawah
– Jumlah pemilih kelompok bawah harus lebih besar daripada kelompok atas.[14]
Demikian ulasan singkat seputar Analisis Kualitas Tes dan Butir Soal, semoga bermanfaat.
DAFTAR PUSTAKA
Arifin, Zainal. 2010. Evaluasi Pembelajaran. Bandung: PT.Remaja Rosdakarya.
Arikunto, Suharsimi. 2009. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Sudijono. Anas, Pengantar Evaluasi Pendidikan, Jakarta: PT Raja Grafindo persada, 1996
[1] Anas sudijono, pengantar evaluasi pendidikan, (Jakarta: pt raja grafindo persada, 1996), 367
[2] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur (Bandung: PT Remaja Rosdakarya, 2013, Cet ke-5), 247
[3] Ibid, 247-248
[4] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 250-251
[5] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 252-253
[6] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 255
[7]Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 257-258
[8] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 258-261
[9] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 264-265
[10] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 266
[11] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 273-278
[12] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 278-280
[13] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 281
[14] Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur, 281-282