BAB
II
PEMBAHASAN
A.
VALIDITAS DAN RELIABILITAS HASIL PENGUKURAN
1. Validitas
a. Apakah Validitas Itu?
Alat
ukur yang baik adalah alat ukur yang dapat dengan teat mengukur apa yang ingin
anda ukur. Jika anda ingin mengukur panjang sebuh meja maka anda harus dapat
memilih alat ukur yang tepat untuk mengukur panjang meja tersebut. Untuk
mengitung waktu tempuh pelari cepat dalam perlombaan lari cepat 100 meter maka
anda juga harus dapat memilih ukur yang tepat untuk digunakan. Demikian juga
jika anda ingin mengukur hasil belajar siswa maka anda juga dituntut untuk
menggunakan alat ukur (dalam hal ini es) yang dapat dengan tepat mengukur hasil
belajar yang anda harapkan. Agar anda
dapat memperoleh gambaran tentang pengertian validitas suatu hasil
pengukuran.
Menurut
Sukardi (2010:31), valiaditas suatu instrumen evaluasi, tidak lain adalah
derajat yang menunjukkan dimana suatu tes mengukur apa yang hendak diukur.
Validitas suatu instrumen evaluasi mempunyai makna penting diantaranya seperti
berikut:
1)
Validitas
berhubungan dengan ketepatan interpretasi hasil tes atau instrumen evaluasi
untuk grup individual dan bukan
instrumen itu sendiri.
2)
Validitas
dapat diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup
kategori yang rendah, menengah, dan tinggi.
3)
Prinsip
suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan
oleh para peneliti bahwa ia hanya valid untuk suatu tujuan tertentu saja. Tes
valid untuk bidang studi metrologi industri belum tentu valid untuk bidang yang
lain misalnya bidang mekanisme teknik.
Pengertian
validitas mengacu pada ketepatan interpretasi yang dibuat dari hasil pengukuran
atau evaluasi (Gronlund dan Linn, 1990). Secara umum validitas ada tiga jenis.
1)
Validitas
isi (content validity)
2)
Validitas
konstrak (construct validity)
3)
Validitas
yang dikaitkan dengan kriteria tertentu (criterion
reiated validity).
Validitas
isi diperlukan untuk menjawab pertanyaan “ sejauh mana item-item yang ada yang
ada dalam tes dapat mengukur keseluruhan materi yang telah diajarkan”. Tinggi
rendahnya validitas isi dapat ditetapkan berdasarkan analisis rasional atau pertimbangan ahli terhadap isi
tes hasil belajar. Tinggi rendahnya
validitas isi suatu tes dapat anda lihat
pada perencanaan atau kisi-kisi tes. Semakin representative materi yang dapat
ditanyakan dalam tes tersebut menunjukan semakin tinggi validitas isinya.
Validitas
konstak mengacu pada sejauh mana alat ukur tersebut dapat mengungkap
keseluruhan konstrak yang digunakan sebagai dasar dalam penyusun tes tersebut.
Yang dimaksud dengan konstrak disini adalah konsep hipotetis (hipotetical concept) yang digunakan
sebagai dasar dalam penyusunan alat ukur . validitas konstrak ini banyak
digunakan terutama dalam pengukuran-pengukuran psikologi seperti pengukuran
sikap, minat, tingkah laku dan sebaginya. Campbell dan fiske (Djemari Mardapi,2004)
mengembangkan suatu pendekatan untuk menentukan validitas konstrak dengan
menggunakan tehnik multi trait – multi method.
Validitas dengan multi trait- multi method dilakukan dengan menggunakan lebih dari satu
metode untuk mengukur lebih dari satu macam trait (sifat). Dengan menggunakan
matrik kolerasi sehingga interkorelasi antara trait dan metode dapat
dilihat dengan jelas . perhatoikan table
multi trait- multi method ideal berikut.
Tabel
5.1 Validitas Konvergen dan Validitas Deskrimen Pada Persekatan Multitrait
Multimethod.
|
A1
|
B1
|
A2
|
B2
|
A1
|
rA1A1
(Tinggi)
|
rA1B1
(Rendah
|
rA1A2
(tinggi)
|
rA1B2
(Rendah)
|
B1
|
|
rB1B1
(Tinggi)
|
rB1A2
(rendah)
|
rB1B2
(tinggi)
|
A2
|
|
|
rA2A2
(tinggi)
|
rA2B2
(rendah)
|
B2
|
|
|
|
rB2B2
(tinggi)
|
Keterangan:
Huruf melambangkan trait sementara angka melambangkan metode, sedangkan r
adalah modulud korelasi.
A1 = trait A yang diukur dengan
metode 1
A2 = trait A yang diukur dengan
metode 2
B1 = trait B yang diukur dengan
metode 1
B2 = trait B yang diukur dengan
metode 2
A1A2 =dua metode yang berbeda yang digunakan
untuk mengukur trait yang sama.
A1B1 = dua trait yang berbeda diukur dengan
metode yang sama.
Dari
tabel tersebut dapat dilihat ada dua tipe validitas yaitu validitas konvergen (convergent validity) dan validitas
pembeda (discriminant validity).
Adanya validitas konvergen dapat di lihat pada kolerasi yang tinggi antara skor
tes yang mengukur trait yang sama dengan metode yang berbeda (rA1B1, rA1B2,
rA2B1, dan rA2B2), terutama bila trait yang berbeda diukur dengan metode yang
sama (rA1B1 dan rA2B2). Adanya korelsi yang rendah ini menunjukan bahwa item
tersebut mempunyai daya pembeda yang baik dan mampu mengukur trait yang
spesifik. Sebagai contoh, jika kita mengetahui bagaimana pola kepemimpinan
seorang kepala sekolah maka item-item yang anda gunakan dikatakan mempunyai
validitas konstrak yang tinggi jika item tersebut dapat mengungkapkan pola
kepemimpinan setiap individu yang menjadi sampel dalam pengukuran tersebut.
Jika
suatu tes diumaksudkan untuk memprediksi keberhasilan seseorang dimasa yang
akan datang atau dimaksud untuk mengetahui kesesuaian antara pengetahuan dan
keterampilan yang di miliki maka alat ukur yang digunakan harus mempunyai criterion related validity yang tinggi.
Sebagai contoh jika siswa SD mempunyai nilai ebtanas murni (NEM) tinggi
ternyata mempunyai prestasi yang bagus setelah melanjutkan di SLTP maka dapat
dikatakan bahwa tes yang digunakan dalam ebtanas SD mempunyai criterion related validity yang tinggi . sutu tes teori computer
dikatakan mempunyai criterion related validity
jika dari hasil tes ternyata siswa yang mempunyai skor tinggi memang
mempunyai keterampilan yang tinggi dalam menggunakan computer daripada siswa
yang mendapat skor rendah.
Sedangkan
dalam evaluasi pendidikan, validitas suatu tes dapat dibedakan menjadi empat
macam, yaitu validitas isi, validitas konstruk, validitas konkuren, dan
validitas prediksi (Sukardi, 2010:31).
1)
Validitas Isi
Validitas
isi adalah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang
ingin diukur. Untuk mendapatkan validitas isi memerlukan dua aspek penting,
yaitu valid isi dan valid teknik sampling. Valid isi mencakup khususnya,
hal-hal yang berkaitan dengan apakah item-item evaluasi menggambarkan pengukuran
dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling pada
umumnya berkaitan dengan bagaimanakah baik suatu sampel item tes
merepresentasikan total cakupan isi.
Tes
validitas isi juga disebut face validity
(validitas wajah). Walaupun hal tersebut masih meragukan, karena validitas
wajah hanya menggambarkan derajat dimana sebuah interpretasi tes tampak
mengukur, tetapi tidak menggambarkan cara psikometrik yang mengukur apa
yangingin diusahakan dapat diukur. Proses ini sering digunakan sebagai awal
menyaring dalam tes pilihan.
2)
Validitas Konstruk
Validitas
konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk
sementara. Secara definitif, konstruk merupakan suatu sifat yang tidak dapat
diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau
dua indera kita. Konstruk tidak lain merupakan “temuan” atau suatu pendekatan
untuk menerangkan tingkah laku. Proses melakukan validasi konstruk dapat
dilakukan dengan cara melinatkan hipotesis testing yang dideduksi dari teori
yang menyangkut dengan konstruk yang relavan.
3)
Validitas Konkuren
Validitas
konkuren adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor
lain yang telah dibuat. Tes dengan validasi konkuren biasanya diadministrasi
dalam waktu yang sama atau dengan kriteria valid yang sudah ada. Cara-cara
membuat tes dengan validitas konkuren dapat dilakukan dengan beberapa langkah
sebagai berikut.
a)
Administrasi
tes yang baru yang dilakukan terhadap grup atau anggota kelompok.
b)
Catat
tes baku yang ada termasuk berapa koefisien validitasnya jika ada.
c)
Hubungkan
atau korelasikan dua skor tersebut.
4)
Validitas Prediksi
Validitas
prediksi adalah derajat yang menunjukkan suatu tes yang dpaat memprediksi
tentang bagaimana baik seseorang akan melakukan suatu prospek tugas atau
pekerjaan yang direncanakan. Insrumen validitas prediksi mungkin bervariasi
bentuknya tergantung beberapa faktor misalnya kurikulum yang digunakan, buku
pegangan yang dipakai, itensitas mengajar dan letak geografis atau daerah sekolah.
Yang perlu diperhatikan ketika kita akan melakukan tes validitas predisi yaitu
perlunya memperhatikan proses dan cara membandingkan instrumen yang divalidasi
dengan tes telah dibakukan. Untuk tes validasi prediksi, prinsip instrumen umum
yang menyatakan bahwa tidak ada tes yang memiliki tes prediksi sempurna masih
tetap berlaku. Oleh karena itu, perlu disadari bahwa skor tes yang dihasilkan
juga memiliki sifat ketidaksempurnaan tersebut.
Ketika
kriteria telah diidentifikasi dan ditentukan, prosedur selanjutnya adalah
menentukan prediksi suau tes dengan cara seperti berikut:
a)
Buat
item tes sesuai dengan tujuan yang hendak dicapai.
b)
Tentukan
kelompok yang dijadikan subjek dalam pilot
study.
c)
Identifikasi
kriterion prediksi yang hendak dicapai.
d) Tunggu sampai tingkah laku yang
dipredisi atau variabel kriterion muncul dan terpenuhi dalam kelompok yang
telah ditentukan.
e)
Capai
ukuran-ukuran kriterion tersebut.
f)
Korelasikan
dua set skor yang dihasilkan.
b. Faktor-Faktor
yang Mempengaruhi Validitas
Banyak
faktor yang dapat memengaruhi hasil tes evaluasi tidak valid. Beberapa faktor
tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor
internal dari tes, faktor eksternal dari tes, dan faktor yang berasal dari
siswa yang bersangkutan.
1) Faktor yang berasal dari dalam tes
Beberapa sumber yang pada umumnya
berasal dari faktor internal tes evaluasi diantaranya yaitu:
a)
Arahan
tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas
tes.
b)
Kata-kata
yang digunakan dalam struktur instrumen evaluasi, terlalu sulit.
c)
Item-item
te dikonstruksi dengan jelek.
d) Tidak kesulitan item tes tidak tepat
dengan materi pembelajaran yang diterima siswa.
e)
Waktu
yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau
terlalu longgar.
f)
Jumlah
item tes yang terlalu sedikit sehingga tidak mewakili sampel materi
pembelajaran.
g)
Jawaban
masing-masing item evaluasi tes bvida diprediksi siswa.
2) Faktor yang berasal dari administrasi dan
skor
Faktor ini dapat mengurangi validitas
interpretasi tes evaluasi, khususnya tes evaluasi yang dibuat oleh guru.
Berikut beberapa contoh faktor yang sumbernya berasal dari proses administrasi
dan skor.
a)
Waktu
pengajaran tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi
yang tergesa-gesa.
b)
Adanya
kecurangan dalam tes sehingga tidak dapat membedakan antara siswa yang belajar
dengan yang melakukan kecurangan.
c)
Pemberian
petunjuk dari pengwas yang tidak dapat dilakukan pada semua siswa.
d) Teknik pemberian skor yang tidak
konsisten, misalnya pada tes essai, juga dapat mengurangi validitas tes
evaluasi.
e)
Siswa
tidak dapat mengikuti arahan yang diberikan dalam tes baku.
f)
Adanya
joki (oarng lain bukan siswa) yang masuk dan menjawab item tes yang diberikan.
3) Faktor-faktor yang berasal dari jawaban
siswa
Seringkali
terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena
dipengaruhi oleh jawaban siswa daripada interpretasi item-item pada tes
evaluasi. Sebagai contoh, sebelum tes para siswa menjadi tegang karena guru
pengampu mata pelajaran dikenal “killer”,
galak, dan sebagainya sehingga siswa yang ikut tes banyak yang gagal.
2. Reliabilitas
a. Apakah
Reliabilitas Itu?
Untuk
memperoleh pemahaman tentang pengertian realibilitas, lakukan kegiatan berikut
ini! Ukurlah panjang sepuluh benda yang berada di sekitar anda sebanyak 2 kali
pada waktu yang berbeda dengan menggunakan alat ukur yang tepat kemudian
tuangkanlah hasilnya pada table berikut ini !
No
|
Namabenda
|
Alatukur yang
digunakan
|
Hasilpengukuran
|
|
1
|
2
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Apakah
hasil yang anda peroleh dalam dua kali pengukuran, memperoleh hasil yang beda?
Jika cara pengukuran yang ada lakukan benar maka hasil pengukuran yang anda
perolah mestinya sama. Jika hasil pengukuran yang anda peroleh sama, dapat
dikatakan bahwa alat ukur yang anda gunakan memberikan hasil pengukuran yang
reliable (tetap, konsisten, stabil). Hasil-hasil pengukuran yang berhubungan
dengan aspek-aspek fisik seperti mengukur panjang meja, tinggi lemari,, berat
badan, tinggi badan biasanya menghasilkan reliabilitas yang sangat tinggi.
Artinya walaupun pengukuran dilakukan lebih dari sekali tetapi tetap memberikan
hasil yang tidak jauh beda. Hasil pengukuran yang berbeda akan sering anda
temukan jika anda melakukan pengukuran
terhadap hal-hal yang berhubungan dengan aspek-aspek psikologi dan
sosial seperti dalam pengukuran mewakili intelegensi, sikap, dan konsep diri.
Aspek aspek sosial psikologis seperti itu tidak dapat diukur tidak dengan
ketepatan dan kosintensi yang tinggi. Hal ini di debabkan karena hasil
pengukuran yang di peroleh tidak dapat lepas dari pengaruh hal hal diluar
maksud pengukuran tersebut misalnya alat ukur itu sendiri mungkin bukan
merupakan alat ukur yang tepat untuk mengukur aspek yang diinginkan. Disamping
itu karena subjek pengukurannya adalah manusia maka cara cara penyajian tes,
emosi, motivasi, kondisi fisik, dan keadaan ruang tes akan mempengaruhi hasil
pengukuran walaupun sebenarnya aspek aspek yang ingin kita ukur tersebut tidak
berubah. Dengan demikian hasil pengukuran yang di peroleh menjadi kurang
reilabel.
Dan
hasil kegiatan yang telah anda lakukan dan setelah memahami uraian diatas, anda
telah memperoleh gambaran yang mengenai apa yang di maksud dengan
realiabilitas.kalau pengertian validaitas mengacu pada ketepatan hasil pengukuran maka pengertian realibialitas mengacu
pada ketepatan hasil yang di peroleh
dari suatu pengukuran (Gronlund dan Linn,1990). Salah satu untuk
mengetahui ketetapan atau realiabilitas suatu hasil pengukuran, dapat diperoleh
dengan cara melakukan pengukuran dua kali seperti contoh kegiatan yang telah
anda lakukan tersebut. Hasil pengukuran
di katakan mempunyai realiabilitas yang tinggi jika hasil pengukuran
pertama hampir sama dengan hasil pengukuran kedua. Dan sebaliknya hasil
pengukuran dikatakan mempunyai realibilitas yang rendah jika hasil pengukuran
pertama jauh berbeda dengan hasil pengukuran kedua.
Jika
anda mempunyai seperangkat tes misalnya tes untuk mengukur penguasaan siswa
dalam matematika maka untuk mengetahui apakah tesanda tersebut mempunyai
realiabilitas yang tinggi atau rendah dapat dengan mudah anda lakukan yaitu
dengan cara mengujikan set tes tersebut. Pada
kelas yang sama sebaiknya dua kali dengan selisih waktu yang tidak terlalu lama
dan juga terlalu dekat? Coba diskusikan dengan teman teman anda. Pada rinsipnya
hal ini berhubungan dengan kekhawatiran bahwa siswa masih mengingat soal soal
tersebut dan kekhawatiran adanya penambahan pengetahuan selama selang waktu dua
pengukuran tersebut. Jika skor yang anda peroleh dari pelaksanaan tes pertama
tidak jauh berbeda dengan skor yang anda peroleh pada waktu tes kedua pada
waktu tes kedua maka dapat dikatakan bahwa set tes anda mempunyai realiabilitas
yang tinggi.semakin sama skor yang anda peroleh pada pengukuran pertama dan
kedua menunjukan semakin tinggi
relibilitas set tes berikut. Jika anda ingin lebih teliti untuk melihanya dapat
anda lakukan dengan melihat skor setiap individu pada kedua hasil pengukuran tersebut. Jika
skor yang di peroleh setiap individu pada kedua pengukuran cenderung sama
berarti set tes tersebut mempunyai reliabilitas yang tingi. Hungungan antara
skor yang diperoleh pada pengukuran pertama dengan kedua akan menghasilkan angka
korelasi bergerak antara -1 (baca negative satu) sampai dengan +1 (baca positif
satu). Semakin tinggi angka koefisien reliabilitas (mendekati 1) maka semakin
tinggi reliabilotas tes tersebut. Suatu perangkat tas dinyatakan cukup reliable
jika mempunyai koefisien reliabilitas lebih besar0,5 (Fernandes,1984). Cara
menghitung koefisien korelasinya dapat anda hitung dengan menggunakan formula
korelasi product-moment sebagai berikut.
Keterangan:
rxy
: koefisien korelasi dari xy
N
: Jumlah data
X:
data pertama
Y:
data kedua
Contoh:
Nama
|
Skortes
1
X
|
Skortes
2
Y
|
XY
|
|
|
Ahmad
|
40
|
42
|
1680
|
1600
|
1764
|
Wildan
|
43
|
43
|
1849
|
1849
|
1849
|
Muhwan
|
39
|
38
|
1482
|
1521
|
1444
|
Rizkinur
|
52
|
50
|
2600
|
2704
|
2500
|
Rizkizul
|
50
|
51
|
2550
|
2500
|
2601
|
Rinan
|
44
|
45
|
1936
|
1936
|
2025
|
Yogi
|
44
|
44
|
2499
|
1936
|
1936
|
Lili
|
51
|
49
|
2352
|
2601
|
2401
|
Opi
|
48
|
49
|
2352
|
2304
|
2401
|
Mega
|
47
|
46
|
2162
|
2209
|
2116
|
|
458
|
457
|
21090
|
21160
|
21037
|
Konsep reliabilitas yang baru di pelajari
adalah reliabilitas dalam arti stabilitas tes. Sebenernya masih ada 2 konsep
reliabilitas yang lain yaitu: konsep
reliabilitas dalam arti equivalent dan konsep
reliabilitas dalam arti konsistensi internal.
Konsep reliabilitas dalam arti equivalent
test dimaksud untuk mengetahui apakah 2 set tes yang anda gunakan pararel atau
tidak. Konsep reliabilitas dalam arti konsistensi internal tes dimaksud untuk
mengetahui apakah kumpulan butir soal yang ada dalam satu set tes tersebut
mengukur dimensi hasil belajar yang sama atau tidak.
b. Bagaimana Hubungan antara
Viliditas dan Reliabilitas ?
Ketetapkan hasil pengukuran reliabilitas
sangat diperlukan untuk memperoleh alat ukur yang dapat memberikan hasil
pengukuran yang tepat (valid). Walaupun
demikian alat ukur yang mempunyai reliabilitas yang tinggi belum tentu secara
otomatis mempunyai validitas yang tinggi. Karena tingginya reliabilitas yang
dihasilkan oleh suatu alat ukur jika tidak dibarengi dengan tingginya validitas
dapat memberikan informasi yang salah tentang apa yang ingin anda ukur.
c. Bagaimana Meningkatkan Reliabilitas Tes
?
Reliabilitas
suatu tes dapat ditingkatkan dengan menambah jumlah butir ke dalam tes
tersebut. Yang mungkin menjadi pertanyaan bagi anda kemudian adalah apakah
setiap penambahan butir soal akan selalu dapat menaikan reliabilitas tes?
Jawabannya adalah belum tentu, penambahan butir soal pada tes akan meningkatkan
reliabilitas jika butir soal yang ditambahkan adalah butir-butir soal homogen
dengan butir soalyang ada. Yang dimaksud butir soal yang homogeny adalah butir
soal-soal yang mengukur hal yang sama dengan butir soal yang sudah ada.
Penambahan butir soal tidak akan menaikan reliabilitas tes jika butir soal
yang ditambah tidak homogen dengan butir
soal yang telah ada. Reliabilitas tes yang baru sebagia akibat adanya
penambahan butir soal secara sederhana dapat dihitung dengan menggunakan rumus
spearman Brown sebagai berikut :
Keterangan:
Contoh :
Reliabilitas suatu tes yang terdiri atas
40 butir adalah
Berapakah reliabilitas tes setelah ditambahkan
20 butir soal yang homogen dengan butir soal yang sudah ada ?
Jawab :
Reliabilitas
sebelum penambahan = 0,40. Jumlah butir soal sebelum ditambah = 40 dan setelah
ditambah 20 berarti 60. Dengan demikian rasio jumlah butir soal setelah dan
sebelum penambahan adalah 1,5 (karena ada penambahan butir setengah kali
lipat). Jika angka tersebut kita masukan dalam rumus, akan kita peroleh
reliabilitas tes baru sebagai berikut.
d. Faktor-Faktor yang Mempengaruhi Reliabilitas
Menurut
Sukardi (2010:51), faktor-faktor yang mempengaruhi reliabilitas, antara lain:
1)
Panjang tes; semakin panjang suatu tes evaluasi, semakin banyak
jumlah item materi pembelajaran diukur. Ini menunjukkan dua kemungkinan, yaitu
a) tes semakin mendekati kebenaran, dan b) dalam mengikuti tes, semakin kecil
siswa menebak. Berarti akan semakin tinggi nilai koefisien reliabilitas.
2)
Penyebaran skor; koefisien reliabilitas secara langsung dipengaruhi
oleh bentuk sebaran skor dalm kelompok siswa yang diukur. Semakin tinggi
sebaran, semakin tinggi estimasi koefisien reliabilits (Gronlund 1990: 94). Hal
ini terjadi karena posisi skor siswa secara individual mempunyai kedudukan sama
pada tes-retes lain, sebagai acuan.
3)
Kesulitan tes; tes normatif yang terlalu mudah atau terlalu sulit
untuk siswa, cenderung menghasilkan skor reliabilitas rendah. Fenomena
tersebut, akan menghasilkan sebaran skor yang cenderung terbatas pada salah
satu sisi. Untuk tes yang terlalu mudah skor jawaban siswa akan mengumpul pada
sisi tas, misalnya 9 atau 10. Untuk tes yang terlalu sulit, skor jawaban siswa
akan cenderung mengumpul pada ujung sebaliknya, atau rendah.
4)
Objektivitas; yang dimaksud dengan objektif yaitu derajat dimana
siswa dengan kompetensi sama, mencapai hasil sama. Ketika prosedur tes evaluasi
memiliki objektivitas tinggi, maka reliabilitas hasil tes tidak dipengaruhi
oleh prosedur teknik penskoran. Item tes skor objektif yang dihasilkan tidak
dipengaruhi pertimbangan atau opini dari seorang evaluator.
e. Persyaratan KegunaanReliabilitas
Kegunaan
merupakan syarat instrumen evaluasi yang lebih berorientasi pada pertimbangan
praktis. Beberapa pertimbangan praktis yang perlu diperhatikan, diantaranya
seperti berikut (Sukardi, 2010:52) :
1)
Tes atau instrumen yang hendak digunakan sebaiknya memiliki
kemudahan adinistrasi yang didalamnya mengandung unsur : mudah diatur, disimpan
dan digunakan sewaktu-waktu secara mudah.
2)
Waktu yang diperlukan untuk proses administrasi sebaiknya singkat ,
cepat dan tepat.
3)
Instrumen sebaiknya juga mudah di interpretasi oleh guru ahli
maupun guru yang kurang mendapat latihan dibidang instrumen evaluasi.
4)
Adanya beberapa macam jenis instrumen yang memiliki ekivalensi sama
sehingga bisa digunakan sebagai pengganti atau variasi instrumen.
5)
Instrument evaluasi sebaiknya memilki karakteristik biaya murah,
dan dapat dijangkau oleh guru atau sekolah yang hendak menggunakannya
B.
ANALISIS DAN PERBAIKAN INSTRUMEN
1. Mengapa Analisis Butir Soal Penting?
Dengan
melakukan analisis butir soal sebetulnya anda dapat memperoleh banyak informasi
yang bermamfaat baik bagi anda sebagai guru, siswa, dan proses pembelajaran
yang telah anda lakukan. Kami yakin bahwa
anda semua melakukan analisis butir soal dapat dilakukan dengan cara
yang sederhana. Dengan menganalisis butir soal anda akan dapat meningkatkan
kualitas butir soal tersebut. Dengan
kualitas butir soal yang baik, anda akan dapat mengukur hasil belajar siswa
anda dengan tepat.
Menurut
Nitko (1983) analisis butir soal menggambarkan suatu proses pengambilan data ,
dan penggunaan informasi tentang tiap-tiap butir soal terutama informasi
tentang tiap-tiap butir soal. Lebih lanjut dikatakan bahwa arti penting
penggunaan analisis butir soal adalah sebagai berikut :
a.
Untuk
mengetahui apakah butir soal butir soal yang disusun sudah berfungsi sesuai
dengan apa yang dikehendaki oleh penyusun soal. Dalam hal ini perlu anda sadari
bahwa bagaimanapun berpengalamannya seseorang dalam menulis soal yang
bersangkutan tidak dapat menulis soal yang sempurna. Artinya masih terbuka
peluang bahwa butir soal yang anda susun belum berfungsi sebagaimana yang anda
kehendaki. Untuk menentukan apakah soal-soal yang anda susun telah berfungsi
sebagai berikut :
1)
Apakah
soal-soal yang anda susun sudah sesuai untuk mengukur perubahan tingkah laku
seperti telah dirumuskan dalam tujuan instruksional.
2)
Apakah
tingkat kesukaran sudah anda perhitungkan ?
3)
Apakah
soal tersebut sudah mampu membedakan antara siswa yang pandai dengan siswa yang
kurang pandai ?
4)
Apakah
kunci soal yang anda buat sudah benar sesuai dengan maksud soal ?
5)
Jika
anda menggunakan tes pilihan berganda, apakah pengecoh yang anda pilih sudah
berfungsi dengan baik ?
6)
Apakah
soal tersebut masih dapat ditafsirkan ganda atau tidak.
b.
Sebagai
umpan balik bagi siswa untuk mengetahui kemampuan mereka dalam menguasai
materi.
c.
Sebagai
umpan balik bagi anda sendiri sebagai guru untuk mengetahui kesulitan-kesulitan
yang dialami oleh siswa dalam memahami suatu materi. Dari label sederhana
tentang frekuensi siswa yang menjwab benar dan siswa yang menjwab salah
terhadap masing-masing butir soal , anda akan dapat mengetahui materi mana yang
sudah dikuasai siswa dan materi mana yang belum dikuasai. Di samping itu anda
dapat mengetahui siswa mana yang memerlukan perhatian lebih serius.
d.
Sebagai
acuan untuk merevisi soal. Dari jawaban yang diberikan siswa terhadap setiap
butir soal anda akan dapat mengetahui kelemahan setiap butir soal sehingga
perlu direvisi. Kegiatan ini sangat penting bagi anda lakukan untuk memperoleh
butir soal yang lebih baik. Karena hanya dengan butir soal yang baiklah anda
dapat mengukur siswa dengan tepat.
e.
Untuk
memperbaiki kemampuan anda dalam menulis soal. Dengan melakukan analisis butir
soal dan melakukan revisi maka kemampuan anda dalam menulis butir soal akan
meningkat.
2. Kapan Analisis Butir Soal Dilakukan?
Pada
saat anda mengujikan suatu set soal mengambil keputusan penting tentang hasil
belajar siswa maka idealnya anda harus yakin bahwa set soal tersebut adalah
valid dan reliabilitas. Validitas set soal dapat
diketahui dari kisi-kisi soal sedangkan realibilitas soal baru dapat diketahui
setelah uji coba. Nah, dalam rangka memperoleh realibilitas set soal inilah
butir soal dilakukan. Dalam menganalisis butir soal paling tidak ada dua
karakteristik butir soal yang perlu anda perhatikan yaitu tingkat kesukaran dan
daya beda butir-butir soal.
a. Tingkat kesukaran butir soal
Tingkat
kesukaran merupakan salah satu karakteristik yang dapat menunjukan kualitas
butir soal tersebut apakah termasuk mudah , sedang atau sukar. Suatu butir soal
dikatakan mudah jika sebagian besar siswa tidak dapat menjawab dengan benar.
Besarnya tingkat kesukaran butir soal, dapat dihitung dengan memperhatikan
proporsi peserta tes yang menjawab benar terhadap setiap butir soal. Secara
matematis tingkat kesukaran butir soal dapat dihitung dengan rumus ;
Keterangan:
p = adalah indeks
tingkat kesukaran butir soal.
B = adalah jumlah
peserta tes yang menjawab benar
N = adalah jumlah
seluruh peserta tes.
Contoh:
Jika
butir soal nomor 1 yang anda ujikan dapat dijawab dengan benar oleh 10 dari 40
siswa maka tingkat indeks tingkat ke sukaran butir soal nomor 1 adalah :
Indeks
tingkat kesukaran butir soal bergerak antara 0,00 sampai dengan 1,00. Indeks
tingkat kesukaran butir soal ( p ) = 0,00 apabila seluruh peserta tes tidak ada
yang dapat menjawab dengan benar dan indeks tingkat kesukaran butir soal (p) =
1,00 akan tercapai apabila semua peserta tes dapat menjawab dengan benar. Jadi
butir soal yang mudah akan mempunyai p mendekati 1,00 dan butir soal yang sukar
mempunyai p mendekati 0,00.
Menurut
fernandes ( 1984 ) kategori tingkat kesukaran butir soal adalah sebagai berikut
:
p> 0,75 : mudah
0,25 < p <0,75
: sedang
p< 0,24 : sukar
Butir
soal yang dianggap sangat bermamfaat (useful) adalah butir soal yang mempunyai
tingkat kesukaran dalam kategori sedang.
b. Daya Beda (D)
Daya
beda butir soal memiliki pengertian seberapa jauh butir soal tersebut dapat
membedakan kemampuan individu peserts tes. Butir soal didukung potensi daya
beda yang baik, akan mampu membedakan peserta didik yang memiliki kemampuan
tinggi (pandai) dengan peserta didik
yang memiliki kemampuan rendah (kurang pandai). Daya beda butir soal dapat
dihitung dengan menggunakan rumus :
D
= PA – P B
Keterangan:
D = indeks daya butir
soal
PA =
proporsi kelompok ata yang menjawab benar
PB =
proporsi kelompok bawah yang menjawab benar.
Misalnya: Dalam
menjawab butir soal nomor 2, enam dari 10 siswa yang termasuk dalam kelompok
atas dapat menjawab benar dan 2 dari 10 siswa yang termasuk kelompok bawah
dapat menjawab maka indeks daya beda butir soal nomor 2 tersebut:
Yang
dimaksud dengan siswa kelompok atas adalah kelompok siswa yang memperoleh skor
tinggi sedangkan yang dimaksud dengan siswa kelompok bawah adalah kelompok
siswa yang memperoleh skor rendah setelah mengerjakan satu set tes suatu mata
pelajaran.
Nilai
indeks daya beda soal bergerak dari – 1 sampai + 1. Semakin tinggi indeks daya
beda menunjukan bahwa bahwa butir soal tersebut semakin dapat membedakan antara
siswa yang pandai dengan siswa yang kurang pandai.
Secara
teoritis indeks daya beda soal (D) = 1
akan tercapai apabila semua siswa kelompok atas dapat menjawab benar dan semua
siswa dalam kelompok bawah menjawab salah. Indeks daya beda soal (D) = -1 akan tercapai jika semua siswa dalam
kelompok atas menjawab salah dan semua
siswa kelompok bawah justru menjawab benar. Sedangkan indeks daya beda soal (D
) = 0 apabila proporsi siswa yang menjawab benar dalam kelompok atas dan bawah
adalah sama.
Butir-butir
soal yang kunci jawabannya mempunyai indeks daya beda negative adalah butir
soal yang kurang baik karena butir soal yang kurang baik karena butir soal
tersebut tidak dapat membedakan siswa yang pandai dengan siswa yang kurang
pandai justru lebih banyak menjawab benar daripada siswa yang pandai.
Butir
soal mempunyai daya beda yang baik jika dianalisis kuncinya mempunyai daya beda
positif dann pengecohnya mempunyai daya beda negatif. Menurut Fernandes (1984)
kategori indeks daya beda butir soal adalah sebagai berikut
D > 0,40 =
sangat baik
0,30< D <0,40
= baik
0,20 <D <0,30
= sedang
D < 0,20 =
tidak baik
3. Bagaimana Cara Melakukan Analisis Secara Sederhana
Untuk
melakukan analisis butir soal secara sederhana, berikut ini disajikan
langkah-langkah dalam menganalisis butir soal :
a.
Hitunglah
jumlah jawaban yang benar untuk seluruh siswa.
b.
Berdasarkan
jumlah jawaban yang benar dari seluruh siswa tersebut susunlah nskor siswa
mulai dari skor tertinggi ke skor terendah.
c.
Berdasarkan
urutan skor tersebut tentukan siswa yang termasuk dalam kelompok atas dan siswa
yang termasuk kelompok bawah . untuk menentukan berapa persen yang masuk
kelompok atas dan berapa persen yang termasuk kelompok bawah gunakan
rambu-rambu sebagai berikut :
1)
Jika
jumlah siswa <20 maka jumlah kelompok atas dan kelompok bawah
masing-masing 50 %.
2)
Jika
jumlah siswa 21-40 maka jumlah kelompok atas dan kelompok bawah masing-masing
33,3 %.
3)
Jika
jumlah siswa > 41 maka jumlah kelompok atas dan kelompok bawah
masing- masing 27 %.
d.
Hitunglah
jumlah siswa dalam kelompok atas yang memilih tiap-tiap alternatif jawaban yang disediakan.
e.
Dengan
cara yang sama hitunglah jumlah siswa dalam kelompok bawah yang memilih
tiap-tiap alternative jawaban disediakan.
f.
Hitunglah
jumlah seluruh peserta tes (kelompok atas, tengah dan bawah) yang menjawab
benar.
g.
Hitunglah
tingkat kesukaran butir soal dan daya beda dengan menggunakan rumus yang telah
disediakan.
Contoh:
Perhatikan
jawaban 100 siswa terhadap butir soal nomor 1 berikut :
Kelompok
|
Alternative Jawaban
|
Jumlah
|
||||
|
a
|
b*
|
c
|
d
|
e
|
|
Atas
Tengah
bawah
|
5
3
|
15
25
7
|
0
12
|
0
0
|
7
5
|
27
27
|
Catatan
: * kunci jawaban
Tingkat
kesukaran butir soal tersebut dapat dihitung dengan rumus:
Indeks
daya beda butir soal dapat dihitung dengan menggunakan rumus :
D
= PA – PB
Berdasarkan hasil analisis secara
sederhana tersebut Nampak bahwa butir soal nomor 1 tersebut mempunyai tingkat
kesukaran 0,47 dan daya beda 0,30 . ini menunjukan bahwa berdasarkan dua
karakteristik tersebut butir soal nomor 1 cukup baik tetapi apabila anda
perhatikan lebih teliti terhadap pengecoh yang disediakan ternyata alternative
jawaban a, d dan e perlu diperbaiki. Alternative jawaban a dan e mempunyai daya
beda positif. Hal ini menunjukan bahwa pengecoh a dan kurang berfungsi sebagai
pengecoh a dan kurang brfungsi sebagai yang baik karena jumlah siswa dalam kelompok atas yang memilih
kedua pengecoh tersebut lebih besar dari jumlah siswa dalam kelompok bawah yang
memilih pengecoh yang sama. Alternatif jawaban tersebut tidak ada yang memilih.
4. Bagaimana Menganalisis Tes Uraian
Pada
umumnya analisis butir soal memang dilakukan untuk tes pilihan ganda seperti
contoh yang telah dibahas. Tetapi sebelumnya anda juga dapat menganalisis tes
uraian yang telah anda ujikan dengan cara yang cukup mudah.
Cara
menganalisis tes uraian diberikan oleh Whitney dan Sabers (Mehrens dan Lehman,
1984) sebagai berikut:
a.
Tentukan
jumlah siswa yang termasuk dalam kelompok atas ( 25 % ) dan kelompok bawah ( 25
% ).
c.
Hitung
tingkat kesukaran dan daya beda setiap butir soal dengan rumus sebagai berikut
:
P = £A
- £ B – ( 2Nskor min )
2N ( skormaks – skor min )
Dimana
:
£A
: jumlah skor kelompok atas
£b
: jumlah skor kelompok bawah
N
: 25 % kelompok peserta didik
Skormak
: skor maksimal setiap butir tes
Skormin
: skor minimal setiap butir tes
Contoh
:
Perhatikan
tabulasi data hasil tes sumatif IPA untuk butir soal nomor 1 yang diikuti oleh
100 siswa sebagai berikut :
Skorsoal
|
Kelompokatas
|
Kelompokbawah
|
||
f
|
fs
|
f
|
fs
|
|
7
6
5
4
3
2
1
0
|
0
0
4
10
6
5
0
0
|
0
0
20
40
18
10
0
0
|
0
0
0
4
12
8
0
1
|
0
0
0
16
36
16
0
0
|
|
25
|
88
|
25
|
68
|
Tingkat
kesukaran dan daya beda butir soal yang dihitung sebagai berikut :
P
= £A - £ B – ( 2Nskor min )
2N ( skormaks – skor min )
= 88 + 68 – ( 2 x 25 x 0 )
2 x 25 ( 7-0 )
= 88 + 68
50 ( 7 – 0 )
=
0,45
D
= £A- £ B
2N ( skormaks – skor min )
= 88- 68
25 (
7- 0 )
=
20
350- 0
D
= 0,11
5.
Tidak ada komentar:
Posting Komentar