blog filsafat ima: VALIDITAS DAN RELIABILITAS HASIL PENGUKURAN

BAB II

PEMBAHASAN

A. VALIDITAS DAN RELIABILITAS HASIL PENGUKURAN

1. Validitas

a. Apakah Validitas Itu?

Alat ukur yang baik adalah alat ukur yang dapat dengan teat mengukur apa yang ingin anda ukur. Jika anda ingin mengukur panjang sebuh meja maka anda harus dapat memilih alat ukur yang tepat untuk mengukur panjang meja tersebut. Untuk mengitung waktu tempuh pelari cepat dalam perlombaan lari cepat 100 meter maka anda juga harus dapat memilih ukur yang tepat untuk digunakan. Demikian juga jika anda ingin mengukur hasil belajar siswa maka anda juga dituntut untuk menggunakan alat ukur (dalam hal ini es) yang dapat dengan tepat mengukur hasil belajar yang anda harapkan. Agar anda dapat memperoleh gambaran tentang pengertian validitas suatu hasil pengukuran.

Menurut Sukardi (2010:31), valiaditas suatu instrumen evaluasi, tidak lain adalah derajat yang menunjukkan dimana suatu tes mengukur apa yang hendak diukur. Validitas suatu instrumen evaluasi mempunyai makna penting diantaranya seperti berikut:

1) Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrumen evaluasi untuk grup individual dan bukan instrumen itu sendiri.

2) Validitas dapat diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup kategori yang rendah, menengah, dan tinggi.

3) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh para peneliti bahwa ia hanya valid untuk suatu tujuan tertentu saja. Tes valid untuk bidang studi metrologi industri belum tentu valid untuk bidang yang lain misalnya bidang mekanisme teknik.

Pengertian validitas mengacu pada ketepatan interpretasi yang dibuat dari hasil pengukuran atau evaluasi (Gronlund dan Linn, 1990). Secara umum validitas ada tiga jenis.

1) Validitas isi (content validity)

2) Validitas konstrak (construct validity)

3) Validitas yang dikaitkan dengan kriteria tertentu (criterion reiated validity).

Validitas isi diperlukan untuk menjawab pertanyaan “ sejauh mana item-item yang ada yang ada dalam tes dapat mengukur keseluruhan materi yang telah diajarkan”. Tinggi rendahnya validitas isi dapat ditetapkan berdasarkan analisis rasional atau pertimbangan ahli terhadap isi tes hasil belajar. Tinggi rendahnya validitas isi suatu tes dapat anda lihat pada perencanaan atau kisi-kisi tes. Semakin representative materi yang dapat ditanyakan dalam tes tersebut menunjukan semakin tinggi validitas isinya.

Validitas konstak mengacu pada sejauh mana alat ukur tersebut dapat mengungkap keseluruhan konstrak yang digunakan sebagai dasar dalam penyusun tes tersebut. Yang dimaksud dengan konstrak disini adalah konsep hipotetis (hipotetical concept) yang digunakan sebagai dasar dalam penyusunan alat ukur . validitas konstrak ini banyak digunakan terutama dalam pengukuran-pengukuran psikologi seperti pengukuran sikap, minat, tingkah laku dan sebaginya. Campbell dan fiske (Djemari Mardapi,2004) mengembangkan suatu pendekatan untuk menentukan validitas konstrak dengan menggunakan tehnik multi trait – multi method. Validitas dengan multi trait- multi method dilakukan dengan menggunakan lebih dari satu metode untuk mengukur lebih dari satu macam trait (sifat). Dengan menggunakan matrik kolerasi sehingga interkorelasi antara trait dan metode dapat dilihat dengan jelas . perhatoikan table multi trait- multi method ideal berikut.

Tabel 5.1 Validitas Konvergen dan Validitas Deskrimen Pada Persekatan Multitrait Multimethod.

	A1	B1	A2	B2
A1	rA1A1 (Tinggi)	rA1B1 (Rendah	rA1A2 (tinggi)	rA1B2 (Rendah)
B1		rB1B1 (Tinggi)	rB1A2 (rendah)	rB1B2 (tinggi)
A2			rA2A2 (tinggi)	rA2B2 (rendah)
B2				rB2B2 (tinggi)

Keterangan: Huruf melambangkan trait sementara angka melambangkan metode, sedangkan r adalah modulud korelasi.

A1 = trait A yang diukur dengan metode 1

A2 = trait A yang diukur dengan metode 2

B1 = trait B yang diukur dengan metode 1

B2 = trait B yang diukur dengan metode 2

A1A2 =dua metode yang berbeda yang digunakan untuk mengukur trait yang sama.

A1B1 = dua trait yang berbeda diukur dengan metode yang sama.

Dari tabel tersebut dapat dilihat ada dua tipe validitas yaitu validitas konvergen (convergent validity) dan validitas pembeda (discriminant validity). Adanya validitas konvergen dapat di lihat pada kolerasi yang tinggi antara skor tes yang mengukur trait yang sama dengan metode yang berbeda (rA1B1, rA1B2, rA2B1, dan rA2B2), terutama bila trait yang berbeda diukur dengan metode yang sama (rA1B1 dan rA2B2). Adanya korelsi yang rendah ini menunjukan bahwa item tersebut mempunyai daya pembeda yang baik dan mampu mengukur trait yang spesifik. Sebagai contoh, jika kita mengetahui bagaimana pola kepemimpinan seorang kepala sekolah maka item-item yang anda gunakan dikatakan mempunyai validitas konstrak yang tinggi jika item tersebut dapat mengungkapkan pola kepemimpinan setiap individu yang menjadi sampel dalam pengukuran tersebut.

Jika suatu tes diumaksudkan untuk memprediksi keberhasilan seseorang dimasa yang akan datang atau dimaksud untuk mengetahui kesesuaian antara pengetahuan dan keterampilan yang di miliki maka alat ukur yang digunakan harus mempunyai criterion related validity yang tinggi. Sebagai contoh jika siswa SD mempunyai nilai ebtanas murni (NEM) tinggi ternyata mempunyai prestasi yang bagus setelah melanjutkan di SLTP maka dapat dikatakan bahwa tes yang digunakan dalam ebtanas SD mempunyai criterion related validity yang tinggi . sutu tes teori computer dikatakan mempunyai criterion related validity jika dari hasil tes ternyata siswa yang mempunyai skor tinggi memang mempunyai keterampilan yang tinggi dalam menggunakan computer daripada siswa yang mendapat skor rendah.

Sedangkan dalam evaluasi pendidikan, validitas suatu tes dapat dibedakan menjadi empat macam, yaitu validitas isi, validitas konstruk, validitas konkuren, dan validitas prediksi (Sukardi, 2010:31).

1) Validitas Isi

Validitas isi adalah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang ingin diukur. Untuk mendapatkan validitas isi memerlukan dua aspek penting, yaitu valid isi dan valid teknik sampling. Valid isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling pada umumnya berkaitan dengan bagaimanakah baik suatu sampel item tes merepresentasikan total cakupan isi.

Tes validitas isi juga disebut face validity (validitas wajah). Walaupun hal tersebut masih meragukan, karena validitas wajah hanya menggambarkan derajat dimana sebuah interpretasi tes tampak mengukur, tetapi tidak menggambarkan cara psikometrik yang mengukur apa yangingin diusahakan dapat diukur. Proses ini sering digunakan sebagai awal menyaring dalam tes pilihan.

2) Validitas Konstruk

Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara. Secara definitif, konstruk merupakan suatu sifat yang tidak dapat diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua indera kita. Konstruk tidak lain merupakan “temuan” atau suatu pendekatan untuk menerangkan tingkah laku. Proses melakukan validasi konstruk dapat dilakukan dengan cara melinatkan hipotesis testing yang dideduksi dari teori yang menyangkut dengan konstruk yang relavan.

3) Validitas Konkuren

Validitas konkuren adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah dibuat. Tes dengan validasi konkuren biasanya diadministrasi dalam waktu yang sama atau dengan kriteria valid yang sudah ada. Cara-cara membuat tes dengan validitas konkuren dapat dilakukan dengan beberapa langkah sebagai berikut.

a) Administrasi tes yang baru yang dilakukan terhadap grup atau anggota kelompok.

b) Catat tes baku yang ada termasuk berapa koefisien validitasnya jika ada.

c) Hubungkan atau korelasikan dua skor tersebut.

4) Validitas Prediksi

Validitas prediksi adalah derajat yang menunjukkan suatu tes yang dpaat memprediksi tentang bagaimana baik seseorang akan melakukan suatu prospek tugas atau pekerjaan yang direncanakan. Insrumen validitas prediksi mungkin bervariasi bentuknya tergantung beberapa faktor misalnya kurikulum yang digunakan, buku pegangan yang dipakai, itensitas mengajar dan letak geografis atau daerah sekolah. Yang perlu diperhatikan ketika kita akan melakukan tes validitas predisi yaitu perlunya memperhatikan proses dan cara membandingkan instrumen yang divalidasi dengan tes telah dibakukan. Untuk tes validasi prediksi, prinsip instrumen umum yang menyatakan bahwa tidak ada tes yang memiliki tes prediksi sempurna masih tetap berlaku. Oleh karena itu, perlu disadari bahwa skor tes yang dihasilkan juga memiliki sifat ketidaksempurnaan tersebut.

Ketika kriteria telah diidentifikasi dan ditentukan, prosedur selanjutnya adalah menentukan prediksi suau tes dengan cara seperti berikut:

a) Buat item tes sesuai dengan tujuan yang hendak dicapai.

b) Tentukan kelompok yang dijadikan subjek dalam pilot study.

c) Identifikasi kriterion prediksi yang hendak dicapai.

d) Tunggu sampai tingkah laku yang dipredisi atau variabel kriterion muncul dan terpenuhi dalam kelompok yang telah ditentukan.

e) Capai ukuran-ukuran kriterion tersebut.

f) Korelasikan dua set skor yang dihasilkan.

b. Faktor-Faktor yang Mempengaruhi Validitas

Banyak faktor yang dapat memengaruhi hasil tes evaluasi tidak valid. Beberapa faktor tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari tes, faktor eksternal dari tes, dan faktor yang berasal dari siswa yang bersangkutan.

1) Faktor yang berasal dari dalam tes

Beberapa sumber yang pada umumnya berasal dari faktor internal tes evaluasi diantaranya yaitu:

a) Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes.

b) Kata-kata yang digunakan dalam struktur instrumen evaluasi, terlalu sulit.

c) Item-item te dikonstruksi dengan jelek.

d) Tidak kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa.

e) Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu longgar.

f) Jumlah item tes yang terlalu sedikit sehingga tidak mewakili sampel materi pembelajaran.

g) Jawaban masing-masing item evaluasi tes bvida diprediksi siswa.

2) Faktor yang berasal dari administrasi dan skor

Faktor ini dapat mengurangi validitas interpretasi tes evaluasi, khususnya tes evaluasi yang dibuat oleh guru. Berikut beberapa contoh faktor yang sumbernya berasal dari proses administrasi dan skor.

a) Waktu pengajaran tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi yang tergesa-gesa.

b) Adanya kecurangan dalam tes sehingga tidak dapat membedakan antara siswa yang belajar dengan yang melakukan kecurangan.

c) Pemberian petunjuk dari pengwas yang tidak dapat dilakukan pada semua siswa.

d) Teknik pemberian skor yang tidak konsisten, misalnya pada tes essai, juga dapat mengurangi validitas tes evaluasi.

e) Siswa tidak dapat mengikuti arahan yang diberikan dalam tes baku.

f) Adanya joki (oarng lain bukan siswa) yang masuk dan menjawab item tes yang diberikan.

3) Faktor-faktor yang berasal dari jawaban siswa

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena dipengaruhi oleh jawaban siswa daripada interpretasi item-item pada tes evaluasi. Sebagai contoh, sebelum tes para siswa menjadi tegang karena guru pengampu mata pelajaran dikenal “killer”, galak, dan sebagainya sehingga siswa yang ikut tes banyak yang gagal.

2. Reliabilitas

a. Apakah Reliabilitas Itu?

Untuk memperoleh pemahaman tentang pengertian realibilitas, lakukan kegiatan berikut ini! Ukurlah panjang sepuluh benda yang berada di sekitar anda sebanyak 2 kali pada waktu yang berbeda dengan menggunakan alat ukur yang tepat kemudian tuangkanlah hasilnya pada table berikut ini !

No	Namabenda	Alatukur yang digunakan	Hasilpengukuran
No	Namabenda	Alatukur yang digunakan	1	2

Apakah hasil yang anda peroleh dalam dua kali pengukuran, memperoleh hasil yang beda? Jika cara pengukuran yang ada lakukan benar maka hasil pengukuran yang anda perolah mestinya sama. Jika hasil pengukuran yang anda peroleh sama, dapat dikatakan bahwa alat ukur yang anda gunakan memberikan hasil pengukuran yang reliable (tetap, konsisten, stabil). Hasil-hasil pengukuran yang berhubungan dengan aspek-aspek fisik seperti mengukur panjang meja, tinggi lemari,, berat badan, tinggi badan biasanya menghasilkan reliabilitas yang sangat tinggi. Artinya walaupun pengukuran dilakukan lebih dari sekali tetapi tetap memberikan hasil yang tidak jauh beda. Hasil pengukuran yang berbeda akan sering anda temukan jika anda melakukan pengukuran terhadap hal-hal yang berhubungan dengan aspek-aspek psikologi dan sosial seperti dalam pengukuran mewakili intelegensi, sikap, dan konsep diri. Aspek aspek sosial psikologis seperti itu tidak dapat diukur tidak dengan ketepatan dan kosintensi yang tinggi. Hal ini di debabkan karena hasil pengukuran yang di peroleh tidak dapat lepas dari pengaruh hal hal diluar maksud pengukuran tersebut misalnya alat ukur itu sendiri mungkin bukan merupakan alat ukur yang tepat untuk mengukur aspek yang diinginkan. Disamping itu karena subjek pengukurannya adalah manusia maka cara cara penyajian tes, emosi, motivasi, kondisi fisik, dan keadaan ruang tes akan mempengaruhi hasil pengukuran walaupun sebenarnya aspek aspek yang ingin kita ukur tersebut tidak berubah. Dengan demikian hasil pengukuran yang di peroleh menjadi kurang reilabel.

Dan hasil kegiatan yang telah anda lakukan dan setelah memahami uraian diatas, anda telah memperoleh gambaran yang mengenai apa yang di maksud dengan realiabilitas.kalau pengertian validaitas mengacu pada ketepatan hasil pengukuran maka pengertian realibialitas mengacu pada ketepatan hasil yang di peroleh dari suatu pengukuran (Gronlund dan Linn,1990). Salah satu untuk mengetahui ketetapan atau realiabilitas suatu hasil pengukuran, dapat diperoleh dengan cara melakukan pengukuran dua kali seperti contoh kegiatan yang telah anda lakukan tersebut. Hasil pengukuran di katakan mempunyai realiabilitas yang tinggi jika hasil pengukuran pertama hampir sama dengan hasil pengukuran kedua. Dan sebaliknya hasil pengukuran dikatakan mempunyai realibilitas yang rendah jika hasil pengukuran pertama jauh berbeda dengan hasil pengukuran kedua.

Jika anda mempunyai seperangkat tes misalnya tes untuk mengukur penguasaan siswa dalam matematika maka untuk mengetahui apakah tesanda tersebut mempunyai realiabilitas yang tinggi atau rendah dapat dengan mudah anda lakukan yaitu dengan cara mengujikan set tes tersebut. Pada kelas yang sama sebaiknya dua kali dengan selisih waktu yang tidak terlalu lama dan juga terlalu dekat? Coba diskusikan dengan teman teman anda. Pada rinsipnya hal ini berhubungan dengan kekhawatiran bahwa siswa masih mengingat soal soal tersebut dan kekhawatiran adanya penambahan pengetahuan selama selang waktu dua pengukuran tersebut. Jika skor yang anda peroleh dari pelaksanaan tes pertama tidak jauh berbeda dengan skor yang anda peroleh pada waktu tes kedua pada waktu tes kedua maka dapat dikatakan bahwa set tes anda mempunyai realiabilitas yang tinggi.semakin sama skor yang anda peroleh pada pengukuran pertama dan kedua menunjukan semakin tinggi relibilitas set tes berikut. Jika anda ingin lebih teliti untuk melihanya dapat anda lakukan dengan melihat skor setiap individu pada kedua hasil pengukuran tersebut. Jika skor yang di peroleh setiap individu pada kedua pengukuran cenderung sama berarti set tes tersebut mempunyai reliabilitas yang tingi. Hungungan antara skor yang diperoleh pada pengukuran pertama dengan kedua akan menghasilkan angka korelasi bergerak antara -1 (baca negative satu) sampai dengan +1 (baca positif satu). Semakin tinggi angka koefisien reliabilitas (mendekati 1) maka semakin tinggi reliabilotas tes tersebut. Suatu perangkat tas dinyatakan cukup reliable jika mempunyai koefisien reliabilitas lebih besar0,5 (Fernandes,1984). Cara menghitung koefisien korelasinya dapat anda hitung dengan menggunakan formula korelasi product-moment sebagai berikut.

Keterangan:

rxy : koefisien korelasi dari xy

N : Jumlah data

X: data pertama

Y: data kedua

Contoh:

Nama	Skortes 1 X	Skortes 2 Y	XY
Ahmad	40	42	1680	1600	1764
Wildan	43	43	1849	1849	1849
Muhwan	39	38	1482	1521	1444
Rizkinur	52	50	2600	2704	2500
Rizkizul	50	51	2550	2500	2601
Rinan	44	45	1936	1936	2025
Yogi	44	44	2499	1936	1936
Lili	51	49	2352	2601	2401
Opi	48	49	2352	2304	2401
Mega	47	46	2162	2209	2116
	458	457	21090	21160	21037

Konsep reliabilitas yang baru di pelajari adalah reliabilitas dalam arti stabilitas tes. Sebenernya masih ada 2 konsep reliabilitas yang lain yaitu: konsep reliabilitas dalam arti equivalent dan konsep reliabilitas dalam arti konsistensi internal.

Konsep reliabilitas dalam arti equivalent test dimaksud untuk mengetahui apakah 2 set tes yang anda gunakan pararel atau tidak. Konsep reliabilitas dalam arti konsistensi internal tes dimaksud untuk mengetahui apakah kumpulan butir soal yang ada dalam satu set tes tersebut mengukur dimensi hasil belajar yang sama atau tidak.

b. Bagaimana Hubungan antara Viliditas dan Reliabilitas ?

Ketetapkan hasil pengukuran reliabilitas sangat diperlukan untuk memperoleh alat ukur yang dapat memberikan hasil pengukuran yang tepat (valid). Walaupun demikian alat ukur yang mempunyai reliabilitas yang tinggi belum tentu secara otomatis mempunyai validitas yang tinggi. Karena tingginya reliabilitas yang dihasilkan oleh suatu alat ukur jika tidak dibarengi dengan tingginya validitas dapat memberikan informasi yang salah tentang apa yang ingin anda ukur.

c. Bagaimana Meningkatkan Reliabilitas Tes ?

Reliabilitas suatu tes dapat ditingkatkan dengan menambah jumlah butir ke dalam tes tersebut. Yang mungkin menjadi pertanyaan bagi anda kemudian adalah apakah setiap penambahan butir soal akan selalu dapat menaikan reliabilitas tes? Jawabannya adalah belum tentu, penambahan butir soal pada tes akan meningkatkan reliabilitas jika butir soal yang ditambahkan adalah butir-butir soal homogen dengan butir soalyang ada. Yang dimaksud butir soal yang homogeny adalah butir soal-soal yang mengukur hal yang sama dengan butir soal yang sudah ada. Penambahan butir soal tidak akan menaikan reliabilitas tes jika butir soal yang ditambah tidak homogen dengan butir soal yang telah ada. Reliabilitas tes yang baru sebagia akibat adanya penambahan butir soal secara sederhana dapat dihitung dengan menggunakan rumus spearman Brown sebagai berikut :

Keterangan:

Contoh :

Reliabilitas suatu tes yang terdiri atas 40 butir adalah Berapakah reliabilitas tes setelah ditambahkan 20 butir soal yang homogen dengan butir soal yang sudah ada ?

Jawab :

Reliabilitas sebelum penambahan = 0,40. Jumlah butir soal sebelum ditambah = 40 dan setelah ditambah 20 berarti 60. Dengan demikian rasio jumlah butir soal setelah dan sebelum penambahan adalah 1,5 (karena ada penambahan butir setengah kali lipat). Jika angka tersebut kita masukan dalam rumus, akan kita peroleh reliabilitas tes baru sebagai berikut.

d. Faktor-Faktor yang Mempengaruhi Reliabilitas

Menurut Sukardi (2010:51), faktor-faktor yang mempengaruhi reliabilitas, antara lain:

1) Panjang tes; semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi pembelajaran diukur. Ini menunjukkan dua kemungkinan, yaitu a) tes semakin mendekati kebenaran, dan b) dalam mengikuti tes, semakin kecil siswa menebak. Berarti akan semakin tinggi nilai koefisien reliabilitas.

2) Penyebaran skor; koefisien reliabilitas secara langsung dipengaruhi oleh bentuk sebaran skor dalm kelompok siswa yang diukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilits (Gronlund 1990: 94). Hal ini terjadi karena posisi skor siswa secara individual mempunyai kedudukan sama pada tes-retes lain, sebagai acuan.

3) Kesulitan tes; tes normatif yang terlalu mudah atau terlalu sulit untuk siswa, cenderung menghasilkan skor reliabilitas rendah. Fenomena tersebut, akan menghasilkan sebaran skor yang cenderung terbatas pada salah satu sisi. Untuk tes yang terlalu mudah skor jawaban siswa akan mengumpul pada sisi tas, misalnya 9 atau 10. Untuk tes yang terlalu sulit, skor jawaban siswa akan cenderung mengumpul pada ujung sebaliknya, atau rendah.

4) Objektivitas; yang dimaksud dengan objektif yaitu derajat dimana siswa dengan kompetensi sama, mencapai hasil sama. Ketika prosedur tes evaluasi memiliki objektivitas tinggi, maka reliabilitas hasil tes tidak dipengaruhi oleh prosedur teknik penskoran. Item tes skor objektif yang dihasilkan tidak dipengaruhi pertimbangan atau opini dari seorang evaluator.

e. Persyaratan KegunaanReliabilitas

Kegunaan merupakan syarat instrumen evaluasi yang lebih berorientasi pada pertimbangan praktis. Beberapa pertimbangan praktis yang perlu diperhatikan, diantaranya seperti berikut (Sukardi, 2010:52) :

1) Tes atau instrumen yang hendak digunakan sebaiknya memiliki kemudahan adinistrasi yang didalamnya mengandung unsur : mudah diatur, disimpan dan digunakan sewaktu-waktu secara mudah.

2) Waktu yang diperlukan untuk proses administrasi sebaiknya singkat , cepat dan tepat.

3) Instrumen sebaiknya juga mudah di interpretasi oleh guru ahli maupun guru yang kurang mendapat latihan dibidang instrumen evaluasi.

4) Adanya beberapa macam jenis instrumen yang memiliki ekivalensi sama sehingga bisa digunakan sebagai pengganti atau variasi instrumen.

5) Instrument evaluasi sebaiknya memilki karakteristik biaya murah, dan dapat dijangkau oleh guru atau sekolah yang hendak menggunakannya

B. ANALISIS DAN PERBAIKAN INSTRUMEN

1. Mengapa Analisis Butir Soal Penting?

Dengan melakukan analisis butir soal sebetulnya anda dapat memperoleh banyak informasi yang bermamfaat baik bagi anda sebagai guru, siswa, dan proses pembelajaran yang telah anda lakukan. Kami yakin bahwa anda semua melakukan analisis butir soal dapat dilakukan dengan cara yang sederhana. Dengan menganalisis butir soal anda akan dapat meningkatkan kualitas butir soal tersebut. Dengan kualitas butir soal yang baik, anda akan dapat mengukur hasil belajar siswa anda dengan tepat.

Menurut Nitko (1983) analisis butir soal menggambarkan suatu proses pengambilan data , dan penggunaan informasi tentang tiap-tiap butir soal terutama informasi tentang tiap-tiap butir soal. Lebih lanjut dikatakan bahwa arti penting penggunaan analisis butir soal adalah sebagai berikut :

a. Untuk mengetahui apakah butir soal butir soal yang disusun sudah berfungsi sesuai dengan apa yang dikehendaki oleh penyusun soal. Dalam hal ini perlu anda sadari bahwa bagaimanapun berpengalamannya seseorang dalam menulis soal yang bersangkutan tidak dapat menulis soal yang sempurna. Artinya masih terbuka peluang bahwa butir soal yang anda susun belum berfungsi sebagaimana yang anda kehendaki. Untuk menentukan apakah soal-soal yang anda susun telah berfungsi sebagai berikut :

1) Apakah soal-soal yang anda susun sudah sesuai untuk mengukur perubahan tingkah laku seperti telah dirumuskan dalam tujuan instruksional.

2) Apakah tingkat kesukaran sudah anda perhitungkan ?

3) Apakah soal tersebut sudah mampu membedakan antara siswa yang pandai dengan siswa yang kurang pandai ?

4) Apakah kunci soal yang anda buat sudah benar sesuai dengan maksud soal ?

5) Jika anda menggunakan tes pilihan berganda, apakah pengecoh yang anda pilih sudah berfungsi dengan baik ?

6) Apakah soal tersebut masih dapat ditafsirkan ganda atau tidak.

b. Sebagai umpan balik bagi siswa untuk mengetahui kemampuan mereka dalam menguasai materi.

c. Sebagai umpan balik bagi anda sendiri sebagai guru untuk mengetahui kesulitan-kesulitan yang dialami oleh siswa dalam memahami suatu materi. Dari label sederhana tentang frekuensi siswa yang menjwab benar dan siswa yang menjwab salah terhadap masing-masing butir soal , anda akan dapat mengetahui materi mana yang sudah dikuasai siswa dan materi mana yang belum dikuasai. Di samping itu anda dapat mengetahui siswa mana yang memerlukan perhatian lebih serius.

d. Sebagai acuan untuk merevisi soal. Dari jawaban yang diberikan siswa terhadap setiap butir soal anda akan dapat mengetahui kelemahan setiap butir soal sehingga perlu direvisi. Kegiatan ini sangat penting bagi anda lakukan untuk memperoleh butir soal yang lebih baik. Karena hanya dengan butir soal yang baiklah anda dapat mengukur siswa dengan tepat.

e. Untuk memperbaiki kemampuan anda dalam menulis soal. Dengan melakukan analisis butir soal dan melakukan revisi maka kemampuan anda dalam menulis butir soal akan meningkat.

2. Kapan Analisis Butir Soal Dilakukan?

Pada saat anda mengujikan suatu set soal mengambil keputusan penting tentang hasil belajar siswa maka idealnya anda harus yakin bahwa set soal tersebut adalah valid dan reliabilitas. Validitas set soal dapat diketahui dari kisi-kisi soal sedangkan realibilitas soal baru dapat diketahui setelah uji coba. Nah, dalam rangka memperoleh realibilitas set soal inilah butir soal dilakukan. Dalam menganalisis butir soal paling tidak ada dua karakteristik butir soal yang perlu anda perhatikan yaitu tingkat kesukaran dan daya beda butir-butir soal.

a. Tingkat kesukaran butir soal

Tingkat kesukaran merupakan salah satu karakteristik yang dapat menunjukan kualitas butir soal tersebut apakah termasuk mudah , sedang atau sukar. Suatu butir soal dikatakan mudah jika sebagian besar siswa tidak dapat menjawab dengan benar. Besarnya tingkat kesukaran butir soal, dapat dihitung dengan memperhatikan proporsi peserta tes yang menjawab benar terhadap setiap butir soal. Secara matematis tingkat kesukaran butir soal dapat dihitung dengan rumus ;

Keterangan:

p = adalah indeks tingkat kesukaran butir soal.

B = adalah jumlah peserta tes yang menjawab benar

N = adalah jumlah seluruh peserta tes.

Contoh:

Jika butir soal nomor 1 yang anda ujikan dapat dijawab dengan benar oleh 10 dari 40 siswa maka tingkat indeks tingkat ke sukaran butir soal nomor 1 adalah :

Indeks tingkat kesukaran butir soal bergerak antara 0,00 sampai dengan 1,00. Indeks tingkat kesukaran butir soal ( p ) = 0,00 apabila seluruh peserta tes tidak ada yang dapat menjawab dengan benar dan indeks tingkat kesukaran butir soal (p) = 1,00 akan tercapai apabila semua peserta tes dapat menjawab dengan benar. Jadi butir soal yang mudah akan mempunyai p mendekati 1,00 dan butir soal yang sukar mempunyai p mendekati 0,00.

Menurut fernandes ( 1984 ) kategori tingkat kesukaran butir soal adalah sebagai berikut :

p> 0,75 : mudah

0,25 < p <0,75 : sedang

p< 0,24 : sukar

Butir soal yang dianggap sangat bermamfaat (useful) adalah butir soal yang mempunyai tingkat kesukaran dalam kategori sedang.

b. Daya Beda (D)

Daya beda butir soal memiliki pengertian seberapa jauh butir soal tersebut dapat membedakan kemampuan individu peserts tes. Butir soal didukung potensi daya beda yang baik, akan mampu membedakan peserta didik yang memiliki kemampuan tinggi (pandai) dengan peserta didik yang memiliki kemampuan rendah (kurang pandai). Daya beda butir soal dapat dihitung dengan menggunakan rumus :

D = P_A– P _B

Keterangan:

D = indeks daya butir soal

P_A = proporsi kelompok ata yang menjawab benar

P_B = proporsi kelompok bawah yang menjawab benar.

Misalnya: Dalam menjawab butir soal nomor 2, enam dari 10 siswa yang termasuk dalam kelompok atas dapat menjawab benar dan 2 dari 10 siswa yang termasuk kelompok bawah dapat menjawab maka indeks daya beda butir soal nomor 2 tersebut:

Yang dimaksud dengan siswa kelompok atas adalah kelompok siswa yang memperoleh skor tinggi sedangkan yang dimaksud dengan siswa kelompok bawah adalah kelompok siswa yang memperoleh skor rendah setelah mengerjakan satu set tes suatu mata pelajaran.

Nilai indeks daya beda soal bergerak dari – 1 sampai + 1. Semakin tinggi indeks daya beda menunjukan bahwa bahwa butir soal tersebut semakin dapat membedakan antara siswa yang pandai dengan siswa yang kurang pandai.

Secara teoritis indeks daya beda soal (D) = 1 akan tercapai apabila semua siswa kelompok atas dapat menjawab benar dan semua siswa dalam kelompok bawah menjawab salah. Indeks daya beda soal (D) = -1 akan tercapai jika semua siswa dalam kelompok atas menjawab salah dan semua siswa kelompok bawah justru menjawab benar. Sedangkan indeks daya beda soal (D ) = 0 apabila proporsi siswa yang menjawab benar dalam kelompok atas dan bawah adalah sama.

Butir-butir soal yang kunci jawabannya mempunyai indeks daya beda negative adalah butir soal yang kurang baik karena butir soal yang kurang baik karena butir soal tersebut tidak dapat membedakan siswa yang pandai dengan siswa yang kurang pandai justru lebih banyak menjawab benar daripada siswa yang pandai.

Butir soal mempunyai daya beda yang baik jika dianalisis kuncinya mempunyai daya beda positif dann pengecohnya mempunyai daya beda negatif. Menurut Fernandes (1984) kategori indeks daya beda butir soal adalah sebagai berikut

D > 0,40 = sangat baik

0,30< D <0,40 = baik

0,20 <D <0,30 = sedang

D < 0,20 = tidak baik

3. Bagaimana Cara Melakukan Analisis Secara Sederhana

Untuk melakukan analisis butir soal secara sederhana, berikut ini disajikan langkah-langkah dalam menganalisis butir soal :

a. Hitunglah jumlah jawaban yang benar untuk seluruh siswa.

b. Berdasarkan jumlah jawaban yang benar dari seluruh siswa tersebut susunlah nskor siswa mulai dari skor tertinggi ke skor terendah.

c. Berdasarkan urutan skor tersebut tentukan siswa yang termasuk dalam kelompok atas dan siswa yang termasuk kelompok bawah . untuk menentukan berapa persen yang masuk kelompok atas dan berapa persen yang termasuk kelompok bawah gunakan rambu-rambu sebagai berikut :

1) Jika jumlah siswa <20 maka jumlah kelompok atas dan kelompok bawah masing-masing 50 %.

2) Jika jumlah siswa 21-40 maka jumlah kelompok atas dan kelompok bawah masing-masing 33,3 %.

3) Jika jumlah siswa > 41 maka jumlah kelompok atas dan kelompok bawah masing- masing 27 %.

d. Hitunglah jumlah siswa dalam kelompok atas yang memilih tiap-tiap alternatif jawaban yang disediakan.

e. Dengan cara yang sama hitunglah jumlah siswa dalam kelompok bawah yang memilih tiap-tiap alternative jawaban disediakan.

f. Hitunglah jumlah seluruh peserta tes (kelompok atas, tengah dan bawah) yang menjawab benar.

g. Hitunglah tingkat kesukaran butir soal dan daya beda dengan menggunakan rumus yang telah disediakan.

Contoh:

Perhatikan jawaban 100 siswa terhadap butir soal nomor 1 berikut :

Kelompok	Alternative Jawaban					Jumlah
	a	b*	c	d	e
Atas Tengah bawah	5 3	15 25 7	0 12	0 0	7 5	27 27

Catatan : * kunci jawaban

Tingkat kesukaran butir soal tersebut dapat dihitung dengan rumus:

Indeks daya beda butir soal dapat dihitung dengan menggunakan rumus :

D = P_A– P_B

Berdasarkan hasil analisis secara sederhana tersebut Nampak bahwa butir soal nomor 1 tersebut mempunyai tingkat kesukaran 0,47 dan daya beda 0,30 . ini menunjukan bahwa berdasarkan dua karakteristik tersebut butir soal nomor 1 cukup baik tetapi apabila anda perhatikan lebih teliti terhadap pengecoh yang disediakan ternyata alternative jawaban a, d dan e perlu diperbaiki. Alternative jawaban a dan e mempunyai daya beda positif. Hal ini menunjukan bahwa pengecoh a dan kurang berfungsi sebagai pengecoh a dan kurang brfungsi sebagai yang baik karena jumlah siswa dalam kelompok atas yang memilih kedua pengecoh tersebut lebih besar dari jumlah siswa dalam kelompok bawah yang memilih pengecoh yang sama. Alternatif jawaban tersebut tidak ada yang memilih.

4. Bagaimana Menganalisis Tes Uraian

Pada umumnya analisis butir soal memang dilakukan untuk tes pilihan ganda seperti contoh yang telah dibahas. Tetapi sebelumnya anda juga dapat menganalisis tes uraian yang telah anda ujikan dengan cara yang cukup mudah.

Cara menganalisis tes uraian diberikan oleh Whitney dan Sabers (Mehrens dan Lehman, 1984) sebagai berikut:

a. Tentukan jumlah siswa yang termasuk dalam kelompok atas ( 25 % ) dan kelompok bawah ( 25 % ).

b. Hitung jumlah skor kelompok atas dan jumlah skor kelompok bawah.

c. Hitung tingkat kesukaran dan daya beda setiap butir soal dengan rumus sebagai berikut :

P = £_A- £ _B– ( 2Nskor _min)

2N ( skor_maks– skor _min)

Dimana :

£_A
:jumlah skor kelompok atas

£_b: jumlah skor kelompok bawah

N : 25 % kelompok peserta didik

Skor_mak : skor maksimal setiap butir tes

Skor_min: skor minimal setiap butir tes

Contoh :

Perhatikan tabulasi data hasil tes sumatif IPA untuk butir soal nomor 1 yang diikuti oleh 100 siswa sebagai berikut :

Skorsoal	Kelompokatas		Kelompokbawah
Skorsoal	f	fs	f	fs
7 6 5 4 3 2 1 0	0 0 4 10 6 5 0 0	0 0 20 40 18 10 0 0	0 0 0 4 12 8 0 1	0 0 0 16 36 16 0 0
	25	88	25	68

Tingkat kesukaran dan daya beda butir soal yang dihitung sebagai berikut :

P = £_A- £ _B– ( 2Nskor _min)

2N ( skor_maks– skor _min)

= 88 + 68 – ( 2 x 25 x 0 )

2 x 25 ( 7-0 )

= 88 + 68

50 ( 7 – 0 )

= 0,45

D = £_A- £ _B

2N ( skor_maks– skor _min)

= 88- 68

25 ( 7- 0 )

= 20

350- 0

D = 0,11

blog filsafat ima

Senin, 04 Januari 2016

VALIDITAS DAN RELIABILITAS HASIL PENGUKURAN

Tidak ada komentar:

Posting Komentar