TEORI TES KLASIK &
MODERN
Ø Teori Tes Klasik
Salah satu teori pengukuran yang tertua didunia pengukuran behavioral
adalah classical true-score theory. Teori ini sering disebut dengan
teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam
penerapannya serta model yang cukup berguna dalam mendeskripsikan bagaimana
kesalahan dalam pengukuran dapat mempengaruhi skor amatan. Inti teori klasik
adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu
yang lama. Dari
asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan.
asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan.
Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen
& Yen menguraikan asumsi-asumsi teori klasik sebagai berikut:
1. Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan
antara skor tampak (observed score) yang dilambangkan dengan huruf X,
skor murni (true score) yang dilambangkan dengan
T dan skor kasalahan (error) yang dilambangkan
dengan E. Menurut Saifuddin Azwar (2001:30) yang dimaksud kesalahan pada
pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random.
Hubungan itu adalah bahwa besarnya skor tampak
ditentukan oleh skor murni dan kesalahan pengukuran. Dalam bahasa matematika
dapat dilambangkan dengan X = T + E.
2. Asumsi kedua adalah bahwa skor murni (T) merupakan nilai
harapan є (X). Dengan demikian skor murni adalah nilai rata-rata skor perolehan
teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga)
terhadap seseorang dengan menggunakan alat ukur.
3. Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat
korelasi antara skor murni dan skor pengukuran pada suatu tes yang dilaksanakan
(ρet = 0). Implikasi dari asumsi
adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang
selalu positif ataupun selalu negatif.
4. Asumsi keempat meyatakan bahwa korelasi antara kesalahan pada
pengukuran pertama dan nol (ρe1e2 = 0). Artinya bahwa skor-skor
kesalahan pada dua tes untuk
mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan kesalahan
pada pengukuran kedua adalah nol (demikian besarnya kesalahan pada suatu tes
tidak bergantung kesalahan pada tes lain.
5. Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk
mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak
berkorelasi dengan skor murni pada tes kedua
(ρelt2). Asumsi ini akan gugur jika salah satu tes tersebut
ternyata mengukur aspek yang berpengaruh
terhadap teradinya kesalahan pada pengukuran yang lain.
6. Asumsi keenam teori tes klasik adalah menyajikan tentang
pengertian tes yang pararel. Dua perangkat tes dapat dikatakan sebagai tes-tes
yang pararel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat
skor murni yang sama (T = T' ) dan varian skor-skor kesalahannya sama (se
2=se'2). Dalam prakteknya, asumsi keenam teori
ini sulit terpenuhi.
7. Asumsi terakhir dari teori tes klasik menyatakan tentang
definisi tes yang setara (essentially t equivalent). Jika dua
perangkat tes mempunyai skor-skor perolehan dan Xt1 dan Xt2 yang memenuhi asumsi
1 sampai 5dan apabila untuk setiap populasi subyek X1 =X2
+ C12, dimana C12 adalah bilangan konstanta, maka kedua
tes disebut tes yang pararel.
Asumsi-asumsi teori klasik di atas memungkinkan untuk dikembangkan
dalam rangka pengembangan berbagai formula yang berguna dalam melakukan
pengukuran psikologis. Daya beda, indeks kesukaran,
efektifitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes
klasik.
a. Daya beda
Daya beda (diskriminasi) suatu butir tes adalah kemampuan suatu
butir untuk membedakan antara
peserta tes yang berkemampuan tinggi dan berkemampuan rendah. Adapun fungsi
dari daya pembeda adalah mendeteksi perbedaan individual
yang sekecil-kecilnya diantara para peserta tes. Penentuan daya beda butir
biasanya dilakukan dengan menggunakan indeks korelasi, diskriminasi, dan indeks keselarasan item. Dari ketiga cara
tersebut yang paling sering digunakan adalah
indeks korelasi. Ada empat macam teknik korelasi yang biasa digunakan untuk
menghitung daya beda, yaitu : (1) teknik point
biserial, (2) teknik biserial, (3) teknik phi, dan (4) teknik
tetrachorik. Brennan (1972) sebagaimana dikutip Yen W.M
dalam Encyclopedia of Educational Research
memperkenalkan cara untuk menghitung
Indeks diskriminasi dengan menggunakan rumus sebagai
berikut:
B = U _ L
n 1 n2
Dimana dari rumus di atas dapat dimaknai bahwa daya beda adalah
perbedaan antara proporsi kelompok atas yang menjawab benar butir tes menjawab benar butir tes U
n 1
Dengan proporsi kelompok bawah yang menjawab butir tes L
n 2
Rumus tersebut dapat digunakan untuk menghitung daya beda
butir-butir soal dalam bentuk pilihan ganda.
Daya beda juga dapat dijelaskan sebagai
derajad hubungan antara skor butir dengan skor total dengan menggunakan teknik korelasi product
moment dari Pearson. Rumus khusus korelasi product moment yang
dikenal dengan korelasi point biserial untuk data dalam bentuk dikotomi sebagaimana
dikutip dalam Encyclopedia of Educational Research adalah sebagai
berikut:
rpbis
= (x+ -x) p
Sx q
Dimana x
, mean total skor peserta yang memiliki jawaban benar. x adalah mean
skormtotal S, adalah standar deviasi skor total, p adalah proporsi peserta ujian yang
menjawab benar pada butir tes sedangkan q
adalah 1 - p. Rumus korelasi point biserial juga dapat diturunkan
langsung dari rumus korelasi produk momen
tanpa membuat pembatasan asumsi.
Alternatif
lain untuk melihat indeks daya beda adalah dengan menggunakan rumus korelasi
biserial.
Korelasi biserial berbeda dengan korelasi point biserial baik
secara teori maupun perhitungan, akan tetapi
jika digunakan untuk tujuan menganalisis butir, kedua teknik tersebut dapat
di interpretasikan dengan cara yang sama. Crocker
menyatakan rumus korelasi biserial sebagai berikut: rbis
= ( x+
- x ) P
Sx y
"y" pada rumus korelasi biserial di atas melambangkan
ordinat p dalam kurva normal. x+
adalah mean skor dari peserta tes yang memiliki jawaban benar, x adalah mean skor total, Sx adalah
deviasi standar total, p adalah
proporsi peserta ujian yang menjawab benar butir ini dikarenakan tingkat
kesukaran dikombinasikan dengan kriteria oleh koefisien point biserial.
Teknik lain
untuk menentukan nilai daya beda adalah dengan menggunakan teknik korelasi phi
(ø) f . Anas Sudijono menuliskan rumus tentang teknik korelasi phi
sebagai berikut: ø = P H –
P L
2√(p)(q)
ø adalah adalah angka
indeks diskriminasi phi yang dianggap sebagai angka indeks diskriminasi butir.
PH adalah proporsi orang yang menjawab benar kelompok atas. PL
adalah proporsi orang yang menjawab benar kelompok bawah. p adalah
proporsi seluruh peserta tes yang menjawab betul dan q adalah 1
dikurangi p.
Untuk
menyatakan bahwa besaran daya beda dapat berfungsi dengan baik, ada beberapa patokan
yang dapat digunakan. Menurut Djemari Mardapi butir yang diterima harus
memiliki indeks daya beda > 0,3 butir dengan indeks daya beda kurang dari
antara 0,1 sampai 0,3 perlu direvisi dan jika daya bedanya < 0,1 maka butir
tersebut tidak diterima. Sedangkan Ebel & Frisbie memberikan patokan indeks daya beda sebagai
berikut:
Indeks daya beda
|
Evaluasi butir
|
0,4 keatas
|
Butir yang sangat baik
|
0,3
– 0,39
|
Sedikit atau tidak memerlukan revisi
|
0,2 – 0,29
|
Butir memerlukan revisi
|
< 0,19
|
Butir harus dieliminasi
|
b. Indeks Kesukaran
Indeks kesukaran butir sebagaimana
dinyatakan oleh Allen & Yen adalah proportion of
examinees who get that item correct. Senada dengan mereka,
Sax menulis bahwa indeks kesukaran adalah proporsi peserta ujian yang menjawab
benar. Saifuddin Azwar (2003: 134) menyatakan dengan
lebih lugas bahwa indeks kesukaran butir adalah rasio penjawab butir dengan
benar dan banyaknya penjawab butir.
Proporsi menjawab benar p (proportion
correct) adalah indeks kesukaran soal yang paling sederhana dan sering
digunakan dalam menentukan besaran indeks.
Rumus untuk
menentukabesarnya indeks kesukaran secara matematis dirumuskan oleh Saifuddin
sebagai berikut: P
= n1
N
P adalah indeks kesukaran butir, n1
adalah jumlah peserta tes yang menjawab benar sedangkan N adalah banyaknya siswa yang menjawab
butir soal tersebut. Dengan demikian untuk menghitung
indeks kesukaran butir dilakukan dengan tidak membagi kelompok peserta tes
kedalam kelompok atas dan bawah sebagaimana
untuk menentukan daya beda.
Besarnya indeks korelasi berkisar antara 0 sampai 1. Makin
tinggi besaran indeks korelasi maka butir soal
tersebut semakin mudah. Dan semakin kecil angka indeks korelasi maka butir soal
tersebut semakin sulit. Indeks kesukaran yang berada
disekitar 0,5 dianggap yang terbaik. Karena itulah
maka menurut Allen & Yen tingkat kesukaran yang baik adalah 0,3 sampai 0,7.
Butir dengan tingkat kesulitan dibawah 0,3 dianggap
butir soal yang sukar sedangkan jika indeksnya diatas 0,7 butir soal tersebut
dianggap mudah.
Dari penjelasan di atas bisa disimpulkan
berkaitan dengan indeks kesukaran butir yaitu bahwa nilai p bagi suatu
butir hanya menunjukkan indeks bagi kelompok yang diuji. Harga p ini
bisa berubah jika tes diujikan pada kelompok yang berbeda. Selain itu, indeks
kesukaran yang dihasilkan dari rumus ini adalah indeks kesukaran yang berlaku
bagi kelompok secara keseluruhan bukan perorangan. Indeks kesukaran bagi tiap
peserta tes tidak bisa disimpulkan dengan melihat indeks proporsi menjawab
benar p.
c. Efektivitas Distraktor
Setiap tes pilihan ganda memiliki satu
pertanyaan serta beberapa pilihan jawaban. Diantara pilihan jawaban yang ada,
hanya satu yang benar. Selain jawaban yang benar ada juga Jawaban yang salah
atau distractor (pengecoh). Dengan demikian, efektifitas distraktor
adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes
yang memang tidak mengetahui kunci jawaban yang tersedia. Semakin banyak peserta
tes yang memilih distraktor tersebut, maka distaktor itu dapat menjalankan
fungsinya dengan baik.
Cara menganalisis fungsi distraktor
dapat dilakukan dengan menganalisis pola penyebaran jawaban butir. Pola
penyebaran jawaban adalah suatu pola yang dapat menggambarkan bagaimana peserta
tes dapat menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan
jawaban yang telah dipasangkan pada setiap butir.
Menurut Fernandes (1984: 29) distraktor
dikatakan baik jika dipilih oleh minimal 2% dari seluruh peserta.
Distraktor yang tidak memenuhi kriteria tersebut
sebaiknya diganti dengan distraktor lain yang
mungkin lebih menarik minat peserta tes untuk memilihnya.
Meskipun penggunaan teori tes klasik
relatif mudah dalam menganalisis butir, tapi teori ini
memiliki beberapa kelemahan mendasar. Kelemahan utama
teori tes klasik adalah keterikatan alat ukur teori tersebut pada sampel (sample
bound). Kemampuan kelompok siswa yang mengikuti tes sangat mempengaruhi
nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan
kepada kelompok yang lain.
Selain itu, perkiraan kemampuan peserta
tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi
kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran
tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini
dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh
teori tes klasik.
Dalam proses pembelajaran hal-hal
tersebut akan menimbulkan berbagai macam kesukaran terutama untuk melihat
kemampuan peserta tes secara perorangan. Oleh karena itulah ada upaya untuk
membebaskan alat ukur dari keterikatan terhadap sampel (sample-free).
Berangkat dari hal itulah para ahli kemudian menyusun teori baru yang bermaksud
untuk melengkapi dan memperbaiki kelemahan-kelemahan yang ada dalam teori tes
klasik. Teori ini kemudian dikenal dengan Item Response Theory (IRT)
atau teori respon butir.
Ø Teori Tes Modern
Teori tes modern sering juga disebut
Latent Trait Theory yaitu performance subjek dalam suatu tes yang dapat
diprediksi dari kemampuannya yang bersifat laten. Atau lebih dikenal dengan Item Response Theory (IRT) yaitu respon subjek terhadap item yang menunjukkan
kognitifnya. Kelebihan kinerja subjek dapat dilihat dengan Item Characteristic Curve (ICC). Artinya semakin baik performance
subjek akan semakin banyak respon (jawaban pada aitem
tes) yang
benar.
Unsur teori dalam tes modern meliputi:
-
Butir (item tes)
-
Subjek (responnya)
-
Isi respon subjek
Asumsi-asumsi dalam tes modern:
1. Parameter
butir soal dan kemampuan adalah (Invariant). Artinya soal yang dibuat memiliki korelasi
positif dengan kemampuan yang diukur.
2. Unidimensionality,
artinya 1 item mengukur satu kemampuan. Asumsi ini kurang terbukti karena pada
dasarnya antara item 1 dengan lainnya saling melengkapi.
3. Local
independence, artinya respon terhadap suatu item tidak akan berpengaruh
terhadap item lainnya.
Parameter
butir soal pada IRT:
Ukuran atau
aturan-aturan yang digunakan untuk mengetahui mana soal yang valid (bisa
dipakai) dan mana soal yang tidak valid (tidak bisa dipakai). Aturannya ada 3:
1. Daya pembeda soal, Artinya item soal bisa dianggap baik kalau item soal
tersebut dapat digunakan untuk membedakan antara subjek yang berkemampuan
tinggi dari subjek yang berkemampuan rendah.
2. Taraf kesukaran soal, Artinya item soal bisa dianggap baik kalau item soal
tersebut tidak terlalu sulit dan tidak terlalu mudah.
3. Kebetulan menjawab benar. Artinya item soal bisa mendeteksi subjek yang
menjawab asal-asalan dan kebetulan benar.
Penggunaan parameter tersebut tergantung pada penyusun
alat tes, boleh menggunakan ketiganya atau hanya menggunakan dua saja. Ada tiga
pilihan yang bisa digunakan:
- Logistik 1 Parameter. Jika menggunakan logistik 1 parameter, item-item yang akan digunakan hanya diuji taraf kesukaran soalnya saja. Contoh saya membuat 50 item soal, setelah saya uji cobakan kepada N=100. Langkah selanjutnya saya hanya harus menyeleksi mana item-item yang memiliki taraf kesukaran sedang (item yang sedang ialah item yang bisa dijawab oleh 60% subjek). Langkah terakhir item-item yang diketahui taraf kesukarannya sedang langsung bisa digunakan untuk tes.
- Logistik 2 Parameter. Jika menggunakan logistik 2 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya dan juga daya beda soalnya. Jelasnya item-item yang tidak terlalu sulit dan tidak terlalu mudah serta bisa membedakan antara siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah, itu yang bisa dipakai sebagai item soal tes.
- Logistik 3 Parameter. Jika menggunakan logistik 3 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya, diuji daya beda soalnya, dan diuji kemungkinan kebetulan menjawab benar.
Tidak ada komentar:
Posting Komentar