Suatu Kajian Pustaka
Oleh : Y. Manoppo
Oleh : Y. Manoppo
Pengadministrasian suatu tes idealnya tidak memuat kesalahan dalam pengukuran,
baik kesalahan acak maupun kesalahan sistematis. Instrumen tes yang digunakan
untuk mengukur seharusnya memiliki validitas dan reliabilitas yang mantap serta
adil. Adil artinya butir-butir tes tidak menguntungkan atau merugikan
sekelompok peserta tes tertentu. Tes yang menguntungkan atau merugikan kelompok
tertentu dikatakan tes tersebut memuat bias butir atau mengandung differential
item functioning (DIF).
Tujuan penyusunan instrumen tes adalah untuk mengukur
karakteristik tertentu dari peserta tes. Dari penggunaan tes akan ditemukan
ciri-ciri tertentu yang berbeda pada setiap peserta tes baik pada kelompok yang
sama ataupun pada kelompok yang berbeda. Ada peserta yang memiliki ciri
tertentu yang tinggi dan ada pula yang rendah. Selama butir tes mengukur ciri
tersebut maka selama itu pula butir tes dikatakan baik, tidak bias, valid atau
sahih. Sebaliknya, jika isi, prosedur, dan penggunaan tes menghasilkan
keuntungan atau kerugian terhadap anggota-anggota kelompok tertentu dan jika
yang mendasari perbedaan tersebut menyimpang dari sasaran ukur tes, maka tes
itu akan memberikan informasi yang bias.
Bias tes terjadi jika semua peserta tes yang berkemampuan
sama memiliki peluang yang berbeda dalam menjawab benar butir tes yang sama.
Atau suatu tes disebut tidak bias jika semua peserta tes yang berkemampuan
setara memperoleh skor yang sama pada butir-butir yang homogen, dan proporsi
peserta yang menjawab benar sama pada setiap butir tes. Butir tes yang tidak
bias mempunyai tingkat kesukaran yang sama pada setiap kelompok peserta tes.
Korelasi tingkat kesukaran butir antara kelompok tersebut adalah 1,00
(sempurna). Semua nilai p (tingkat kesukaran butir) berada dalam suatu garis
lurus. Bias butir terjadi apabila tingkat kesukarannya tidak berada dalam suatu
garis lurus.
Bias Tes/Butir pada Instrumen
Peneliti Robert L. Williams dalam dua penelitiannya Black Intelligence Test Counter- balanced
for Honkiesdan Black Intelligence Test of Cultural Homogeneity menemukan
hasil yang menyatakan bahwa orang hitam Amerika secara sistematik dirugikan
oleh suatu tes yang berpihak kepada orang kulit putih. Orang hitam Amerika ini
beserta orang Amerika Hispanik dan kelompok minoritas lainnya sering dirugikan
oleh tes yang menguntungkan kelompok mayoritas tersebut orang kulit putih.
Istilah ini selanjutnya dikenal sebagai bias tes (Popham, 1981). Dengan
demikian, tes ini secara substantif bukanlah tes yang valid dimana mampu
mengukur apa yang hendak diukur.
White (1982) dalam Hulin melakukan penelitian yang bertalian
dengan bias butir pada alat ukur yang digunakan oleh suatu kalangan organisasi untuk
menempatkan para pegawainya ke dalam kelas aristokrasi dan meritokrasi secara
berbeda. Hasil penelitian tersebut menginformasikan bahwa perbedaan sekor tes
di antara para responden itu disebabkan oleh berbagai faktor, seperti status
ekonomi sosial, pendapatan keluarga, dan ras. Secara hipotetik, dinyatakan
bahwa perbedaan tersebut merupakan indikasi adanya bias pada perangkat tes yang
digunakan (Hulin, 1983).
Hasil penelitian yang bertalian dengan perbedaan gender di
dalam ragamnya, secara hipotetik, disebabkan oleh estimasi bias variabel
amatan. Selanjutnya, perbedaan gender aktual memungkinkan mengarah ke DIF
gender. Memang, sangat sedikit pakar yang mengetahui adanya perbedaan gender
dan DIF gender di dalam konteks tes kosakata karena penelitian ini belum banyak
diungkap dan sedikit sekali hasil penelitian yang melaporkan ketiadaan DIF
gender atau banyak butir yang mengandungi DIF gender signifikan tidak
didiskusikan dari sudut pandang isi.
Roznowski dan Reith (1999) mengatakan bahwa tes yang mengandungi
butir DIF dianggap butir yang tidak bias.DIF bukan merupakan kondisi yang
mencukupi terhadap bias butir dan bias tes. Sebaliknya, manakala butir
mengindikasikan DIF sebagai bagian dari bank butir, sangat mungkin tes tersebut
bias karena pilihan butir-butirnya tidak sesuai. Keadaan ini yang memungkinkan
adanya tes bias dan tes adil pada bank butir. Selanjutnya, analisis DIF tidak
berhenti pada tingkat butir melainkan berlanjut pada pencarian bagaimana butir DIF
mempengaruhi sekor tes total berdasarkan pada komposit butir.
Differential
Item Functioning (DIF).
Cara awal untuk mengetahui ada tidaknya bias item pada suatu
item tes adalah dengan melakukan analisis Differensial Item Function (DIF) atau
dikenal dengan keberbedaan fungsi butir. Ditengarai bahwa bias butir pertama
kali dikenalkan oleh Shepard (1960) ketika meneliti penyebab rendahnya hasil
suatu tes pada kelompok minoritas. Jadi, tes ini dimaksudkan sebagai komposit
butir dan bias yang dimaksud adalah bias tes. Secara umum, dikatakan bahwa bias
tes adalah sekor tes pada satu kelompok atau lebih peserta ujian yang meningkat
atau menurun secara sistematik karena faktor-faktor yang tidak bertalian dengan
konstruk yang diukur oleh tes. Dikatakan pula bias tes adalah sebagai kecenderungan
tes secara berbeda untuk mengukur konstruk tertentu yang bukan berdasarkan pada
kemampuan yang berbeda, melainkan karena tes tersebut tidak valid mengukur
kelompok tertentu.
Dari keterangan diatas dapat diketahui dari pendapat Shepard
(1982) bahwa bias tes merupakan bentuk tes yang tidak valid. Ketidakvalidan
suatu tes ditandai oleh adanya isyarat seperti struktur kalimat dan bahasa yang
secara konseptual meningkatkan ketidakadilan bagi kelompok tertentu. Ada juga
pendapat lain yang mengamangkan bahwa bias adalah sebagai adanya karakteristik
suatu butir yang menyebabkan performansi berbeda pada setiap individu yang
berkemampuan sama dari etnik, gender, budaya, dan agama yang berbeda. Jadi,
bias dapat berbentuk gender, budaya, etnik, agama, bahasa, atau kelompok. Butir
disebut bias manakala ia mengandungi isi atau bahasa yang menguntungkan
subkelompok peserta ujian secara berbeda atau manakala struktur atau format
butir tidak menguntungkan sebagian subkelompok peserta ujian.
Di Indonesia, tes berskala nasional masih menjadi bahan
perdebatan. Tes tersebut diselenggarakan oleh Departemen Pendidikan Nasional
dalam bentuk Ujian Nasional. Penggunaan nilai UN akan sesat atau menyebabkan
masalah manakala ternyata butir-butir UN memihak kelompok tertentu sehingga dua
peserta ujian dari kelompok yang berbeda dengan kemampuan yang sama memiliki
peluang menjawab betul secara berbeda.
Hal ini sebagaimana pendapat Hulin yang mengatakan bahwa
bias butir terjadi manakala individu berkemampuan sama dari subkelompok berbeda
memiliki probabilitas berbeda untuk menjawab butir dengan betul (Hulin, 1983).
Demikian pula, Ironson dalam Hambleton mengatakan bahwa bias butir dipahami
sebagai jumlah daerah di antara dua kurva karakteristik butir di mana peserta
ujian berkemampuan sama tetapi dari kelompok berbeda memiliki probabilitas yang
tidak sama untuk menjawab butir dengan betul (Hambleton, 1985).
Sebenarnya, istilah DIF lebih sering digunakan daripada
istilah bias untuk memerikan data empirik yang diperoleh dalam pencarian bias.
Menurutnya, suatu butir menunjukkan DIF manakala kelompok mayoritas dan
minoritas berbeda dalam performansi rata-rata mereka terhadap butir. Definisi
ini tidak mempertimbangkan variabel lain seperti perbedaan kemampuan antarkelompok
yang mengakibatkan perbedaan nilaip (Hambleton, 1991).
Dengan demikian, disimpulkan bahwa yang dimaksud dengan DIF
adalah suatu karakteristik butir yang menyebabkan probabilitas responden-
responden yang berkemampuan sama untuk menjawab butir-butir pada perangkat tes
dengan betul secara berbeda yang disebabkan oleh berbagai faktor, seperti
etnik, gender, budaya, bahasa, atau agama. Ini juga merupakan ketidakstabilan
karakteristik butir yang berpengaruh pada sekor komposit tes. Di samping itu,
butir berindikasi DIF merupakan butir yang tidak mampu mengukur apa yang hendak
diukur di dalam perangkat tes. Dengan demikian, penentuan indikasi ada tidaknya
DIF pada butir memerlukan analisis statistik butir yang komprehensif sehingga
perangkat tes yang digunakan betul-betul sebagai alat ukur yang valid.
Hills (1999) sangat penting untuk DIF. Dia menyatakan bahwa dalam 20 tahun
terakhir dari penelitian DIF (misalnya Roznowski & Reith, 1999), belum
pernah menunjukkan bahwa menghapus item bias bisa dapat
menghapus bias tes dan menghasilkan nilai rata-rata sama. Pengecualian adalah perbedaan nilai rata-rata pada tes
intelektual untuk pria dan wanita, di mana perbedaan tersebut sangat kecil.
Dengan demikian, DIF tidak ada cara apapun yang berguna dan tidak berfungsi seperti
yang awalnya diusulkan berfungsi. Dalam nada yang sama, Reise dan Flannery
(1996) menegaskan bahwa dalam psikologi kepribadian "kulit" dari
respon
bias adalah lebih buruk daripada
gigitannya.
Selanjutnya menurut You (1998), mendeteksi Bias DIF jika
dan hanya jika asumsi-asumsi berikut benar:
a. Diasumsikan bahwa item tes yang diukur diukur bersifat tunggal. Bagaimana jika ada beberapa ciri-ciri di
belakang layar? Sebagai contoh, sebuah tes matematika dapat terdiri dari item
di kedua numerik dan bentuk esai. Sebuah tester yang rendah dalam keterampilan
matematika tetapi tinggi dalam membaca keterampilan dapat menjawab pertanyaan
matematika yang sulit dinyatakan dalam bentuk numerik dengan benar, tetapi
tidak menjawab pertanyaan mudah diekspresikan dalam bentuk esai. Situasi
dual-sifat tidak dapat dihindari karena hampir semua tes memerlukan
keterampilan membaca. Namun, ketika keterampilan melibatkan beberapa ciri lain
dari konten dan bahasa, katakanlah A dan B, DIF mungkin tidak berguna. Hal yang diuji mungkin bias terhadap laki-laki di A, tapi terhadap perempuan biasnya di B.
b. Diasumsikan bahwa tes secara keseluruhan adalah wajar dan
hanya beberapa item yang bias. Oleh karena itu total skor digunakan sebagai
acuan untuk mengelompokkan penguji ke dalam kelompok kemampuan tinggi dan
rendah. Namun, bagaimana jika lebih dari setengah dari item bias?
c. Hal ini diasumsikan bahwa kemampuan yang ekuivalen
didistribusikan di seluruh kelompok. Oleh karena itu, perbedaan skor tes
tertentu adalah karena pertanyaan yang tidak adil daripada perbedaan kelompok
yang melekat.
Disamping
itu menurut Thelander (2000), untuk mengurangi efek bias
pengamat, maka dalam pengamatan harus menggunakan pasangan pengamat. Hal ini membantu untuk
meminimalkan perbedaan potensial
antara pengamat.
Dampak Analisis DIF pada Instrumen
Tes
Menurut Karami (2011), DIF bukanlah bukti untuk bias dalam
ujian. Ini adalah bukti dari bias hanya jika faktor
penyebab DIF tidak relevan dengan
konstruksi yang mendasari tes. Jika faktor yang
merupakan bagian dari konstruk, hal itu disebut dampak daripada bias.
Keputusan mengenai apakah sumber nyata dari DIF dalam
item merupakan bagian dari konstruk instrument yang diukur benar-benar subjektif.
Biasanya, sebuah panel ahli dikonsultasikan untuk memberikan validitas lebih untuk interpretasi.
Sering dijumpai, seorang pelajar memiliki sekor 90 untuk
skala 0-100, namun ia tidak mampu berbahasa Inggris dengan baik. Sebaliknya,
seorang pelajar memiliki sekor 20 untuk skala 0-100, namun ia mampu berbahasa
Inggris dengan baik. Apakah ini berarti bahwa perangkat tes yang diberikan
mengindikasikan adanya DIF? Demikian pula halnya, seseorang yang memiliki
kemampuan matematika yang sangat baik, ketika diberikan perangkat tes
matematika dalam bahasa Inggris, ternyata ia tidak mampu mengerjakannya. Apakah
perangkat tes ini juga mengindikasikan adanya DIF? Tak pelak berbagai jenis
perangkat tes lainnya memungkinkan berpeluang luas adanya indikasi DIF sehingga
hasil ukurnya tidak dapat menampilkan keadaan yang sesungguhnya. Bandingkan
juga pada penelitian oleh Rahaya (2010).
Menurut Mardapi (2008), Setiap pengukuran mengandung
kesalahan. Sumber kesalahan pengukuran diantaranya adalah pada penentuan materi
ujian, pihak yang diukur, pihak yang mengukur, dan lingkungan. Variasi
kesehatan fisik dan emosi orang selalu
bervariasi dari waktu ke waktu. Untuk
mengatasi kesalahan pada pihak yang diukur, disarankan banyak melakukan
pengukuran, sedangkan untuk mengatasi kesalahan pada pihak yang mengukur,
haruslah lewat pelatihan tentang penyusunan alat ukur. Kesalahan pada
subjek yang mengukur sering disebabkan
bias dalam melakukan pengukuran atau penilaian, yang berarti kemampuan sama
tetapi hasil tes yang berbeda. Untuk mengatasi hal tersebut, instrument/soal
tes haruslah benar-benar ditelaah dan dianalisis. Selain itu perlu disediakan
pedoman penyekoran dan penilaian agar lebih objektif.
Pustaka Acuan
Flannery-Schroeder, E.
C.,
& Chrisler, J. (1996). Body esteem, eating attitudes, and
gender-role orientation in children. Journal of Current Psychology,
15(3), 235 - 248.
Hambelton,
Ronald K., H. Swaminathan, dan H.J. Rogers. Fundamentals of Item Response
Theory. California: Sage Publications, 1991.
Hambleton, R. K, & Swaminathan, H., Item Response Theory. Boston, MA:
Kluwer-Nijjhoff, Publisher. 1985
Hills, J, Re: Construct validity. Educational
Statistics Discussion List (EDSTAT-L). Online article. Available E-mail: edstat-l@jse.stat.ncsu.edu,
1999
Hulin, Drasgow & Parsons., Item response theory: Application to
psychological measurement. Homewood: Dow Jones-Irwin, 1983
Karami, H. &
Alavi, S. M., Differential Item Functioning and ad hoc
interpretations., International
Journal of Language Studies (IJLS), Vol. 5(3), p141, 2011
Mardapi Djemari,. Teknik Penyusunan Instrumen Tes dan Nontes. Yogyakarta: Mitra
Cendekia Offset., 2008
Popham, W. James., Modern Educational Measurement.
Englewood Cliffs : Prentice-Hall, 1981
Rahaya
S. A., dkk, Differential Item Functioning in Malaysian Generic Skills Instrument
(MyGSI), Jurnal Pendidikan
Malaysia, 35(1): 1-10., 2010.
Roznowski, M. & Reith, J., Examining the
measurement quality of tests containing differentially functioning items: Do
biased items result in poor measurement?, Psychological Measurement, p59,
248-271.,1999.
Shepard, R and Cooper, L., Mental images and their
transformations., Cambridge, MA: MIT Press, 1982.
Thelander Carl G. and Lourdes Rugge, Avian Risk Behavior and Fatalities at the
Altamont Wind Resource Area., Journal of
National Renewable Energy Laboratory, Ojai,
California., p9, 2000
White. H, Model Specification: Annals, Journal
of Econometrics, p20, 1982
Yu Chong-ho, Ph.Ds. True score model and item response theory, Online article : http://www.creative-wisdom.com/teaching/WBI/measurement.shtml, 1998
No comments:
Post a Comment