Catatan Ian PEP: BIAS Pada Instrumen Tes Hasil Belajar

Suatu Kajian Pustaka
Oleh : Y. Manoppo

Pengadministrasian suatu tes idealnya tidak memuat kesalahan dalam pengukuran, baik kesalahan acak maupun kesalahan sistematis. Instrumen tes yang digunakan untuk mengukur seharusnya memiliki validitas dan reliabilitas yang mantap serta adil. Adil artinya butir-butir tes tidak menguntungkan atau merugikan sekelompok peserta tes tertentu. Tes yang menguntungkan atau merugikan kelompok tertentu dikatakan tes tersebut memuat bias butir atau mengandung differential item functioning (DIF).

Tujuan penyusunan instrumen tes adalah untuk mengukur karakteristik tertentu dari peserta tes. Dari penggunaan tes akan ditemukan ciri-ciri tertentu yang berbeda pada setiap peserta tes baik pada kelompok yang sama ataupun pada kelompok yang berbeda. Ada peserta yang memiliki ciri tertentu yang tinggi dan ada pula yang rendah. Selama butir tes mengukur ciri tersebut maka selama itu pula butir tes dikatakan baik, tidak bias, valid atau sahih. Sebaliknya, jika isi, prosedur, dan penggunaan tes menghasilkan keuntungan atau kerugian terhadap anggota-anggota kelompok tertentu dan jika yang mendasari perbedaan tersebut menyimpang dari sasaran ukur tes, maka tes itu akan memberikan informasi yang bias.

Bias tes terjadi jika semua peserta tes yang berkemampuan sama memiliki peluang yang berbeda dalam menjawab benar butir tes yang sama. Atau suatu tes disebut tidak bias jika semua peserta tes yang berkemampuan setara memperoleh skor yang sama pada butir-butir yang homogen, dan proporsi peserta yang menjawab benar sama pada setiap butir tes. Butir tes yang tidak bias mempunyai tingkat kesukaran yang sama pada setiap kelompok peserta tes. Korelasi tingkat kesukaran butir antara kelompok tersebut adalah 1,00 (sempurna). Semua nilai p (tingkat kesukaran butir) berada dalam suatu garis lurus. Bias butir terjadi apabila tingkat kesukarannya tidak berada dalam suatu garis lurus.

Bias Tes/Butir pada Instrumen

Peneliti Robert L. Williams dalam dua penelitiannya Black Intelligence Test Counter- balanced for Honkiesdan Black Intelligence Test of Cultural Homogeneity menemukan hasil yang menyatakan bahwa orang hitam Amerika secara sistematik dirugikan oleh suatu tes yang berpihak kepada orang kulit putih. Orang hitam Amerika ini beserta orang Amerika Hispanik dan kelompok minoritas lainnya sering dirugikan oleh tes yang menguntungkan kelompok mayoritas tersebut orang kulit putih. Istilah ini selanjutnya dikenal sebagai bias tes (Popham, 1981). Dengan demikian, tes ini secara substantif bukanlah tes yang valid dimana mampu mengukur apa yang hendak diukur.

White (1982) dalam Hulin melakukan penelitian yang bertalian dengan bias butir pada alat ukur yang digunakan oleh suatu kalangan organisasi untuk menempatkan para pegawainya ke dalam kelas aristokrasi dan meritokrasi secara berbeda. Hasil penelitian tersebut menginformasikan bahwa perbedaan sekor tes di antara para responden itu disebabkan oleh berbagai faktor, seperti status ekonomi sosial, pendapatan keluarga, dan ras. Secara hipotetik, dinyatakan bahwa perbedaan tersebut merupakan indikasi adanya bias pada perangkat tes yang digunakan (Hulin, 1983).

Hasil penelitian yang bertalian dengan perbedaan gender di dalam ragamnya, secara hipotetik, disebabkan oleh estimasi bias variabel amatan. Selanjutnya, perbedaan gender aktual memungkinkan mengarah ke DIF gender. Memang, sangat sedikit pakar yang mengetahui adanya perbedaan gender dan DIF gender di dalam konteks tes kosakata karena penelitian ini belum banyak diungkap dan sedikit sekali hasil penelitian yang melaporkan ketiadaan DIF gender atau banyak butir yang mengandungi DIF gender signifikan tidak didiskusikan dari sudut pandang isi.

Roznowski dan Reith (1999) mengatakan bahwa tes yang mengandungi butir DIF dianggap butir yang tidak bias.DIF bukan merupakan kondisi yang mencukupi terhadap bias butir dan bias tes. Sebaliknya, manakala butir mengindikasikan DIF sebagai bagian dari bank butir, sangat mungkin tes tersebut bias karena pilihan butir-butirnya tidak sesuai. Keadaan ini yang memungkinkan adanya tes bias dan tes adil pada bank butir. Selanjutnya, analisis DIF tidak berhenti pada tingkat butir melainkan berlanjut pada pencarian bagaimana butir DIF mempengaruhi sekor tes total berdasarkan pada komposit butir.

Differential Item Functioning (DIF).

Cara awal untuk mengetahui ada tidaknya bias item pada suatu item tes adalah dengan melakukan analisis Differensial Item Function (DIF) atau dikenal dengan keberbedaan fungsi butir. Ditengarai bahwa bias butir pertama kali dikenalkan oleh Shepard (1960) ketika meneliti penyebab rendahnya hasil suatu tes pada kelompok minoritas. Jadi, tes ini dimaksudkan sebagai komposit butir dan bias yang dimaksud adalah bias tes. Secara umum, dikatakan bahwa bias tes adalah sekor tes pada satu kelompok atau lebih peserta ujian yang meningkat atau menurun secara sistematik karena faktor-faktor yang tidak bertalian dengan konstruk yang diukur oleh tes. Dikatakan pula bias tes adalah sebagai kecenderungan tes secara berbeda untuk mengukur konstruk tertentu yang bukan berdasarkan pada kemampuan yang berbeda, melainkan karena tes tersebut tidak valid mengukur kelompok tertentu.

Dari keterangan diatas dapat diketahui dari pendapat Shepard (1982) bahwa bias tes merupakan bentuk tes yang tidak valid. Ketidakvalidan suatu tes ditandai oleh adanya isyarat seperti struktur kalimat dan bahasa yang secara konseptual meningkatkan ketidakadilan bagi kelompok tertentu. Ada juga pendapat lain yang mengamangkan bahwa bias adalah sebagai adanya karakteristik suatu butir yang menyebabkan performansi berbeda pada setiap individu yang berkemampuan sama dari etnik, gender, budaya, dan agama yang berbeda. Jadi, bias dapat berbentuk gender, budaya, etnik, agama, bahasa, atau kelompok. Butir disebut bias manakala ia mengandungi isi atau bahasa yang menguntungkan subkelompok peserta ujian secara berbeda atau manakala struktur atau format butir tidak menguntungkan sebagian subkelompok peserta ujian.

Di Indonesia, tes berskala nasional masih menjadi bahan perdebatan. Tes tersebut diselenggarakan oleh Departemen Pendidikan Nasional dalam bentuk Ujian Nasional. Penggunaan nilai UN akan sesat atau menyebabkan masalah manakala ternyata butir-butir UN memihak kelompok tertentu sehingga dua peserta ujian dari kelompok yang berbeda dengan kemampuan yang sama memiliki peluang menjawab betul secara berbeda.

Hal ini sebagaimana pendapat Hulin yang mengatakan bahwa bias butir terjadi manakala individu berkemampuan sama dari subkelompok berbeda memiliki probabilitas berbeda untuk menjawab butir dengan betul (Hulin, 1983). Demikian pula, Ironson dalam Hambleton mengatakan bahwa bias butir dipahami sebagai jumlah daerah di antara dua kurva karakteristik butir di mana peserta ujian berkemampuan sama tetapi dari kelompok berbeda memiliki probabilitas yang tidak sama untuk menjawab butir dengan betul (Hambleton, 1985).

Sebenarnya, istilah DIF lebih sering digunakan daripada istilah bias untuk memerikan data empirik yang diperoleh dalam pencarian bias. Menurutnya, suatu butir menunjukkan DIF manakala kelompok mayoritas dan minoritas berbeda dalam performansi rata-rata mereka terhadap butir. Definisi ini tidak mempertimbangkan variabel lain seperti perbedaan kemampuan antarkelompok yang mengakibatkan perbedaan nilaip (Hambleton, 1991).

Dengan demikian, disimpulkan bahwa yang dimaksud dengan DIF adalah suatu karakteristik butir yang menyebabkan probabilitas responden- responden yang berkemampuan sama untuk menjawab butir-butir pada perangkat tes dengan betul secara berbeda yang disebabkan oleh berbagai faktor, seperti etnik, gender, budaya, bahasa, atau agama. Ini juga merupakan ketidakstabilan karakteristik butir yang berpengaruh pada sekor komposit tes. Di samping itu, butir berindikasi DIF merupakan butir yang tidak mampu mengukur apa yang hendak diukur di dalam perangkat tes. Dengan demikian, penentuan indikasi ada tidaknya DIF pada butir memerlukan analisis statistik butir yang komprehensif sehingga perangkat tes yang digunakan betul-betul sebagai alat ukur yang valid.

Hills (1999) sangat penting untuk DIF. Dia menyatakan bahwa dalam 20 tahun terakhir dari penelitian DIF (misalnya Roznowski & Reith, 1999), belum pernah menunjukkan bahwa menghapus item bias bisa dapat menghapus bias tes dan menghasilkan nilai rata-rata sama. Pengecualian adalah perbedaan nilai rata-rata pada tes intelektual untuk pria dan wanita, di mana perbedaan tersebut sangat kecil. Dengan demikian, DIF tidak ada cara apapun yang berguna dan tidak berfungsi seperti yang awalnya diusulkan berfungsi. Dalam nada yang sama, Reise dan Flannery (1996) menegaskan bahwa dalam psikologi kepribadian "kulit" dari respon bias adalah lebih buruk daripada gigitannya.

Selanjutnya menurut You (1998), mendeteksi Bias DIF jika dan hanya jika asumsi-asumsi berikut benar:

a. Diasumsikan bahwa item tes yang diukur diukur bersifat tunggal. Bagaimana jika ada beberapa ciri-ciri di belakang layar? Sebagai contoh, sebuah tes matematika dapat terdiri dari item di kedua numerik dan bentuk esai. Sebuah tester yang rendah dalam keterampilan matematika tetapi tinggi dalam membaca keterampilan dapat menjawab pertanyaan matematika yang sulit dinyatakan dalam bentuk numerik dengan benar, tetapi tidak menjawab pertanyaan mudah diekspresikan dalam bentuk esai. Situasi dual-sifat tidak dapat dihindari karena hampir semua tes memerlukan keterampilan membaca. Namun, ketika keterampilan melibatkan beberapa ciri lain dari konten dan bahasa, katakanlah A dan B, DIF mungkin tidak berguna. Hal yang diuji mungkin bias terhadap laki-laki di A, tapi terhadap perempuan biasnya di B.

b. Diasumsikan bahwa tes secara keseluruhan adalah wajar dan hanya beberapa item yang bias. Oleh karena itu total skor digunakan sebagai acuan untuk mengelompokkan penguji ke dalam kelompok kemampuan tinggi dan rendah. Namun, bagaimana jika lebih dari setengah dari item bias?

c. Hal ini diasumsikan bahwa kemampuan yang ekuivalen didistribusikan di seluruh kelompok. Oleh karena itu, perbedaan skor tes tertentu adalah karena pertanyaan yang tidak adil daripada perbedaan kelompok yang melekat.

Disamping itu menurut Thelander (2000), untuk mengurangi efek bias pengamat, maka dalam pengamatan harus menggunakan pasangan pengamat. Hal ini membantu untuk meminimalkan perbedaan potensial antara pengamat.

Dampak Analisis DIF pada Instrumen Tes

Menurut Karami (2011), DIF bukanlah bukti untuk bias dalam ujian. Ini adalah bukti dari bias hanya jika faktor penyebab DIF tidak relevan dengan konstruksi yang mendasari tes. Jika faktor yang merupakan bagian dari konstruk, hal itu disebut dampak daripada bias. Keputusan mengenai apakah sumber nyata dari DIF dalam item merupakan bagian dari konstruk instrument yang diukur benar-benar subjektif. Biasanya, sebuah panel ahli dikonsultasikan untuk memberikan validitas lebih untuk interpretasi.

Sering dijumpai, seorang pelajar memiliki sekor 90 untuk skala 0-100, namun ia tidak mampu berbahasa Inggris dengan baik. Sebaliknya, seorang pelajar memiliki sekor 20 untuk skala 0-100, namun ia mampu berbahasa Inggris dengan baik. Apakah ini berarti bahwa perangkat tes yang diberikan mengindikasikan adanya DIF? Demikian pula halnya, seseorang yang memiliki kemampuan matematika yang sangat baik, ketika diberikan perangkat tes matematika dalam bahasa Inggris, ternyata ia tidak mampu mengerjakannya. Apakah perangkat tes ini juga mengindikasikan adanya DIF? Tak pelak berbagai jenis perangkat tes lainnya memungkinkan berpeluang luas adanya indikasi DIF sehingga hasil ukurnya tidak dapat menampilkan keadaan yang sesungguhnya. Bandingkan juga pada penelitian oleh Rahaya (2010).

Menurut Mardapi (2008), Setiap pengukuran mengandung kesalahan. Sumber kesalahan pengukuran diantaranya adalah pada penentuan materi ujian, pihak yang diukur, pihak yang mengukur, dan lingkungan. Variasi kesehatan fisik dan emosi orang selalu bervariasi dari waktu ke waktu. Untuk mengatasi kesalahan pada pihak yang diukur, disarankan banyak melakukan pengukuran, sedangkan untuk mengatasi kesalahan pada pihak yang mengukur, haruslah lewat pelatihan tentang penyusunan alat ukur. Kesalahan pada subjek yang mengukur sering disebabkan bias dalam melakukan pengukuran atau penilaian, yang berarti kemampuan sama tetapi hasil tes yang berbeda. Untuk mengatasi hal tersebut, instrument/soal tes haruslah benar-benar ditelaah dan dianalisis. Selain itu perlu disediakan pedoman penyekoran dan penilaian agar lebih objektif.

Pustaka Acuan

Flannery-Schroeder, E. C., & Chrisler, J. (1996). Body esteem, eating attitudes, and gender-role orientation in children. Journal of Current Psychology, 15(3), 235 - 248.

Hambelton, Ronald K., H. Swaminathan, dan H.J. Rogers. Fundamentals of Item Response Theory. California: Sage Publications, 1991.

Hambleton, R. K, & Swaminathan, H., Item Response Theory. Boston, MA: Kluwer-Nijjhoff, Publisher. 1985

Hills, J, Re: Construct validity. Educational Statistics Discussion List (EDSTAT-L). Online article. Available E-mail: edstat-l@jse.stat.ncsu.edu, 1999

Hulin, Drasgow & Parsons., Item response theory: Application to psychological measurement. Homewood: Dow Jones-Irwin, 1983

Karami, H. & Alavi, S. M., Differential Item Functioning and ad hoc interpretations., International Journal of Language Studies (IJLS), Vol. 5(3), p141, 2011

Mardapi Djemari,. Teknik Penyusunan Instrumen Tes dan Nontes. Yogyakarta: Mitra Cendekia Offset., 2008

Popham, W. James., Modern Educational Measurement. Englewood Cliffs : Prentice-Hall, 1981

Rahaya S. A., dkk, Differential Item Functioning in Malaysian Generic Skills Instrument (MyGSI), Jurnal Pendidikan Malaysia, 35(1): 1-10., 2010.

Roznowski, M. & Reith, J., Examining the measurement quality of tests containing differentially functioning items: Do biased items result in poor measurement?, Psychological Measurement, p59, 248-271.,1999.

Shepard, R and Cooper, L., Mental images and their transformations., Cambridge, MA: MIT Press, 1982.

Thelander Carl G. and Lourdes Rugge, Avian Risk Behavior and Fatalities at the Altamont Wind Resource Area., Journal of National Renewable Energy Laboratory, Ojai, California., p9, 2000

White. H, Model Specification: Annals, Journal of Econometrics, p20, 1982

Yu Chong-ho, Ph.Ds. True score model and item response theory, Online article : http://www.creative-wisdom.com/teaching/WBI/measurement.shtml, 1998

Home /Beranda

Monday, May 14, 2012

BIAS Pada Instrumen Tes Hasil Belajar

No comments:

Post a Comment