Saturday, April 24, 2021
BerandaPendidikanPenilaian dan EvaluasiKesalahan Konsep Sampai Kini: Penilaian dan Evaluasi

Kesalahan Konsep Sampai Kini: Penilaian dan Evaluasi

Prof. Dr. Bambang Subali, M.S.
Guru Besar FMIPA Universitas Negeri Yogyakarta

Suyanto.id–Secara keilmuan, dibedakan antara penilaian/assessment dengan evaluasi/evaluation. Di dalam peraturan peundangan pun, kedua istilah tersebut dibedakan. Pada PP Nomor 19 Tahun 2005 tentang Standar Nasional Pendidikan juga dalam PP Nomor 32 Tahun 2013 tentang perubahan atas peraturan tersebut, dinyatakan bahwa penilaian adalah proses pengumpulan dan pengolahan informasi untuk mengukur pencapaian hasil belajar peserta didik. Sementara itu, evaluasi–lengkapnya evaluasi pendidikan–adalah kegiatan pengendalian, penjaminan, dan penetapan mutu pendidikan terhadap berbagai komponen pendidikan pada setiap jalur, jenjang, dan jenis pendidikan sebagai bentuk pertanggungjawaban penyelenggaraan pendidikan. Jadi, penilaian/asesmen ditujukan untuk menetapkan status peserta didik saat ia atau mereka belum belajar, sedang belajar, dan setelah selesai belajar. Sementara itu, evaluasi ditujukan untuk menetapkan status apakah suatu program pendidikan atau lebih mikro suatu program pembelajaran, baik sebelum, selama, maupun setelah program tersebut diimplementasikan.

Penilaian sebelum pembelajaran dilakukan untuk meyakinkan bahwa kompetensi yang ditargetkan belum dikuasai peserta didik. Kalau seseorang peserta didik akan belajar bermain biola, harus diketahui statusnya apakah ia sama sekali belum dapat memainkannya atau sudah bisa memainkan, tetapi masih sering salah. Kalau akan belajar renang gaya dada, juga harus diketahui kondisi awalnya, apakah ia atau mereka sama sekali belum bisa berenang atau sudah dapat berenang, tetapi belum mampu berenang gaya dada dengan benar. Selama proses pembelajaran bagaimana kemajuannya? Kemudian, pada akhir pembelajaran/program, benarkah ia sudah terampil memainkan biola atau sudah mahir berenang gaya dada? Itulah contoh ruang lingkup penilaian pembelajaran.

Di dalam evaluasi pembelajaran, yang menjadi fokus adalah perihal evaluasi terhadap program beserta implementasinya jika seorang pendidik merancang pembelajaran yang akan ditempuh peserta program. Dalam hal ini, pesertanya bisa seorang diri, bisa pula terdiri atas banyak anak. Pertanyaan yang dipersoalkan, apakah rancangan programnya sudah baik? Jika diimplementasikan, bagaimana hasil sementara selama implementasi berlangsung? Jika program sudah selesai, bagaimana capaian yang berhasil diperoleh peserta program? Tepat waktukah? Kompetensi yang ditargetkan untuk dikuasai apakah berhasil dikuasai secara sempurna oleh peserta program? Apabila peserta program kemudian melanjutkan studi atau bekerja apakah sesuai dengan kompetensi yang dipelajarikah, juga apakah sukses?

Jelas antara penilaian/asesmen dan evaluasi dua hal yang berbeda. Namun demikian, fakta di lapangan dicampuradukkan dan umumnya penilaian/asesmen itulah yang disebut oleh sebagian pendidik, baik guru maupun dosen, dengan istilah evaluasi. Jangan heran jika ada judul panduan, baik tulisan maupun tayangan video, ditulis “panduan penyiapan evaluasi pembelajaran”, tetapi isinya menjelaskan bagaimana menilai/mengases. Jadi, kalau dilihat tahunnya, pemerintah sudah menyatakan perbedaan keduanya secara formal di peraturan perundangan sejak tahun 2005, tetapi di tahun 2020 masih saja ada guru/dosen yang tidak paham.

Hal kedua yang juga masih belum dipahami oleh sebagian guru/dosen adalah bahwa kurikulum yang diterapkan sekarang adalah Kurikulum Berbasis Kompetensi (KBK). Berbeda dengan kurikulum lama yang berorientasi kepada tujuan, KBK beorientasi kepada pembelajaran yang menekankan bagaimana agar peserta didik menguasai kompetensi yang ditargetkan dan bila peserta didik sudah menguasainya, maka peserta didik mampu mendemonstrasikan kompetensi yang bersangkutan.

Seseorang yang ditargetkan dapat berenang gaya dada, maka dari tidak mampu berenang atau asal berenang dapat mendemonstrasikan berenang gaya dada. Peserta yang awalnya tidak mampu menjumlah dua bilangan bulat maksimum 10, setelah belajar mampu mendemonstrasikan kempuannya menjumlah dua bilangan bulat maksimum 10. Dengan kata lain, secara ekstrem dapat dikategorikan menjadi dua kategori, yaitu berhasil dan gagal. Bila kepada peserta didik yang sudah berhasil sempurna, maka jika diberi 40 soal maka semuanya dapat dikerjakan dengan benar. Jika dari 40 hanya benar 30, maka dapat diberi angka 75 jika rentang nilai yang digunakan 0 sampai 100. Capaian tersebut tidak ada hubungannya apakah banyaknya peserta didik, hanya seorang diri atau 30 orang. Jika 30 orang semuanya memperoleh nilai 100, maka dapat dinyatakan bahwa program sangat efektif karena satu peserta didik atau 30 peserta didik peserta program semuanya dapat menguasai kompetensi dengan sempurna.

Berkait dengan reliabilitas tes, Frisbie (2005) menyatakan bahwa reliabilitas tes hasil belajar berbeda dengan reliabilitas tes untuk seleksi karena tes hasil belajar memiliki varian yang rendah manakala anak berhasil semua dalam belajarnya. Oleh karena itu, secara praktis, Friesbie membuat pembandingan ideal antara interpretasi dalam situasi Norm Reference (NR) dengan Criterion Reference sebagaimana tersaji pada tabel berikut.

Tabel 1. Comparative Ideals for NR and CR Interpretation Situations

  Norm-Reference Criterion-Reference
Item difficulty (indeks kesulitan) Moderate Easy-to-hard
Item discrimination (indeks daya beda) High positive Nonnegative
Score variability Maximize Non-issue
Error estimate High reliability coefficient High decision consistency index

Berdasarkan informasi pada Tabel 1, maka tes untuk mengukur keberhasilan belajar merupakan tes yang skornya diinterpretasikan dalam situasi criterion-reference, sehingga item-itemnya memiliki tingkat kesulitan item bervariasi dari mudah sampai sukar (sebagai cerminan tingkat keberhasilan belajar) dan tidak boleh memiliki indeks daya beda yang negatif (sebagai cerminan tidak ada testi yang cerdas menjawab salah). Oleh karena itu, estimasi error didasarkan pada tingginya indeks konsistensi (indeks yang tinggi menunjukkan semua testi pasti benar bila sudah belajar, semua testi salah bila belum belajar). Sebaliknya, tes untuk tujuan seleksi, adalah tes yang dapat memisahkan kelompok yang lolos seleksi dengan yang tidak lolos seleksi dan interpretasinya dalam situasi norm-reference, sehingga item-itemnya memiliki indeks kesulitan yang harus moderat/sedang, tidak terlalu sukar dan tidak terlalu mudah (sebagai cerminan kelompok ataslah yang pasti dapat mengerjakan) dan indeks daya beda harus tinggi (sebagai cerminan yakin dapat membedakan kelompok atas dan bawah). Oleh karena itu, estimasi error didasarkan pada tingkat tingginya reliabilitas/keandalan tes (indeks yang tes tinggi mencerminkan bahwa semakin cerdas testi di dalam kelompoknya semakin tinggi pula skor yang diperolehnya).

Keandalan/reliabilitas tes untuk tes beracuan kriteria harus dinyatakan dalam formula indeks Kappa atau indeks persetujuan (agreement index). Perhitungan indeks Kappa dan indeks persetujuan dengan sekali pengukuran, telah ditulis oleh Michael J. Subkoviak dari University of Wisconsin-Madison dengan judul “A Practitioner’s Guide to Computation and Interpretation of Reliability Indices for Mastery Tests” yang diterbitkan dalam Journal of Educational Measurement Spring (1988, Vol. 25. No. 1. pp. 47-.55).

Baca juga:   Bagaimana Guru dan Siswa Bisa Kreatif?

Jika tujuannya untuk pemenuhan sebagai criterion referenced test, agar item tes dapat mengidentifikasi keberhasilan belajar, dapat dilihat dari tingginya indeks sensitivitas item. Jika suatu item memiliki indeks sensitivitas 1,0, berarti item tersebut tidak dapat dikerjakan oleh peserta didik yang belum belajar. Namun, item tersebut dapat berhasil dikerjakan oleh peserta didik yang sudah berhasil belajar. Jika ada satu peserta didik yang diuji, ia akan gagal mengerjakan item yang diujikan sebelum ia belajar. Sebaliknya, ia akan berhasil mengerjakannya setelah ia benar-benar berhasil belajar. Dengan kata lain, ia telah berhasil menguasai indikator kompetensi yang dirargetkan berdasarkan item yang tersebut. Jika ada 40 peserta didik yang diuji, semua akan gagal mengerjakan item yang diujikan sebelum mereka belajar. Sebaliknya, mereka akan berhasil mengerjakannya setelah benar-benar berhasil belajar. Indeks sensitivitas suatu item (IS) dapat dihihitung dengan rumus berikut.

Baca juga:   Asesmen Pembelajaran dalam Masa Pandemi

Keterangan:
RA (right after): banyaknya testi/peserta ujian yang telah belajar yang menjawab benar
RB (right before): banyaknya testi/peserta ujian yang belum belajar yang menjawab benar T (total): banyaknya testi/peserta ujian

Tes yang dipercaya dapat mengukur keberhasilan belajar yang mengacu kepada kriteria (criterion reference test) adalah item yang sensitif atau memiliki indeks sensitivitas yang tinggi. Artinya, item tersebut benar-benar dapat membedakan antara kondisi sebelum belajar (kondisi before learning) dengan kondisi sesudah belajar (kondisi after learning). Jika ada satu orang yang belajar dan sebelum belajar ia gagal mengerjakan suatu item, maka ia memperoleh skor 0. Jika setelah belajar ia berhasil mengerjakannya, maka ia akan memperoleh skor 1. Dalam hal ini, indeks sensitivitas item ke-i dapat dihitung sebesar IS(i) = (RA – RB)/n = (1 – 0)/1 = 1,0. Jika peserta program/muridnya 30 orang dan sebelum pembelajaran semua gagal, kemudian setelah pembelajaran semua berhasil mengerjakan item ke-i, maka IS(i)  =  (30 – 0)/30 = 1,0. Sebaliknya, jika pembelajaran gagal total, maka tak seorang pun dari 30 murid tersebut dapat berhasil walaupun sudah dinyatakan selesai belajar. Oleh karena itu, IS(i) = (0 – )/30 = 0,0. Dengan kata lain, pembelajaran dinyatakan gagal total jika indeks sensitivitas seluruh item tes yang diujikan semuanya sebesar 0,0.

Untuk tes seleksi sehingga untuk pemenuhan norm reference test, maka item tes dinyatakan baik jika memiliki idek kesulitan yang sedang (sebesar 0,5) dan indeks daya beda yang tinggi (sebesar 1,0).

Indeks kesulitan (difficulty index) suatu item (IP atau proportion) dapat dihitung dengan rumus berikut.

Keterangan:
R (right): banyaknya testi yang menjawab benar
RU (right up): banyaknya testi/peserta ujian dari kelompok atas yang menjawab benar
RL (right low): banyaknya testi/peserta ujian dari kelompok bawah yang menjawab benar T: banyaknya testi/peserta ujian

Indeks daya pembeda suatu item (ID) dapat dihitung dengan rumus berikut.

Keterangan:
RU (right up): banyaknya testi/peserta ujian dari kelompok atas yang menjawab benar
RL (right low): banyaknya testi/peserta ujian dari kelompok bawah yang menjawab benar
T (total): banyaknya testi/peserta ujian

Berikut ini disajikan ketidakselarasan hasil analisis item yang didasarkan pada indeks daya pembeda yang harus tinggi (1,0) dan indeks kesulitan item yang harus moderat (0,5) untuk mencapai kriteria ketuntasan minimal (KKM) yang tinggi pada tes hasil belajar yang menganut Kurikulum Berbasis Kompetensi.

Tabel 2. Analisis Item menurut Indeks Daya Pembeda dan Indeks Kesukaran Item untuk 10 Item

Berdasarkan informasi yang tersedia dalam Tabel 2, maka dengan 10 item yang memiliki indeks daya pembeda yang sangat tinggi, yaitu 1,0 dan indeks tingkat kesulitan yang benar-benar moderat, yaitu 0,50, hanya akan menghasilkan 50% peserta didik yang mencapai KKM. Jika diadakan program remedi dan item tes yang digunakan juga tetap seperti itu yang dijadikan acuannya, maka dari 50% yang ikut program remedi hanya akan lolos 50% atau separuh pesertanya. Jika diadakan program remedi dari yang separoh akan lolos separuhnya lagi karena yang berhasil hanya 50%. Oleh karena itu, jangan menggunakan Indeks Kesulitan dan Indeks Daya Beda untuk persyaratan item tes hasil belajar.

Bagaimana kenyataan di lapangan? Masih saja ada dosen/guru yang memegang prinsip bahwa skor peserta didik harus tersebar mengikuti distribusi normal. Bahkan, jika item tesnya dalam bentuk pilihan ganda, masih berprinsip bahwa pilihan yang salah sebagai pengecoh harus dipilih minima loleh 5% murid. Bayangkan, jika kelompok 5% yang terkecoh itu Suto terkecoh untuk seluruh item yang dikerjakan, bertarti Suto akan memperoleh skor 0. Bagaimana jika yang diujikan itu gerak gaya dada yang semua murid sudah mampu melakukannya? Akibat prinsip yang salah ini, jika seluruh peserta didik berhasil dengan sempurna malah menyalahkan alat tesnya atau cara mengukurnya, padahal mestinya harus bersyukur dengan catatan sebelum pembelajaran semua gagal. Jangan lupa Kurikulum Berasis Kompetensi dirancang agar semua peserta didik akan mampu menguasai kompetensi jika pembelajaran dilaksanakan sesuai dengan rencana dan peserta didik dibantu untuk mencapainya selama proses atau secara khusus dibantu pembelajarannya melului program remedi.

Perlu diingat bahwa sebelum belajar gagal itu, harus jelas start atau memulai dari posisi apa. Jika sebelum belajar anak sudah mampu memainkan biola dengan nada yang benar, maka jangan start atau memulai dengan menganggap peserta didik sama sekali tidak mampu memainkan biola. Di sinilah perlunya pretes pada pembelajaran berbasis kompetensi, yakni agar dosen/guru tahu persis dikategorikan belum menguasai itu pada posisi yang seperti apa. Keadaan yang kadang lucu jika posisi hasil pretes anak sudah menguasai 60% item yang diujikan. Terus dianggap belum mampu dengan start sama sekali belum menguasai atau menguasai 0% item yang diujikan. Keadaan ini menjadi tidak sesuai dengan hakikat belajar berbasis kompetensi. (*)

spot_img
SebelumnyaOrang Cerdas
BerikutnyaBatasan

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini

- Advertisment -

Tulisan Terbaru

PP 57/2021

Fajar Pertama Bulan Ramadan

Elegi Lembah Pujian

Komentar Terbaru

Sedang Populer

1,166FansLike
52FollowersFollow