I. Cách xây dựng bộ câu hỏi trắc nghiệm đọc hiểu B1 chuẩn hóa
Việc xây dựng bộ câu hỏi trắc nghiệm đọc hiểu B1 đòi hỏi quy trình khoa học, chặt chẽ và tuân thủ khung năng lực ngoại ngữ quốc gia. Theo luận văn của Nguyễn Thị Bắc (2017), quy trình này bao gồm xác định mục tiêu đánh giá, lựa chọn văn bản phù hợp, thiết kế câu hỏi theo các mức độ nhận thức và phân tích thống kê sau thử nghiệm. Mục tiêu chính là đảm bảo tính khách quan, độ tin cậy và giá trị đo lường của bài kiểm tra. Mỗi câu hỏi phải phản ánh đúng năng lực đọc hiểu cấp độ B1 theo Khung năng lực ngoại ngữ 6 bậc Việt Nam, tương đương CEFR B1. Quy trình bắt đầu từ việc xây dựng ma trận đề thi dựa trên nội dung chương trình và kết thúc bằng việc hiệu chỉnh các câu hỏi không đạt yêu cầu về độ khó hoặc độ phân biệt. Điều này giúp tạo ra một bộ công cụ đánh giá chuẩn hóa, có thể tái sử dụng trong nhiều bối cảnh giảng dạy và kiểm tra.
1.1. Quy trình thiết kế câu hỏi trắc nghiệm đọc hiểu B1
Quy trình thiết kế câu hỏi trắc nghiệm được mô tả rõ trong Sơ đồ 1.2 của luận văn (Nguyễn Thị Bắc, 2017). Gồm 5 bước: (1) Xác định mục tiêu đánh giá kỹ năng đọc hiểu; (2) Lựa chọn văn bản phù hợp với chủ đề và độ dài; (3) Thiết kế câu hỏi theo thang Bloom (nhận biết, thông hiểu, vận dụng); (4) Thử nghiệm sư phạm trên nhóm học viên thực tế; (5) Phân tích thống kê và hiệu chỉnh. Mỗi bước đều cần sự phối hợp giữa chuyên môn ngôn ngữ và kỹ thuật đo lường giáo dục.
1.2. Tiêu chí lựa chọn văn bản đọc hiểu cấp độ B1
Văn bản đọc hiểu cho cấp độ B1 phải có độ dài 250–350 từ, chủ đề gần gũi (gia đình, du lịch, công việc, giáo dục), từ vựng thuộc tần suất cao và cấu trúc ngữ pháp không quá phức tạp. Bảng 1.3 và 1.4 trong luận văn nêu rõ nguồn lựa chọn và đặc tính của văn bản. Đặc biệt, văn bản cần kích thích tư duy phản biện ở mức cơ bản, phù hợp với năng lực ngôn ngữ của người học ở ngưỡng trung cấp.
II. Những thách thức khi xây dựng câu hỏi trắc nghiệm đọc hiểu B1
Một trong những thách thức lớn nhất khi xây dựng bộ câu hỏi trắc nghiệm đọc hiểu B1 là đảm bảo sự cân bằng giữa độ khó và độ phân biệt. Nhiều câu hỏi ban đầu được thiết kế nhưng sau thử nghiệm cho thấy phương án nhiễu không hấp dẫn hoặc độ khó không phù hợp với đối tượng học viên. Theo kết quả phân tích trong Chương 3 của luận văn, khoảng 18% câu hỏi trong lần thử nghiệm đầu tiên bị loại do hệ số phân biệt dưới 0.2. Ngoài ra, việc chuẩn hóa câu hỏi theo mô hình Rasch cũng đòi hỏi phần mềm chuyên dụng và kiến thức thống kê vững chắc. Một vấn đề khác là sự thiếu đồng nhất trong cách diễn đạt câu hỏi giữa các tác giả, dẫn đến sai lệch trong đo lường. Những yếu tố này làm giảm độ tin cậy của bài thi nếu không được kiểm soát chặt chẽ qua quy trình hiệu chỉnh.
2.1. Vấn đề về độ khó và độ phân biệt của câu hỏi
Biểu đồ 3.9–3.12 cho thấy phân bố độ khó của 324 câu hỏi trải dài từ 0.2 đến 0.9, nhưng nhiều câu tập trung ở mức quá dễ (<0.3) hoặc quá khó (>0.8). Điều này vi phạm nguyên tắc lý tưởng: độ khó nên dao động quanh 0.5–0.7. Tương tự, biểu đồ 3.13–3.16 chỉ ra rằng độ phân biệt của nhiều câu dưới ngưỡng chấp nhận (r < 0.2), khiến chúng không phân hóa được năng lực thí sinh.
2.2. Phương án nhiễu kém chất lượng trong trắc nghiệm
Bảng 3.22 và 3.25 thống kê hàng chục phương án sai kém chất lượng – tức là ít hoặc không có thí sinh chọn. Điều này làm giảm hiệu quả phân biệt của câu hỏi. Nguyên nhân thường do người ra đề thiếu kinh nghiệm trong việc dự đoán lỗi sai phổ biến của học viên. Giải pháp là thu thập dữ liệu lỗi thực tế từ bài làm cũ hoặc tham khảo ý kiến giảng viên có kinh nghiệm.
III. Phương pháp chuẩn hóa câu hỏi theo mô hình đo lường hiện đại
Chuẩn hóa câu hỏi trắc nghiệm không chỉ dừng lại ở phân tích cổ điển (Classical Test Theory) mà cần áp dụng mô hình Rasch – một nhánh của Lý thuyết Ứng đáp Câu hỏi (IRT). Luận văn của Nguyễn Thị Bắc (2017) đã sử dụng phần mềm Winsteps để kiểm tra mức độ phù hợp giữa câu hỏi và mô hình Rasch. Kết quả cho thấy đa số câu hỏi đạt yêu cầu về infit/outfit MNSQ (0.7–1.3), chứng tỏ tính khách quan và tuyến tính trong đo lường. Việc áp dụng IRT giúp xếp hạng năng lực thí sinh và độ khó câu hỏi trên cùng một thang đo, từ đó nâng cao giá trị dự báo của bài thi. Đây là bước tiến quan trọng trong đo lường và đánh giá trong giáo dục, đặc biệt với các kỳ thi chuẩn hóa như đánh giá năng lực ngoại ngữ.
3.1. Ứng dụng mô hình Rasch trong phân tích câu hỏi
Mô hình Rasch cho phép kiểm tra xem mỗi câu hỏi có hoạt động độc lập và tuyến tính hay không. Sơ đồ 3.17 và Bảng 3.28 cho thấy 89% câu hỏi trong đề thi 01 phù hợp với mô hình Rasch, nghĩa là chúng đo lường đúng một chiều năng lực – đọc hiểu – mà không bị nhiễu bởi các yếu tố khác. Những câu không phù hợp (11%) đã được loại bỏ hoặc sửa lại.
3.2. Phân tích thống kê sau thử nghiệm sư phạm
Sau hai vòng thử nghiệm sư phạm, các chỉ số thống kê như hệ số tương quan câu hỏi-toàn bài (Bảng 3.27), độ tin cậy Cronbach’s Alpha (α = 0.82) và độ phân biệt được cập nhật. Những câu có r < 0.2 hoặc p > 0.9 bị loại. Quá trình này đảm bảo rằng bộ câu hỏi chuẩn hóa cuối cùng có độ chính xác cao và có thể dùng cho nhiều đợt thi.
IV. Ứng dụng thực tiễn của bộ câu hỏi đọc hiểu B1 tại Học viện An ninh
Bộ câu hỏi đã được triển khai thử nghiệm tại Học viện An ninh Nhân dân, nơi áp dụng chương trình tiếng Anh theo Khung năng lực ngoại ngữ Việt Nam. Kết quả cho thấy bài thi có độ tin cậy cao (α = 0.82) và phân hóa tốt năng lực học viên. Bảng 2.1 và 2.2 mô tả rõ cấu trúc đề thi gồm 4 phần: tìm thông tin chi tiết, suy luận, xác định ý chính và từ vựng trong ngữ cảnh. Mỗi phần được thiết kế theo ma trận nhận thức Bloom, đảm bảo đánh giá toàn diện kỹ năng đọc hiểu cấp độ B1. Đặc biệt, phản hồi từ giảng viên (Bảng 2.5) cho thấy 92% đánh giá bộ câu hỏi “phù hợp với mục tiêu đào tạo”. Điều này chứng minh tính ứng dụng thực tiễn và giá trị sư phạm của nghiên cứu.
4.1. Ma trận đề thi đọc hiểu B1 theo Khung NLNN Việt Nam
Ma trận đề thi (Bảng 2.3) phân bổ 30 câu hỏi theo 4 kỹ năng con: (1) Nhận biết thông tin tường minh (30%), (2) Suy luận đơn giản (25%), (3) Xác định mục đích/tác giả (20%), (4) Hiểu từ vựng trong ngữ cảnh (25%). Tỷ lệ này phản ánh đúng yêu cầu của cấp độ 3 trong Khung NLNNVN, tương đương CEFR B1.
4.2. Phản hồi từ giảng viên và học viên
Phiếu hỏi ý kiến (Bảng 2.5) thu thập từ 15 giảng viên cho thấy đa số đồng ý rằng văn bản phù hợp, câu hỏi rõ ràng và phân loại được năng lực. Học viên cũng phản hồi tích cực về tính công bằng và minh bạch của đề thi, góp phần nâng cao động lực học tập.
V. Câu hỏi thường gặp về xây dựng câu hỏi trắc nghiệm đọc hiểu B1
Nhiều giáo viên và nhà quản lý giáo dục thắc mắc: Làm sao để xây dựng câu hỏi trắc nghiệm đọc hiểu B1 vừa chuẩn hóa vừa phù hợp với bối cảnh Việt Nam? Câu trả lời nằm ở việc kết hợp khung năng lực chuẩn với dữ liệu thực nghiệm. Một câu hỏi tốt không chỉ đúng về mặt ngôn ngữ mà còn phải “hoạt động” tốt trong thực tế – tức là phân biệt được học sinh khá và trung bình. Ngoài ra, việc sử dụng phần mềm phân tích như SPSS hoặc Winsteps là bắt buộc để đảm bảo tính khách quan. Cuối cùng, thử nghiệm lặp lại là chìa khóa để loại bỏ sai số và nâng cao chất lượng bộ công cụ đánh giá.
5.1. Làm thế nào để viết phương án nhiễu hiệu quả
Phương án nhiễu nên dựa trên lỗi sai phổ biến của học viên (ví dụ: hiểu sai từ đồng nghĩa, suy diễn quá mức). Nên tránh phương án “vô lý” hoặc “quá dễ loại trừ”. Tham khảo bài làm thật và ý kiến giảng viên là cách hiệu quả để xây dựng phương án nhiễu hấp dẫn và hợp lý.
5.2. Cần bao nhiêu câu hỏi để có một đề thi chuẩn
Theo nghiên cứu, một đề thi đọc hiểu B1 chuẩn cần tối thiểu 25–30 câu hỏi sau khi đã loại bỏ các câu kém chất lượng. Số lượng này đủ để đạt độ tin cậy α ≥ 0.8 và phủ kín các mục tiêu đánh giá theo ma trận nhận thức.