I. Tổng quan luận văn xây dựng bộ câu hỏi đọc hiểu cấp độ 3
Luận văn thạc sĩ của tác giả Nguyễn Thị Bắc, thực hiện tại Trường Đại học Giáo dục - ĐHQGHN, là một công trình nghiên cứu chuyên sâu về lĩnh vực Đo lường và Đánh giá trong giáo dục. Đề tài tập trung vào việc xây dựng bộ câu hỏi chuẩn hóa trắc nghiệm khách quan kỹ năng đọc hiểu cấp độ 3, tương đương bậc B1 theo Khung tham chiếu chung Châu Âu (CEFR). Mục tiêu của nghiên cứu là tạo ra một nguồn tài liệu ôn luyện và kiểm tra chất lượng cao cho sinh viên tại Học viện An ninh (HVAN), đáp ứng chuẩn đầu ra theo Khung năng lực ngoại ngữ 6 bậc Việt Nam (KNLNNVN). Bối cảnh nghiên cứu xuất phát từ yêu cầu của Đề án “Dạy và học ngoại ngữ trong hệ thống giáo dục quốc dân giai đoạn 2008 – 2020”, nhấn mạnh tầm quan trọng của năng lực ngoại ngữ đối với nguồn nhân lực. Luận văn không chỉ giải quyết vấn đề thiếu hụt tài liệu ôn tập đã được chuẩn hóa mà còn góp phần bổ sung vào ngân hàng câu hỏi trắc nghiệm môn tiếng Anh mà HVAN đang triển khai. Nghiên cứu này ứng dụng các lý thuyết khảo thí hiện đại để đảm bảo các câu hỏi và đề thi có độ tin cậy và độ giá trị cao, từ đó phản ánh chính xác năng lực người học và nâng cao chất lượng đào tạo.
1.1. Bối cảnh và lý do chọn đề tài nghiên cứu tại Học viện An ninh
Nghiên cứu được thúc đẩy bởi thực trạng tỷ lệ sinh viên HVAN chưa đạt chuẩn đầu ra tiếng Anh B1 theo Khung NLNN Việt Nam còn ở mức cao (45%). Sinh viên gặp nhiều áp lực do thiếu nguồn tài liệu tham khảo và các bộ câu hỏi đã được chuẩn hóa phù hợp với định dạng thi mới. Đặc thù của môi trường đào tạo tại HVAN đòi hỏi sinh viên phải có công cụ tự học hiệu quả để chủ động ôn luyện. Luận văn ra đời nhằm giải quyết trực tiếp nhu cầu cấp thiết này, cung cấp một công cụ đánh giá đáng tin cậy cho cả giảng viên và sinh viên, đồng thời hỗ trợ công tác đảm bảo chất lượng đào tạo của Học viện.
1.2. Mục tiêu chính Chuẩn hóa công cụ đánh giá năng lực ngoại ngữ B1
Mục đích cốt lõi của đề tài là nghiên cứu và xây dựng thành công 180 câu hỏi trắc nghiệm khách quan (TNKQ) cho kỹ năng đọc hiểu tiếng Anh năng lực ngoại ngữ bậc 3. Các câu hỏi này không chỉ bám sát bảng mô tả năng lực của KNLNNVN mà còn được phân tích và chuẩn hóa dựa trên cơ sở khoa học của đo lường giáo dục. Kết quả cuối cùng là một bộ câu hỏi chất lượng, có thể sử dụng để xây dựng các đề thi tiếng Anh B1 đáng tin cậy, phục vụ cho việc kiểm tra, đánh giá quá trình và thi cấp chứng chỉ tại HVAN.
II. Thách thức trong đánh giá năng lực đọc hiểu tiếng Anh B1
Việc đánh giá năng lực đọc hiểu tiếng Anh theo chuẩn mới đặt ra nhiều thách thức cho các cơ sở đào tạo, trong đó có Học viện An ninh. Một trong những khó khăn lớn nhất là sự thiếu hụt một ngân hàng câu hỏi trắc nghiệm quy mô, chất lượng và đã được chuẩn hóa. Các đề thi hiện có thường được biên soạn một cách thủ công, thiếu quy trình kiểm định khoa học, dẫn đến việc không đảm bảo được các tiêu chí quan trọng như độ tin cậy và độ giá trị của đề thi. Điều này có thể gây ra những đánh giá thiếu chính xác về năng lực thực sự của sinh viên, ảnh hưởng đến kết quả học tập và chuẩn đầu ra. Hơn nữa, việc áp dụng Khung năng lực ngoại ngữ 6 bậc Việt Nam đòi hỏi các công cụ đo lường phải được thiết kế tinh vi hơn, không chỉ kiểm tra kiến thức từ vựng, ngữ pháp mà còn phải đánh giá được các kỹ năng đọc hiểu ở nhiều cấp độ nhận thức khác nhau. Luận văn này chỉ ra rằng, để vượt qua những thách thức đó, cần phải có một quy trình biên soạn đề thi bài bản, kết hợp giữa lý thuyết và thực tiễn, từ khâu xây dựng ma trận đề thi đến phân tích thống kê sau thử nghiệm.
2.1. Thực trạng thiếu hụt tài liệu ôn tập chuẩn hóa theo VSTEP
Sự ra đời của KNLNNVN (thường được biết đến với kỳ thi VSTEP) đòi hỏi sự thay đổi đồng bộ trong chương trình giảng dạy và tài liệu kiểm tra. Tuy nhiên, trên thực tế, các nguồn tài liệu ôn tập và đề thi mẫu đạt chuẩn còn rất hạn chế, đặc biệt là các tài liệu được thiết kế riêng cho đối tượng sinh viên các trường đặc thù như HVAN. Sinh viên thường phải tự tìm kiếm tài liệu từ nhiều nguồn không chính thống, gây khó khăn trong việc hệ thống hóa kiến thức và làm quen với cấu trúc bài thi thật.
2.2. Yêu cầu về độ khó và độ phân biệt của câu hỏi thi
Một đề thi chất lượng phải bao gồm các câu hỏi có độ khó và độ phân biệt được phân bổ hợp lý. Độ khó của câu hỏi (p-value) cho biết tỷ lệ thí sinh trả lời đúng, trong khi độ phân biệt cho thấy khả năng của câu hỏi trong việc phân loại giữa nhóm thí sinh giỏi và yếu. Nếu không có quá trình thử nghiệm và phân tích, người biên soạn đề khó có thể kiểm soát được hai tham số quan trọng này, dẫn đến đề thi có thể quá dễ hoặc quá khó, không phản ánh đúng phổ năng lực của thí sinh.
III. Nền tảng lý luận xây dựng bộ câu hỏi trắc nghiệm khách quan
Để xây dựng một bộ câu hỏi chuẩn hóa, luận văn đã dựa trên một cơ sở lý luận về kiểm tra đánh giá vững chắc, kết hợp hài hòa giữa lý thuyết khảo thí cổ điển và hiện đại. Nền tảng lý thuyết này là kim chỉ nam cho toàn bộ quá trình từ thiết kế, thử nghiệm đến phân tích câu hỏi. Luận văn đã hệ thống hóa các khái niệm cốt lõi như đo lường (measurement), kiểm tra (testing), và đánh giá (assessment) trong giáo dục. Đặc biệt, nghiên cứu đã đi sâu vào hai lý thuyết khảo thí quan trọng. Thứ nhất là Lý thuyết khảo thí cổ điển (CTT), tập trung vào các chỉ số như độ khó, độ phân biệt, độ tin cậy của cả bài thi. Thứ hai là Lý thuyết ứng đáp câu hỏi (IRT), cụ thể là mô hình Rasch, cho phép đánh giá các đặc tính của câu hỏi độc lập với nhóm thí sinh được kiểm tra, mang lại sự khách quan cao hơn. Việc vận dụng các lý thuyết này đảm bảo rằng mỗi câu hỏi trong bộ đề không chỉ đo lường đúng năng lực cần đánh giá mà còn đạt các tiêu chuẩn kỹ thuật của khoa học đo lường, làm cơ sở cho việc chuẩn hóa trong đo lường giáo dục.
3.1. Ứng dụng Lý thuyết khảo thí cổ điển CTT và hiện đại IRT
CTT cung cấp các công cụ thống kê cơ bản và dễ tiếp cận để phân tích chất lượng câu hỏi và đề thi. Các chỉ số như độ khó (p), độ phân biệt (D), và hệ số tin cậy (Cronbach's Alpha) được sử dụng để sàng lọc và hiệu chỉnh các câu hỏi sau lần thử nghiệm đầu tiên. Trong khi đó, Lý thuyết ứng đáp câu hỏi (IRT), đặc biệt là mô hình Rasch, được sử dụng trong các phân tích sâu hơn để xác định mối quan hệ giữa năng lực của thí sinh và khả năng trả lời đúng một câu hỏi, giúp xây dựng một thang đo năng lực thống nhất và khách quan.
3.2. Phân loại mục tiêu dạy học theo thang đo nhận thức của Bloom
Để đảm bảo bài thi đánh giá được toàn diện năng lực đọc hiểu, luận văn đã sử dụng thang đo nhận thức của Bloom (Bloom's Taxonomy) để xây dựng ma trận đề thi. Các câu hỏi được thiết kế để đo lường các mức độ tư duy khác nhau, từ cơ bản như Nhận biết (Knowledge), Hiểu (Comprehension) đến các cấp độ cao hơn như Vận dụng (Application) và Phân tích (Analysis). Cách tiếp cận này giúp đề thi không chỉ kiểm tra khả năng nhớ thông tin mà còn cả khả năng suy luận và tư duy phản biện của người học.
IV. Quy trình 5 bước biên soạn đề thi đọc hiểu tiếng Anh B1
Luận văn đã đề xuất và áp dụng một quy trình biên soạn đề thi khoa học gồm 5 giai đoạn rõ ràng, đảm bảo tính hệ thống và chất lượng của bộ câu hỏi. Quy trình này là sự kết hợp giữa lý luận và kinh nghiệm thực tiễn trong lĩnh vực khảo thí ngôn ngữ. Giai đoạn 1 là xác định mục tiêu và tìm kiếm nguồn văn bản phù hợp với kỹ năng đọc hiểu tiếng Anh chuyên ngành và các chủ đề quen thuộc của cấp độ B1. Giai đoạn 2 tập trung vào việc viết câu hỏi, bao gồm cả phần dẫn và các phương án nhiễu, đảm bảo mỗi câu hỏi đều đo lường một mục tiêu cụ thể trong ma trận đề thi. Giai đoạn 3 là tham khảo ý kiến chuyên gia, các giảng viên giàu kinh nghiệm sẽ rà soát, góp ý để loại bỏ các sai sót về chuyên môn và kỹ thuật. Giai đoạn 4 là thử nghiệm (pre-testing) trên một nhóm sinh viên đại diện và tiến hành phân tích câu hỏi bằng SPSS và phần mềm Quest để thu thập dữ liệu thống kê. Cuối cùng, Giai đoạn 5 là chỉnh sửa, hoàn thiện và lưu trữ các câu hỏi đạt chuẩn vào ngân hàng câu hỏi trắc nghiệm, sẵn sàng cho việc sử dụng.
4.1. Xây dựng ma trận đề thi và lựa chọn văn bản phù hợp
Bước đầu tiên là thiết lập một ma trận đề thi chi tiết, đặc tả rõ nội dung kiến thức và cấp độ nhận thức cần kiểm tra. Dựa trên ma trận này, tác giả tiến hành lựa chọn các bài đọc từ nhiều nguồn uy tín (sách, báo, tạp chí) có độ dài, chủ đề và từ vựng phù hợp với trình độ B1. Các văn bản được lựa chọn phải đảm bảo tính xác thực, hấp dẫn và cung cấp đủ ngữ cảnh để xây dựng các loại câu hỏi đa dạng.
4.2. Kỹ thuật viết câu hỏi nhiều lựa chọn MCQ hiệu quả
Viết câu hỏi nhiều lựa chọn (Multiple Choice Question - MCQ) là một kỹ thuật đòi hỏi sự cẩn trọng. Phần dẫn của câu hỏi phải rõ ràng, đơn nghĩa. Đáp án đúng phải là duy nhất và chính xác tuyệt đối. Quan trọng nhất, các phương án nhiễu (distractors) phải được thiết kế hợp lý, có sức hấp dẫn đối với những thí sinh chưa nắm vững kiến thức, dựa trên các lỗi sai phổ biến của người học. Điều này giúp tăng độ phân biệt của câu hỏi và đánh giá chính xác hơn.
V. Kết quả phân tích bộ câu hỏi chuẩn hóa tại Học viện An ninh
Sau quá trình thử nghiệm trên đối tượng sinh viên tại HVAN, luận văn đã tiến hành phân tích sâu dữ liệu thu được để đánh giá chất lượng của bộ câu hỏi. Kết quả nghiên cứu là minh chứng rõ ràng cho sự thành công của quy trình chuẩn hóa. Việc phân tích câu hỏi bằng SPSS và phần mềm Quest đã cung cấp các thông số kỹ thuật chi tiết cho từng câu hỏi. Các chỉ số thống kê quan trọng như độ khó và độ phân biệt của câu hỏi đã được tính toán và đối chiếu với các tiêu chuẩn trong khoa học đo lường. Dựa trên kết quả này, những câu hỏi chưa đạt yêu cầu (quá dễ, quá khó, hoặc độ phân biệt thấp) đã được nhận diện, chỉnh sửa hoặc loại bỏ. Phân tích cũng cho thấy các phương án nhiễu hoạt động hiệu quả, thu hút được những sinh viên có năng lực thấp hơn. Tổng thể, đề thi thử nghiệm đã cho thấy độ tin cậy ở mức tốt, khẳng định rằng bộ câu hỏi có khả năng đo lường một cách ổn định và nhất quán năng lực của thí sinh.
5.1. Phân tích chi tiết độ khó p và độ phân biệt D của câu hỏi
Kết quả phân tích cho thấy phần lớn các câu hỏi có chỉ số độ khó nằm trong khoảng lý tưởng (từ 0.4 đến 0.8), phù hợp với trình độ của nhóm sinh viên mục tiêu. Tương tự, chỉ số độ phân biệt của đa số câu hỏi đều đạt mức chấp nhận được (từ 0.3 trở lên), cho thấy khả năng phân loại tốt giữa các nhóm thí sinh. Các bảng biểu thống kê chi tiết trong luận văn (Bảng 3.24, 3.26) đã minh họa cụ thể cho những kết luận này.
5.2. Đánh giá độ tin cậy tổng thể và sự phù hợp với mô hình Rasch
Độ tin cậy của toàn bài thi, được đo bằng hệ số Cronbach’s Alpha, đạt giá trị cao, cho thấy sự nhất quán bên trong của công cụ đo lường. Thêm vào đó, phân tích sự phù hợp của các câu hỏi với mô hình Rasch (Infit MNSQ) đã khẳng định rằng hầu hết các câu hỏi đều đo lường cùng một cấu trúc năng lực tiềm ẩn (năng lực đọc hiểu), góp phần củng cố độ giá trị của đề thi.
VI. Ý nghĩa thực tiễn và hướng phát triển cho đề tài nghiên cứu
Công trình luận văn thạc sĩ này không chỉ dừng lại ở phạm vi học thuật mà còn mang lại giá trị ứng dụng thực tiễn to lớn. Kết quả quan trọng nhất là việc xây dựng thành công một bộ 180 câu hỏi TNKQ kỹ năng đọc hiểu B1 đã được chuẩn hóa. Đây là một nguồn tài liệu quý giá, trực tiếp hỗ trợ hoạt động dạy và học tiếng Anh tại Học viện An ninh. Giảng viên có thể sử dụng bộ câu hỏi này để thiết kế các bài kiểm tra thường xuyên, định kỳ một cách nhanh chóng và đáng tin cậy. Sinh viên có một công cụ tự ôn luyện hiệu quả, giúp làm quen với dạng thức thi và tự đánh giá năng lực bản thân. Hơn thế nữa, nghiên cứu đã cung cấp một mô hình, một quy trình biên soạn đề thi mẫu mực có thể được nhân rộng để xây dựng ngân hàng câu hỏi cho các kỹ năng khác (Nghe, Viết) hoặc các cấp độ năng lực khác. Hướng phát triển trong tương lai bao gồm việc mở rộng quy mô ngân hàng câu hỏi, áp dụng công nghệ để tạo các bài thi thích ứng (CAT) và tiếp tục nghiên cứu các yếu tố ảnh hưởng đến kỹ năng đọc hiểu tiếng Anh chuyên ngành.
6.1. Đóng góp vào việc xây dựng ngân hàng câu hỏi thi VSTEP
Bộ câu hỏi được chuẩn hóa là nguồn bổ sung chất lượng cao cho ngân hàng câu hỏi trắc nghiệm của HVAN. Việc này giúp Học viện chủ động hơn trong công tác tổ chức thi cử, đảm bảo tính công bằng, khách quan và minh bạch. Đồng thời, nó góp phần vào nỗ lực chung của ngành giáo dục trong việc nâng cao chất lượng các kỳ thi theo chuẩn VSTEP.
6.2. Khuyến nghị cho các nghiên cứu và ứng dụng trong tương lai
Luận văn đề xuất các hướng nghiên cứu tiếp theo như: xây dựng bộ câu hỏi cho các kỹ năng còn lại, nghiên cứu ứng dụng các mô hình IRT phức tạp hơn (mô hình 2 hoặc 3 tham số) để có phân tích sâu hơn về câu hỏi, và phát triển các bài kiểm tra trên nền tảng máy tính để tối ưu hóa quá trình tổ chức và chấm thi. Đây là những định hướng quan trọng để tiếp tục hoàn thiện công tác chuẩn hóa trong đo lường giáo dục tại Việt Nam.