- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRUONG DAT HOC BACH KHOA HA NOT TRỊNH KHÁC LINH DU BAO LIEN KET MẠNG ĐÔNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC Chuyên ngành : Hệ thống thông tin LUẬN VĂN THẠC SĨ KIIOA HỌC CÔNG NGHE THONG TIX NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. Tran Dinh Khang Hà Nội — Năm 2018 LOI CAM ON Đầu tiên, tôi võ cùng xúc động xi: được gửi lời trì ân sân sắc nhất đến Thấy giảo hướng dẫn PGS. Trân Dinh Khang — người đã trực tiếp dành nhiều thời gian quý báu tận tình hướng dẫn cho tôi những định hướng khoa học sâu sắc, động viên chỉ dẫn sát sao trougr suốt thời gian học tập, nghiên cứu vả thực hiện luận văn này. Thấy cũng dành nhiều thời gian thường xuyên hàng tuần bình luận về các ý tưởng, kết quả của tôi, truyền cho tôi sự nghiêm tủo, niễm cảm hứng trong nghiên cửu khoa hoc. Tôi xin được gửi lời cảm ơn chân thành dến các thấy giáo, cô giáo công tác ở Viện Công nghệ thông tin và Truyền thông đã tận tỉnh chí dạy, chia sẽ kinh nghiệm quý báu vẻ cách tiếp cận và nghiên cứu khoa học cơ bản. Bên cạnh đó tôi cũng xin câm ơn chân thành tới Ban giảm hiệu nhà trường củng toàn. thể các thầy cô Phòng Sau đại học của trường đã quan tâm, lạo điều kiện cho tôi trong suốt thời gian học Sau cũng tôi xin bảy tỏ lòng biết ơn đến cáo bạn cùng lớp, căm ơn gia đình đã luôn sát cánh, động viên tôi Hạc viên Trịnh Khắc Linh LOI CAM DOAN Tôi "Trịnh Khắc Linh xin cam kết Luận văn này lả công trình nghiên cứu của báu. thân tôi dưới sự hướng dẫn của PGS.TS Trần Dinh Khang, Cáo kết quá trình bay trong Luan văn là trung thực, chưa từng được ai công bố trong bat kỳ công trình nào khác. Tắt cả các trích đầu đều được tham chiêu rõ rằng, Tà Nội, ngày — tháng 10 năm 2018 TÁC GIẢ LUẬN VĂN 'Trịnh Khắc Linh 3. Phân tích độ phức tạp tính toát 3. Thực nghiêm, đánh giá 3. Tập dữ liệu thực nghiệm 2. Câu hình tham số. Kết quả thực nghiêm. CHƯƠNG IV: ỨNG DỤNG ĐỰ BẢO LIÊN KẾ MẠNG ĐỒNG TÁC GIÁ 4. Ap dung phương pháp SVM cải tiền mg đồng lác giả. Xây dựng chương trinh dự báo liên k: 4221. Xây dụng cả: đạt công cụ dự báolien kkết mang đồng tác gia, 2. Kết quả 42 Đánh giá chương trình 43.1, Mé tả đữ liệu mạng đồng tác giả thực nghiệm. Câu hình các phương pháp phân la 4. Kết quả thực nghiêm CHƯƠNG V: KÉT LUẬN. Những kết luận mới. Dóng góp mới vã kiến nghị của táo giả về sử dụng kết quả nghiên cứu TAI LIEU TILAM KITAO DANH MUC BANG BIEU Đảng 1 Một số phương pháp phân lớp áp dụng che dự báo liên kết. Mô tả ma trận nhằm lẫn TH TH nh H2 TH nan. ca reeg 30 Bảng 3. Mô tả bộ dữ liệu mi. cản bằng TCT - - ce Al Báng 4. Kết quả thực nghiệm so sánh các phương pháp với đữ liệu UCLL. Mô tả chia cách chia đữ liêu mạng đồng tác giả theo thời gian. Minh họa đũ liệu mạng đồng tác giã thu được - ce ST Bang 7. Mé ta céc t4p dit ligu mang dang tac gid cho thực nghiệm đánh giá. Kết quả đánh giá các phương pháp phân lớp đối với đữ liệu mạng đồng tác giả 52 Bang 9. Kốt quả đánh giá theo các siêu than số Œ.à xvvvevttrrrrrrrerrree 58 MUC LUC LOICAMON. LOLCAM DOAN DANII MUC CAC THUAT NGU CHINTT 1 DANH MUC CAC KY HIEU CHINH 2 DANH MUC HINH VE 3 DANII MUC BANG BE 4 PHAN i: MO DAU. Ly do chon dé tai. Lịch sứ nghiên cửu. Mue dich nghiên cứu của luận văn, đối ttợng, phạm ví nghiên cứu. Tôm tắt cô đọng các luận điểm cơ bản và đông góp mới của tác giả, 8 5, Phương pháp nghiên cứu. „18 PHAN 2: NOI DUNG DE TAL CHUONG L TONG QUAN VE DU BAO LIEN KET MANG BONG TAC GIA NGHIEN CUU KHOA HOC 1. Giới thiệu tổng quan về mạng xã hội và mạng, đồng tác giá. Mang xa hdi - 1. Mang ding tic gia 1. Bái toàn dự báo liên 121. Tổng quan về các mô hình học máy trong đự bảo liền kết trong mạng đồng tie gid. Vấn đề mất cân bằng đữ liệu trong đự bảo liên kết mạng đỏng tác gì: .19 CHƯƠNG II. PHƯƠNG PHÁP SUPPORT VECTOR MACHINE BOI VỚI ĐỮ LIỆU MAT CAN BANG.1, Phuong phip Suppor! Vector Machine 2 2. Giới thiệu về phương pháp Support Vector Machine. Tôi tru lễ rong SVM. Một số độ đo đánh giả hiệu năng cho phân lớp dit gu mat sân bằng . Một số nghiên cứu cải tiên phương pháp SVM cho phân lớp đữ liệu mỗi cân.1 Tiếp cân dua trén SVM cho hin lớp đữ liệu mấtcin bing.4 New bias SVM. 33 CHUONG IIL PHUONG PHAP SVM CẢI TIEN CHO DU LIEU MAT CAN BANG v4 3. Phương phân SVM cải tiễn.1 Hoc mé hinh Weighted-SVM. Tim giá trị tối ưu +*.30 DANH MUC BANG BIEU Đảng 1 Một số phương pháp phân lớp áp dụng che dự báo liên kết. Mô tả ma trận nhằm lẫn TH TH nh H2 TH nan. ca reeg 30 Bảng 3. Mô tả bộ dữ liệu mi. cản bằng TCT - - ce Al Báng 4. Kết quả thực nghiệm so sánh các phương pháp với đữ liệu UCLL. Mô tả chia cách chia đữ liêu mạng đồng tác giả theo thời gian. Minh họa đũ liệu mạng đồng tác giã thu được - ce ST Bang 7. Mé ta céc t4p dit ligu mang dang tac gid cho thực nghiệm đánh giá. Kết quả đánh giá các phương pháp phân lớp đối với đữ liệu mạng đồng tác giả 52 Bang 9. Kốt quả đánh giá theo các siêu than số Œ.à xvvvevttrrrrrrrerrree 58 DANH MỤC CÁC KÝ HIỆU CHỈNH N Số mẫu đữ liệu. Weight vector b Bias xi Vector dặc trưng 9 Nhãn (label) é Slack variable Cc Hằng sẻ phạt Tham số học của mô hình cải tiển K Kemel z “Tham số học của mô hình z-SVMT bà DANH MUC HIiNH VE Hinh 2.1 Minh hoa phân lớp đữ liệu SVM dữ liệu tuy2n tinh .2 Minh hoa phân lớp SVM dữ liệu nhiỄu. nen ereirrrrirrer TTình 2. Minh họa anh xạ đữ liệu vào không gian nhiều chiều Hình 2.4 Minh họa Weighted-SVM.1 Minh hoa ràng buộc alpha trong Weighted-SVM. Mỗ tình đự báo Tiên kết đồng lác giả dựa trên tiên cận học máy, Hình 4. Sơ đỗ đề xuất tổng quan của chương trình dự báo liên kết đẳng tác giả. Sơ đồ đề xuất chương trình dự báo liên kết đẳng tác giả TRình 4. Màn hình huấn huyện mô hình đự báo liền kết mạng đồng Hình 4. Mản hình hiền thị kết quã huần luyện. Màn hình load tmg viên cần dự bảo Hình 4. Màn hình lựa chọn ứng viên / tác giả. Mán hình kết quả dự báo cho ứng viễn lựa chọn. Sự thay đổi của giá trị F1-seore theo tỉ lệ mật cân bằng Hình 4.10 Sự biến thiên của Rccall, Prccision, F1-score, G-rnean theo siêu tham sỏ C.11 Kết qua dink gia thoi gian chay tim + theo kich cỡ mẫu dữ liệu. PHAN 1: MO BAU Ly do chon dé tai. Vải sự phát triển chóng mặt của khoa học, việc tìm kiêm thông tin khoa học đề thực hiện các công việc liên quan đến nghiên cứu là nhn cầu thường xuyên, không thể thiểu dỗi với những người làm nghiên cứu khoa học. Mạng dòng tác giả nghiên cửa. khoa học hay còn gọi là mạng lưới học thuật (acađemie social network) là một loại mang xii hdi đặc biệt, bao gâm các đình (nođe mạng) là cáu táo giả, nhủ nghiên cứu đã từng viết một hoặc nhiều bài báo đã được công bế về chú đề, lĩnh vực nào đó, các cạnh thé hiện môi liên hệ giữa các táo giả, thường là mỗi liên hệ công tác giữa hai tác giả khi cùng tham gia xuất bản một bái bảo. Các mạng dồng tác giá hỗ trợ người sử dụng hoặc các tổ chức để chia sẻ hồ sơ của họ cho mục đích trao đổi học thuật. Những người sử đụng địch vụ đó có thế tìm thấy các ứng cứ viên thich hop những người mả phủ hợp với mục tiêu hay nhu câu hợp tác. Mạng đồng tác giá. mang nhiều đặc trưng học thuật và có nhiều tính chất khác biệt so với mạng xã hội truyền thẳng. Ví du, mức độ công tắc giữa hai tác giã cùng viết chưng cáo bài báo phụ thuộc vào số lượng bài báo, số lượng tác giá, thử tự của các tác giá và thời gian công bổ của các bài bảo mà hai lác giả đã viết chung, Do đó, việc phân lích và khai pha théng tin tit cac mang déng tac gid mang nhiều ý nghĩa quan trọng và thiết thực trong việc mô hình hóa vả nâng cao chất lượng của quả trinh nghiên cửu học thuật, Để giúp các nhà làm nghiên cứu dé dang hon trong việc tiếp cận các (hông tín học thuật hữu ích liên quan, các hệ thống dự báo liên kết trong lĩnh vực học thuật (đu báo liên kết mạng đẳng tác giả) là giải pháp đang duoc quan tâm nghiên cứu trong những rừnn gần dây. Dự báo liên kết là vẫn để cơ bản rữất, việc đự báo liên kết cổ gắng để mrớc lượng khả năng vẻ sự tổn tại của mối liên kết giữa hai node mạng, dựa liên các liên kết. đã quam sát và các đặc trưng của nođe. Mục tiêu của bài toán dự bảo liên kết trong mạng dồng tác giả là dưa ra các cặp tác giả có khả nắng, hợp tác trong tương lai đựa vào cầu trúc của mạng quan sắt được ở thời điểm hiện. w DANH MUC HIiNH VE Hinh 2.1 Minh hoa phân lớp đữ liệu SVM dữ liệu tuy2n tinh .2 Minh hoa phân lớp SVM dữ liệu nhiỄu. nen ereirrrrirrer TTình 2. Minh họa anh xạ đữ liệu vào không gian nhiều chiều Hình 2.4 Minh họa Weighted-SVM.1 Minh hoa ràng buộc alpha trong Weighted-SVM. Mỗ tình đự báo Tiên kết đồng lác giả dựa trên tiên cận học máy, Hình 4. Sơ đỗ đề xuất tổng quan của chương trình dự báo liên kết đẳng tác giả. Sơ đồ đề xuất chương trình dự báo liên kết đẳng tác giả TRình 4. Màn hình huấn huyện mô hình đự báo liền kết mạng đồng Hình 4. Mản hình hiền thị kết quã huần luyện. Màn hình load tmg viên cần dự bảo Hình 4. Màn hình lựa chọn ứng viên / tác giả. Mán hình kết quả dự báo cho ứng viễn lựa chọn. Sự thay đổi của giá trị F1-seore theo tỉ lệ mật cân bằng Hình 4.10 Sự biến thiên của Rccall, Prccision, F1-score, G-rnean theo siêu tham sỏ C.11 Kết qua dink gia thoi gian chay tim + theo kich cỡ mẫu dữ liệu. DANH MUC BANG BIEU Đảng 1 Một số phương pháp phân lớp áp dụng che dự báo liên kết. Mô tả ma trận nhằm lẫn TH TH nh H2 TH nan. ca reeg 30 Bảng 3.
Luận văn: Dự báo liên kết mạng đồng tác giả trong nghiên cứu khoa học
Luận văn dự báo liên kết mạng đồng tác giả khoa học: Nghiên cứu mô hình, phương pháp dự đoán kết nối giữa các nhà khoa học, tăng cường hợp tác nghiên cứu.
Trường đại học
Trường Đại học Bách Khoa Hà NộiChuyên ngành
Hệ thống thông tinNgười đăng
Ẩn danhThể loại
Luận văn thạc sĩ2018
Phí lưu trữ
30 PointMục lục chi tiết
Tóm tắt
I. Tổng Quan Dự Báo Liên Kết Mạng Đồng Tác Giả HOT 2024
Sự phát triển của khoa học đòi hỏi việc tiếp cận thông tin nhanh chóng. Mạng đồng tác giả nghiên cứu khoa học, hay mạng lưới học thuật, nổi lên như một giải pháp. Mạng này bao gồm các tác giả (node mạng) và mối liên hệ giữa họ (cạnh mạng), thường là sự hợp tác trong các bài báo. Mạng đồng tác giả hỗ trợ chia sẻ hồ sơ, tìm kiếm cộng tác viên tiềm năng. Khác với mạng xã hội thông thường, mạng đồng tác giả mang đặc trưng học thuật rõ rệt. Ví dụ, mức độ hợp tác phụ thuộc vào số lượng bài báo chung, số lượng tác giả, thứ tự tác giả, và thời gian công bố. Phân tích và khai phá thông tin từ các mạng đồng tác giả có ý nghĩa quan trọng trong việc mô hình hóa và nâng cao chất lượng nghiên cứu. Để dễ dàng tiếp cận thông tin học thuật hữu ích, các hệ thống dự báo liên kết trong lĩnh vực học thuật được quan tâm. Dự báo liên kết cố gắng ước lượng khả năng tồn tại liên kết giữa các node mạng. Mục tiêu của bài toán dự báo liên kết mạng đồng tác giả là dự đoán các cặp tác giả có khả năng hợp tác trong tương lai, dựa trên cấu trúc mạng hiện tại. Theo luận văn của Trịnh Khắc Linh, 'Để giúp các nhà làm nghiên cứu dễ dàng hơn trong việc tiếp cận các thông tin học thuật hữu ích liên quan, các hệ thống dự báo liên kết trong lĩnh vực học thuật (dự báo liên kết mạng đồng tác giả) là giải pháp đang được quan tâm nghiên cứu trong những năm gần đây.' Bài toán dự báo liên kết là một bài toán cơ bản và rất quan trọng trong nhiều lĩnh vực, từ khoa học mạng đến phân tích mạng xã hội. Các phương pháp khai phá dữ liệu khoa học đóng vai trò quan trọng trong việc xây dựng các mô hình dự báo hiệu quả.
1.1. Tầm Quan Trọng của Mạng Đồng Tác Giả Khoa Học
Việc xây dựng và phân tích mạng đồng tác giả mang lại nhiều lợi ích. Nó giúp xác định các nhà nghiên cứu hàng đầu, các xu hướng nghiên cứu mới nổi, và các lĩnh vực hợp tác tiềm năng. Phân tích cấu trúc mạng có thể tiết lộ các nhóm nghiên cứu mạnh, ảnh hưởng của từng tác giả, và sự lan truyền của ý tưởng trong cộng đồng khoa học. Phân tích trích dẫn cũng là một công cụ quan trọng để đánh giá tác động của nghiên cứu. Các chỉ số như chỉ số H và tổng số trích dẫn thường được sử dụng để đo lường năng suất và ảnh hưởng của một nhà nghiên cứu. Mạng đồng tác giả cho phép trực quan hóa và phân tích các mối quan hệ này một cách hiệu quả hơn. Việc dự đoán các liên kết cộng tác trong tương lai có thể giúp các nhà nghiên cứu tìm kiếm đối tác phù hợp và thúc đẩy sự phát triển của các dự án nghiên cứu mới.
1.2. Ứng Dụng Thực Tế của Dự Báo Liên Kết Đồng Tác Giả
Các hệ thống dự báo liên kết trong mạng đồng tác giả có nhiều ứng dụng thực tế. Chúng có thể giúp các nhà tài trợ nghiên cứu xác định các dự án tiềm năng và các nhóm nghiên cứu có khả năng thành công cao. Các trường đại học và viện nghiên cứu có thể sử dụng các hệ thống này để tìm kiếm các ứng viên tài năng và xây dựng các mối quan hệ đối tác chiến lược. Ngoài ra, các nhà xuất bản khoa học có thể sử dụng dự báo liên kết để xác định các chủ đề nghiên cứu mới nổi và mời các chuyên gia hàng đầu viết bài. Cuối cùng, các nhà nghiên cứu cá nhân có thể sử dụng các hệ thống này để tìm kiếm các đối tác phù hợp và tăng khả năng công bố các bài báo chất lượng cao. Theo luận văn, 'Mạng đồng tác giả hỗ trợ người sử dụng hoặc các tổ chức để chia sẻ hồ sơ của họ cho mục đích trao đổi học thuật. Những người sử dụng dịch vụ đó có thể tìm thấy các ứng cử viên thích hợp, những người mà phù hợp với mục tiêu hay nhu cầu hợp tác.'
II. Thách Thức Mất Cân Bằng Dữ Liệu Trong Dự Báo Liên Kết
Một thách thức lớn trong dự báo liên kết mạng đồng tác giả là vấn đề mất cân bằng dữ liệu. Số lượng liên kết không tồn tại (cặp tác giả chưa từng hợp tác) thường lớn hơn nhiều so với số lượng liên kết tồn tại (cặp tác giả đã hợp tác). Điều này dẫn đến việc các mô hình học máy có xu hướng dự đoán sai các liên kết tồn tại, vì chúng được coi là thiểu số. Để giải quyết vấn đề này, cần áp dụng các kỹ thuật đặc biệt để xử lý dữ liệu mất cân bằng. Các kỹ thuật này có thể bao gồm lấy mẫu lại dữ liệu, điều chỉnh trọng số của các lớp, hoặc sử dụng các thuật toán học máy được thiết kế đặc biệt cho dữ liệu mất cân bằng. Theo luận văn, 'Vấn đề mất cân bằng dữ liệu trong dự báo liên kết mạng đồng tác giả.'
2.1. Ảnh Hưởng Của Mất Cân Bằng Đến Hiệu Suất Mô Hình
Khi dữ liệu bị mất cân bằng, các mô hình học máy thường tập trung vào việc dự đoán chính xác lớp đa số, bỏ qua lớp thiểu số. Trong bài toán dự báo liên kết, điều này có nghĩa là mô hình sẽ dự đoán hầu hết các cặp tác giả là không hợp tác, ngay cả khi có khả năng họ sẽ hợp tác trong tương lai. Điều này dẫn đến việc giảm độ chính xác (precision) và độ phủ (recall) của mô hình, đặc biệt là đối với lớp thiểu số (liên kết tồn tại). Các độ đo đánh giá hiệu suất như accuracy có thể không phù hợp trong trường hợp này, vì chúng có thể cho kết quả cao giả tạo. Cần sử dụng các độ đo khác như F1-score, G-mean, hoặc AUC để đánh giá hiệu suất mô hình một cách chính xác hơn.
2.2. Các Phương Pháp Xử Lý Dữ Liệu Mất Cân Bằng
Có nhiều phương pháp để xử lý dữ liệu mất cân bằng. Lấy mẫu lại dữ liệu (resampling) là một phương pháp phổ biến, bao gồm lấy mẫu quá mức (oversampling) lớp thiểu số và lấy mẫu dưới mức (undersampling) lớp đa số. Điều chỉnh trọng số của các lớp (weighting) là một phương pháp khác, trong đó các mẫu của lớp thiểu số được gán trọng số cao hơn để tăng cường ảnh hưởng của chúng trong quá trình huấn luyện mô hình. Các thuật toán học máy được thiết kế đặc biệt cho dữ liệu mất cân bằng, chẳng hạn như Support Vector Machine (SVM) với điều chỉnh trọng số hoặc các thuật toán dựa trên ensemble, cũng có thể được sử dụng. Quan trọng là phải lựa chọn phương pháp phù hợp dựa trên đặc điểm của dữ liệu và bài toán cụ thể. Luận văn đề cập đến phương pháp SVM cải tiến để giải quyết vấn đề này.
III. Giải Pháp SVM Cải Tiến Dự Báo Liên Kết Mạng Đồng Tác Giả
Luận văn tập trung vào việc cải tiến phương pháp Support Vector Machine (SVM) để giải quyết vấn đề mất cân bằng dữ liệu trong dự báo liên kết mạng đồng tác giả. SVM là một thuật toán học máy mạnh mẽ, có khả năng phân loại dữ liệu phức tạp. Tuy nhiên, SVM truyền thống có thể gặp khó khăn khi dữ liệu bị mất cân bằng. Để cải thiện hiệu suất của SVM, luận văn đề xuất các kỹ thuật điều chỉnh trọng số và tối ưu hóa tham số. Các kỹ thuật này giúp SVM tập trung vào việc dự đoán chính xác các liên kết tồn tại, đồng thời giảm thiểu sai sót đối với các liên kết không tồn tại. Theo luận văn, chương II và III trình bày chi tiết về phương pháp SVM và các cải tiến.
3.1. Tổng Quan về Phương Pháp Support Vector Machine SVM
Support Vector Machine (SVM) là một thuật toán học máy có giám sát được sử dụng rộng rãi cho các bài toán phân loại và hồi quy. SVM hoạt động bằng cách tìm kiếm một siêu phẳng (hyperplane) tối ưu để phân tách các lớp dữ liệu trong không gian đặc trưng. Siêu phẳng tối ưu là siêu phẳng có khoảng cách lớn nhất đến các điểm dữ liệu gần nhất của mỗi lớp, được gọi là các vector hỗ trợ (support vectors). SVM có khả năng xử lý dữ liệu phi tuyến tính bằng cách sử dụng các hàm kernel để ánh xạ dữ liệu vào không gian chiều cao hơn, nơi các lớp có thể được phân tách tuyến tính. SVM là một thuật toán mạnh mẽ và hiệu quả, nhưng nó có thể gặp khó khăn khi dữ liệu bị mất cân bằng.
3.2. Weighted SVM Điều Chỉnh Trọng Số Trong SVM
Weighted-SVM là một biến thể của SVM truyền thống, trong đó các mẫu dữ liệu được gán trọng số khác nhau dựa trên lớp của chúng. Các mẫu của lớp thiểu số được gán trọng số cao hơn, trong khi các mẫu của lớp đa số được gán trọng số thấp hơn. Điều này giúp SVM tập trung vào việc dự đoán chính xác các mẫu của lớp thiểu số, đồng thời giảm thiểu ảnh hưởng của các mẫu của lớp đa số. Việc điều chỉnh trọng số có thể được thực hiện bằng cách sử dụng các tham số phạt khác nhau cho các lớp khác nhau trong hàm mục tiêu của SVM. Weighted-SVM là một phương pháp hiệu quả để giải quyết vấn đề mất cân bằng dữ liệu trong SVM.
3.3 Tối Ưu Tham Số cho Weighted SVM trong Dự Báo Liên Kết
Việc tối ưu hóa tham số cho Weighted-SVM là rất quan trọng để đạt được hiệu suất tốt nhất trong dự báo liên kết. Các tham số cần được tối ưu hóa bao gồm tham số phạt C và trọng số của các lớp. Việc tối ưu hóa có thể được thực hiện bằng cách sử dụng các phương pháp tìm kiếm lưới (grid search) hoặc các phương pháp tối ưu hóa dựa trên gradient. Cần sử dụng các độ đo đánh giá hiệu suất phù hợp, chẳng hạn như F1-score hoặc AUC, để đánh giá hiệu suất của mô hình trong quá trình tối ưu hóa. Việc lựa chọn các giá trị tham số phù hợp có thể cải thiện đáng kể hiệu suất của Weighted-SVM trong dự báo liên kết mạng đồng tác giả.
IV. Ứng Dụng Xây Dựng Công Cụ Dự Báo Liên Kết Đồng Tác Giả
Luận văn trình bày việc xây dựng một công cụ dự báo liên kết trong mạng đồng tác giả dựa trên phương pháp SVM cải tiến. Công cụ này cho phép người dùng nhập dữ liệu về mạng đồng tác giả và dự đoán khả năng hợp tác giữa các tác giả trong tương lai. Công cụ cung cấp giao diện trực quan để người dùng có thể dễ dàng khám phá và phân tích mạng đồng tác giả. Kết quả dự báo được hiển thị dưới dạng danh sách các cặp tác giả tiềm năng, cùng với độ tin cậy của dự báo. Theo luận văn, chương IV trình bày chi tiết về ứng dụng của phương pháp SVM cải tiến.
4.1. Quy Trình Xây Dựng Công Cụ Dự Báo Liên Kết
Quy trình xây dựng công cụ dự báo liên kết bao gồm các bước sau: (1) Thu thập và tiền xử lý dữ liệu về mạng đồng tác giả. (2) Xây dựng mô hình SVM cải tiến bằng cách sử dụng dữ liệu huấn luyện. (3) Đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra. (4) Phát triển giao diện người dùng cho công cụ. (5) Triển khai công cụ và cung cấp hướng dẫn sử dụng cho người dùng. Các bước này cần được thực hiện một cách cẩn thận để đảm bảo tính chính xác và hiệu quả của công cụ.
4.2. Đánh Giá Hiệu Quả Của Công Cụ Dự Báo
Hiệu quả của công cụ dự báo liên kết được đánh giá bằng cách sử dụng các độ đo đánh giá hiệu suất như precision, recall, F1-score, và AUC. Các độ đo này đo lường khả năng của công cụ trong việc dự đoán chính xác các liên kết tồn tại và tránh dự đoán sai các liên kết không tồn tại. Kết quả đánh giá cho thấy rằng công cụ dự báo liên kết dựa trên phương pháp SVM cải tiến có hiệu suất tốt hơn so với các phương pháp truyền thống. Luận văn trình bày kết quả thực nghiệm chi tiết trong chương IV.
V. Kết Luận Hướng Đi Mới Trong Dự Báo Liên Kết Khoa Học
Luận văn đã trình bày một phương pháp tiếp cận hiệu quả để giải quyết vấn đề dự báo liên kết trong mạng đồng tác giả bằng cách sử dụng SVM cải tiến. Phương pháp này giúp cải thiện hiệu suất dự báo, đặc biệt là trong trường hợp dữ liệu bị mất cân bằng. Kết quả nghiên cứu có thể được sử dụng để xây dựng các công cụ hỗ trợ các nhà nghiên cứu tìm kiếm đối tác phù hợp và thúc đẩy sự hợp tác trong cộng đồng khoa học. Theo luận văn, chương V trình bày kết luận và kiến nghị.
5.1. Đóng Góp Mới của Nghiên Cứu
Nghiên cứu này đóng góp vào lĩnh vực dự báo liên kết bằng cách (1) đề xuất một phương pháp SVM cải tiến để giải quyết vấn đề mất cân bằng dữ liệu, (2) xây dựng một công cụ dự báo liên kết thực tế có thể được sử dụng bởi các nhà nghiên cứu, và (3) cung cấp một đánh giá toàn diện về hiệu suất của phương pháp đề xuất. Các đóng góp này có thể giúp thúc đẩy sự phát triển của các hệ thống dự báo liên kết hiệu quả hơn và hỗ trợ sự hợp tác trong cộng đồng khoa học.
5.2. Hướng Nghiên Cứu Tương Lai
Các hướng nghiên cứu tương lai có thể bao gồm (1) khám phá các kỹ thuật xử lý dữ liệu mất cân bằng khác nhau, (2) kết hợp thông tin bổ sung vào mô hình dự báo, chẳng hạn như thông tin về chủ đề nghiên cứu và kinh nghiệm của các tác giả, (3) phát triển các phương pháp dự báo liên kết động, có thể thích ứng với sự thay đổi của mạng đồng tác giả theo thời gian, và (4) đánh giá hiệu suất của các phương pháp đề xuất trên các tập dữ liệu lớn hơn và đa dạng hơn. Nghiên cứu sâu hơn về các lĩnh vực này có thể giúp cải thiện hơn nữa hiệu suất và tính ứng dụng của các hệ thống dự báo liên kết.
TÀI LIỆU LIÊN QUAN
Bạn đang xem trước tài liệu:
Luận văn dự báo liên kết mạng đồng tác giả nghiên cứu khoa học
THÔNG TIN CHI TIẾT
Tác giả: Trịnh Khắc Linh
Người hướng dẫn: PGS. Trần Đình Khang
Trường học: Trường Đại học Bách Khoa Hà Nội
Chuyên ngành: Hệ thống thông tin
Đề tài: Dự báo liên kết mạng đồng tác giả: Nghiên cứu khoa học
Loại tài liệu: Luận văn thạc sĩ
Năm xuất bản: 2018
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ