Khám Phá Tầm Ảnh Hưởng Của Bài Báo Khoa Học Trong Mạng Trích Dẫn

Khám phá tầm ảnh hưởng của bài báo khoa học trong mạng trích dẫn, phân tích các yếu tố quyết định sự lan tỏa và giá trị nghiên cứu.

Trường đại học

Trường Đại Học Công Nghệ TP. HCM

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

131

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề và lý do chọn đề tài

1.2. Mục tiêu của đề tài

1.2.1. Mục tiêu tổng quát

1.2.2. Mục tiêu cụ thể

1.3. Nội dung nghiên cứu

1.4. Các phương pháp nghiên cứu

1.4.1. Phương pháp tổng luận

1.4.2. Phương pháp so sánh

1.4.3. Phương pháp nghiên cứu tính khả thi

1.4.4. Phương pháp nghiên cứu mô phỏng

1.4.5. Phương pháp phân tích và thiết kế thuật toán

1.5. Đóng góp của đề tài

1.6. Các công cụ và công trình nghiên cứu tiêu biểu có liên quan đến đề tài

1.6.1. Các công cụ phân tích mạng trích dẫn

1.6.2. Các công trình nghiên cứu liên quan

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Một số định nghĩa liên quan đến đề tài

2.1.1. Mạng trích dẫn

2.1.2. Mạng trích dẫn các bài báo khoa học. Tầm ảnh hưởng

2.2. Cơ sở dữ liệu đồ thị và OrientDB

2.2.1. Khái quát về cơ sở dữ liệu đồ thị

2.2.2. Cơ sở dữ liệu đồ thị là gì?

2.2.3. Sự phát triển của cơ sở dữ liệu đồ thị

2.2.4. Khái quát về OrientDB

2.2.5. Lý do chọn OrientDB

2.3. Khái quát về Big Data

2.3.1. Đặc trưng của Big Data

2.3.2. Ứng dụng của Big Data

2.3.3. Tác động của Big Data

2.4. Khái quát về Apache Spark

2.4.1. Sự phát triển của Apache Spark

2.4.2. Tính năng của Apache Spark

2.4.3. Các thành phần của Apache Spark

2.5. Ngôn ngữ lập trình Scala

2.5.1. Khái quát về ngôn ngữ Scala

2.5.2. Các tính năng của ngôn ngữ Scala

2.6. Web MVC với Play Framework

2.6.1. Các nền tảng xây dựng ứng dụng web bằng Scala

2.7. Biểu diễn trực quan đồ thị với VisJs

2.7.1. Khái quát về các thư viện biểu diễn trực quan đồ thị

3. CHƯƠNG 3: PHÂN TÍCH & THIẾT KẾ HỆ THỐNG

3.1. Yêu cầu của hệ thống

3.2. Sơ đồ kiến trúc hệ thống CNE

3.3. Thiết kế cơ sở dữ liệu

3.3.1. Thu thập dữ liệu

3.3.2. Thiết kế cơ sở dữ liệu đồ thị trong OrientDB

3.3.3. Chương trình đọc text file và chuyển thành cơ sở dữ liệu đồ thị

3.4. Tiền xử lý dữ liệu

3.5. Đồ thị kết quả

3.6. Thiết kế chức năng

3.7. Các sơ đồ UML của hệ thống CNE

3.8. Các thuật toán quan trọng

4. CHƯƠNG 4: HIỆN THỰC & THỰC NGHIỆM

4.1. Giao diện chính

4.2. Giao diện của chức năng “Find papers”

4.3. Giao diện của chức năng “Visualize the whole graph”

4.4. Giao diện của chức năng “Find the propagation of a paper over time”

4.5. Kiến trúc của hệ thống thực nghiệm

4.6. Cài đặt hệ thống

4.7. Cách chạy hệ thống thực nghiệm

4.8. Kết quả thực nghiệm

5. CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN

5.1. Những thách thức khi thực hiện đề tài

5.2. Kinh nghiệm thu thập được khi thực hiện đề tài

5.3. Ưu nhược điểm của hệ thống Citation Network Explorer

5.3.1. Nhược điểm của hệ thống

5.3.2. Ưu điểm của hệ thống

5.4. Hướng phát triển trong tương lai

TÀI LIỆU THAM KHẢO

PHỤ LỤC 1: DANH MỤC CODE SCALA

PHỤ LỤC 2: CÁC CÀI ĐẶT CẦN THIẾT

Tóm tắt

I. Tầm ảnh hưởng của bài báo khoa học

Bài báo khoa học đóng vai trò quan trọng trong việc phát triển tri thức và công nghệ. Tầm ảnh hưởng của một bài báo được xác định thông qua số lượng trích dẫn mà nó nhận được trong mạng trích dẫn. Các chỉ số như impact factor và h-index thường được sử dụng để đánh giá tầm ảnh hưởng của bài báo trong cộng đồng khoa học. Theo nghiên cứu, bài báo có số lượng trích dẫn cao không chỉ thể hiện giá trị nghiên cứu mà còn ảnh hưởng đến sự phát triển của các lĩnh vực khác nhau. Việc phân tích mạng trích dẫn giúp xác định các bài báo có tầm ảnh hưởng lớn nhất, từ đó cung cấp thông tin quý giá cho các nhà nghiên cứu và học giả.

1.1. Định nghĩa và vai trò của mạng trích dẫn

Mạng trích dẫn là một cấu trúc thể hiện mối quan hệ giữa các bài báo khoa học thông qua việc trích dẫn lẫn nhau. Mạng trích dẫn không chỉ giúp các nhà nghiên cứu tìm kiếm tài liệu liên quan mà còn cho phép họ đánh giá tầm ảnh hưởng của các công trình nghiên cứu. Các công cụ như Web of Science, Scopus, và Google Scholar cung cấp dữ liệu về mạng trích dẫn, giúp người dùng dễ dàng theo dõi và phân tích các bài báo có tầm ảnh hưởng lớn. Việc hiểu rõ về mạng trích dẫn cũng giúp các nhà nghiên cứu xác định xu hướng nghiên cứu và phát triển trong lĩnh vực của họ.

II. Phân tích và đánh giá tầm ảnh hưởng

Phân tích mạng trích dẫn cho phép xác định các bài báo có tầm ảnh hưởng lớn nhất trong một lĩnh vực cụ thể. Các phương pháp phân tích như bibliometrics và scientometrics được sử dụng để đánh giá tầm ảnh hưởng của bài báo. Những chỉ số này không chỉ phản ánh số lượng trích dẫn mà còn cho thấy sự lan tỏa của bài báo qua thời gian. Việc sử dụng các công cụ phân tích hiện đại như Apache Spark và OrientDB giúp tối ưu hóa quá trình xử lý dữ liệu lớn trong mạng trích dẫn. Điều này cho phép các nhà nghiên cứu có cái nhìn sâu sắc hơn về tầm ảnh hưởng của bài báo trong cộng đồng khoa học.

2.1. Các chỉ số đánh giá tầm ảnh hưởng

Các chỉ số như impact factor và h-index là những công cụ quan trọng trong việc đánh giá tầm ảnh hưởng của bài báo. Impact factor đo lường số lần trích dẫn trung bình của các bài báo trong một tạp chí nhất định, trong khi h-index phản ánh số lượng bài báo có số trích dẫn lớn hơn hoặc bằng h. Những chỉ số này giúp các nhà nghiên cứu và tổ chức đánh giá hiệu quả nghiên cứu và quyết định đầu tư cho các dự án nghiên cứu trong tương lai. Việc hiểu rõ về các chỉ số này cũng giúp các nhà nghiên cứu định hướng công việc của mình để đạt được tầm ảnh hưởng cao hơn trong cộng đồng khoa học.

III. Ứng dụng thực tiễn của việc phân tích mạng trích dẫn

Việc phân tích mạng trích dẫn không chỉ có giá trị trong nghiên cứu học thuật mà còn có ứng dụng thực tiễn trong các lĩnh vực khác nhau. Các tổ chức nghiên cứu và doanh nghiệp có thể sử dụng thông tin từ mạng trích dẫn để xác định các xu hướng nghiên cứu, phát triển sản phẩm mới, và tối ưu hóa chiến lược tiếp thị. Hệ thống Citation Network Explorer (CNE) được phát triển trong nghiên cứu này là một ví dụ điển hình cho việc ứng dụng công nghệ để phân tích mạng trích dẫn. Hệ thống này cho phép người dùng tìm kiếm và đánh giá tầm ảnh hưởng của các bài báo một cách hiệu quả, từ đó hỗ trợ quyết định trong nghiên cứu và phát triển.

3.1. Hệ thống Citation Network Explorer

Hệ thống Citation Network Explorer (CNE) được xây dựng nhằm mục đích phân tích và tìm kiếm tầm ảnh hưởng của bài báo trong mạng trích dẫn. Hệ thống này sử dụng các công nghệ hiện đại như Big Data và Graph Databases để tổ chức và xử lý dữ liệu. CNE cho phép người dùng thực hiện các chức năng như tìm kiếm bài báo có tầm ảnh hưởng lớn nhất, xác định độ lan tỏa của bài báo theo thời gian, và biểu diễn trực quan mạng trích dẫn. Việc ứng dụng CNE không chỉ giúp nâng cao hiệu quả nghiên cứu mà còn tạo ra giá trị thực tiễn cho cộng đồng khoa học.

01/02/2025

Bạn đang xem trước tài liệu:

Tiểu luận tìm tầm ảnh hưởng của bài báo khoa học trong mạng trích dẫn

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong thời đại bùng nổ thông tin hiện nay, dữ liệu được tạo ra với tốc độ và khối lượng khổng lồ, đặc biệt là trong lĩnh vực khoa học và công nghệ. Ví dụ, trên mạng xã hội Facebook, cứ mỗi 60 giây có khoảng 510.000 nhận xét được đăng, 293.000 trạng thái được cập nhật và 136.000 ảnh được tải lên. Trước thực trạng này, việc khai thác và phân tích các mạng trích dẫn bài báo khoa học trở nên cấp thiết nhằm đánh giá tầm ảnh hưởng của các công trình nghiên cứu. Mục tiêu của luận văn là xây dựng hệ thống Citation Network Explorer (CNE) để tìm tầm ảnh hưởng của bài báo khoa học trong mạng trích dẫn, sử dụng các kỹ thuật Big Data và cơ sở dữ liệu đồ thị. Nghiên cứu tập trung vào việc thu thập, tổ chức và phân tích mạng trích dẫn bài báo khoa học trong phạm vi dữ liệu thu thập được tại Việt Nam và trên thế giới, trong khoảng thời gian gần đây. Ý nghĩa của nghiên cứu được thể hiện qua việc giúp các nhà nghiên cứu, tổ chức khoa học và doanh nghiệp khai thác hiệu quả nguồn dữ liệu lớn, từ đó nâng cao chất lượng đánh giá và phát triển khoa học công nghệ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết mạng trích dẫn và lý thuyết Big Data. Mạng trích dẫn được hiểu là một đồ thị có hướng, trong đó mỗi đỉnh đại diện cho một bài báo khoa học, mỗi cạnh biểu thị quan hệ trích dẫn giữa các bài báo. Tầm ảnh hưởng của bài báo được đo bằng các chỉ số như số lượng trích dẫn trực tiếp, độ sâu trích dẫn gián tiếp và thuật toán PageRank, vốn được Google sử dụng để đánh giá mức độ quan trọng của các trang web. Thuật toán PageRank không chỉ đếm số lượng trích dẫn mà còn đánh giá chất lượng của các trích dẫn dựa trên giá trị PageRank của các bài báo trích dẫn. Ngoài ra, cơ sở dữ liệu đồ thị OrientDB được sử dụng để lưu trữ và truy vấn mạng trích dẫn do khả năng phân mảnh (sharding) và nhân bản đa master, phù hợp với xử lý dữ liệu lớn. Apache Spark với thành phần GraphX được áp dụng để phân tích mạng trích dẫn trên nền tảng Big Data, giúp xử lý hiệu quả các đồ thị có kích thước lớn. Các khái niệm chính bao gồm: mạng trích dẫn, tầm ảnh hưởng bài báo, cơ sở dữ liệu đồ thị, Big Data, thuật toán PageRank.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bài báo khoa học và mạng trích dẫn được thu thập, tổ chức dưới dạng cơ sở dữ liệu đồ thị trong OrientDB. Cỡ mẫu dữ liệu bao gồm hàng nghìn bài báo và các mối quan hệ trích dẫn giữa chúng. Phương pháp chọn mẫu là thu thập dữ liệu thực tế từ các cơ sở dữ liệu khoa học và chuyển đổi thành định dạng đồ thị. Phân tích dữ liệu được thực hiện bằng cách chuyển đổi dữ liệu từ OrientDB sang GraphX trên Apache Spark để áp dụng các thuật toán tính toán tầm ảnh hưởng như PageRank, tìm thành phần liên thông và xác định độ lan tỏa theo thời gian. Timeline nghiên cứu kéo dài từ tháng 3 đến tháng 8 năm 2017, bao gồm các bước: cài đặt môi trường (OrientDB, Scala, Apache Spark), thu thập và tiền xử lý dữ liệu, thiết kế và triển khai hệ thống CNE, thực nghiệm và đánh giá kết quả. Phương pháp nghiên cứu còn bao gồm so sánh hiệu quả giữa các hệ quản trị cơ sở dữ liệu đồ thị và các thuật toán phân tích mạng trích dẫn để lựa chọn giải pháp tối ưu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả lưu trữ và truy vấn mạng trích dẫn bằng OrientDB: OrientDB cho phép lưu trữ và truy vấn mạng trích dẫn với tốc độ xử lý lên đến 120.000 bản ghi trên giây trên cấu hình máy tính tiêu chuẩn. So với Neo4j, OrientDB có ưu thế về khả năng phân mảnh và nhân bản đa master, giúp xử lý dữ liệu lớn hiệu quả hơn.
Tính toán tầm ảnh hưởng bài báo bằng thuật toán PageRank trên GraphX: Thuật toán PageRank được triển khai trên Apache Spark GraphX cho phép tính toán tầm ảnh hưởng của các bài báo trong mạng trích dẫn với thời gian xử lý giảm đáng kể so với các phương pháp truyền thống. Ví dụ, thời gian xử lý PageRank trên đồ thị với hàng nghìn đỉnh được rút ngắn xuống còn vài giây.
Xác định bài báo có tầm ảnh hưởng lớn nhất và độ lan tỏa theo thời gian: Hệ thống CNE có thể xác định bài báo có tầm ảnh hưởng cao nhất dựa trên giá trị PageRank và số lượng trích dẫn trực tiếp, gián tiếp. Độ lan tỏa của bài báo được biểu diễn qua đồ thị thời gian, cho thấy sự phát triển nhanh chóng của một số bài báo chủ chốt trong mạng trích dẫn.
Biểu diễn trực quan mạng trích dẫn: Sử dụng thư viện VisJs, hệ thống cung cấp biểu diễn trực quan giúp người dùng dễ dàng quan sát cấu trúc mạng trích dẫn, các thành phần liên thông và sự lan tỏa của bài báo theo thời gian. Thời gian xử lý chức năng biểu diễn đồ thị trên các đồ thị có kích thước khác nhau dao động từ vài giây đến vài chục giây.

Thảo luận kết quả

Nguyên nhân của hiệu quả trên đến từ việc kết hợp linh hoạt giữa cơ sở dữ liệu đồ thị OrientDB và nền tảng xử lý Big Data Apache Spark. OrientDB với khả năng phân mảnh và nhân bản đa master giúp lưu trữ dữ liệu lớn và truy vấn nhanh, trong khi Apache Spark tận dụng tính toán phân tán để xử lý thuật toán PageRank và các phép toán đồ thị phức tạp. So với các nghiên cứu trước đây chỉ tập trung vào phân tích mạng trích dẫn trên các hệ thống đơn lẻ hoặc quy mô nhỏ, nghiên cứu này mở rộng quy mô và tăng tốc độ xử lý đáng kể. Kết quả cho thấy việc ứng dụng Big Data và cơ sở dữ liệu đồ thị là hướng đi phù hợp để khai thác mạng trích dẫn bài báo khoa học trong bối cảnh dữ liệu ngày càng lớn và phức tạp. Dữ liệu có thể được trình bày qua các biểu đồ thời gian xử lý, bảng xếp hạng bài báo theo PageRank và đồ thị trực quan mạng trích dẫn, giúp minh họa rõ ràng các phát hiện.

Đề xuất và khuyến nghị

Mở rộng quy mô dữ liệu và nâng cấp hạ tầng xử lý: Đề xuất đầu tư thêm máy chủ để xây dựng cụm Apache Spark cluster quy mô lớn hơn nhằm xử lý mạng trích dẫn với hàng triệu bài báo, nâng cao độ chính xác và khả năng phân tích sâu hơn. Thời gian thực hiện dự kiến 12-18 tháng, chủ thể thực hiện là các viện nghiên cứu và doanh nghiệp công nghệ.
Phát triển thêm các thuật toán phân tích nâng cao: Khuyến nghị nghiên cứu và tích hợp các thuật toán mới như phân tích cộng đồng, phát hiện xu hướng nghiên cứu, dự báo tầm ảnh hưởng bài báo trong tương lai nhằm tăng giá trị khai thác dữ liệu. Thời gian thực hiện 6-12 tháng, do nhóm nghiên cứu và phát triển phần mềm đảm nhiệm.
Tăng cường giao diện người dùng và trực quan hóa dữ liệu: Cải tiến giao diện hệ thống CNE để người dùng dễ dàng tương tác, tùy chỉnh phân tích và trực quan hóa mạng trích dẫn theo nhiều chiều khác nhau, hỗ trợ ra quyết định nhanh chóng. Thời gian thực hiện 3-6 tháng, do đội ngũ phát triển phần mềm thực hiện.
Đào tạo và phổ biến ứng dụng trong cộng đồng nghiên cứu và doanh nghiệp: Tổ chức các khóa đào tạo, hội thảo để nâng cao nhận thức và kỹ năng khai thác Big Data và cơ sở dữ liệu đồ thị trong nghiên cứu khoa học và kinh doanh. Chủ thể thực hiện là các trường đại học, viện nghiên cứu và các tổ chức đào tạo, thời gian liên tục trong 1-2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học viên cao học ngành Công nghệ Thông tin: Luận văn cung cấp kiến thức chuyên sâu về Big Data, cơ sở dữ liệu đồ thị và phân tích mạng trích dẫn, hỗ trợ phát triển đề tài nghiên cứu và luận văn.
Chuyên gia phân tích dữ liệu và kỹ sư phần mềm: Tài liệu chi tiết về triển khai hệ thống xử lý dữ liệu lớn, ứng dụng OrientDB và Apache Spark giúp nâng cao kỹ năng thực tiễn trong lĩnh vực Big Data và phân tích đồ thị.
Quản lý và nhà hoạch định chính sách trong lĩnh vực khoa học công nghệ: Thông tin về tầm quan trọng của mạng trích dẫn và các công cụ đánh giá tầm ảnh hưởng bài báo hỗ trợ ra quyết định về đầu tư, tài trợ nghiên cứu.
Doanh nghiệp công nghệ và các tổ chức nghiên cứu: Hướng dẫn xây dựng hệ thống khai thác dữ liệu khoa học lớn, giúp doanh nghiệp tận dụng nguồn dữ liệu sẵn có để nâng cao năng lực cạnh tranh và đổi mới sáng tạo.

Câu hỏi thường gặp

Tại sao chọn OrientDB thay vì Neo4j cho lưu trữ mạng trích dẫn?
OrientDB hỗ trợ phân mảnh dữ liệu (sharding) và nhân bản đa master, giúp lưu trữ và xử lý dữ liệu lớn hiệu quả hơn Neo4j, vốn chỉ nhân bản master-slave và không hỗ trợ phân mảnh. Điều này rất quan trọng khi làm việc với Big Data.
Thuật toán PageRank được áp dụng như thế nào trong nghiên cứu này?
PageRank được sử dụng để đánh giá tầm ảnh hưởng của bài báo dựa trên số lượng và chất lượng các trích dẫn đến bài báo đó. Thuật toán được triển khai trên nền tảng Apache Spark GraphX để xử lý mạng trích dẫn lớn một cách nhanh chóng.
Hệ thống Citation Network Explorer có thể xử lý dữ liệu lớn đến mức nào?
Trong nghiên cứu, hệ thống được thử nghiệm trên mạng trích dẫn với hàng nghìn đỉnh và cạnh, thời gian xử lý các chức năng chính chỉ trong vài giây đến vài chục giây. Với mở rộng cụm máy tính, có thể xử lý quy mô lớn hơn nhiều.
Làm thế nào để biểu diễn trực quan mạng trích dẫn?
Hệ thống sử dụng thư viện VisJs để biểu diễn trực quan mạng trích dẫn dưới dạng đồ thị tương tác, giúp người dùng quan sát các mối quan hệ, thành phần liên thông và sự lan tỏa của bài báo theo thời gian.
Ứng dụng thực tiễn của nghiên cứu này là gì?
Nghiên cứu giúp các nhà khoa học, tổ chức nghiên cứu và doanh nghiệp đánh giá chính xác tầm ảnh hưởng của các công trình khoa học, từ đó hỗ trợ quyết định tài trợ, hợp tác nghiên cứu và phát triển sản phẩm dựa trên dữ liệu khoa học lớn.

Kết luận

Luận văn đã xây dựng thành công hệ thống Citation Network Explorer (CNE) ứng dụng Big Data và cơ sở dữ liệu đồ thị để phân tích mạng trích dẫn bài báo khoa học.
OrientDB và Apache Spark GraphX được kết hợp hiệu quả để lưu trữ, truy vấn và tính toán tầm ảnh hưởng bài báo với tốc độ xử lý cao.
Thuật toán PageRank được áp dụng thành công để đánh giá tầm ảnh hưởng, đồng thời hệ thống cung cấp biểu diễn trực quan mạng trích dẫn giúp người dùng dễ dàng khai thác thông tin.
Kết quả thực nghiệm cho thấy hệ thống có khả năng mở rộng và ứng dụng trong thực tế với dữ liệu lớn.
Đề xuất mở rộng quy mô dữ liệu, phát triển thuật toán nâng cao và tăng cường giao diện người dùng là các bước tiếp theo nhằm nâng cao giá trị nghiên cứu và ứng dụng.

Hành động tiếp theo là triển khai mở rộng hệ thống trên cụm máy tính lớn hơn và tổ chức đào tạo để phổ biến ứng dụng trong cộng đồng nghiên cứu và doanh nghiệp. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm dựa trên nền tảng này để góp phần thúc đẩy sự phát triển khoa học công nghệ trong nước.

Trích đoạn nội dung tài liệu

Đặt vấn đề và lý do chọn đề tài Chúng ta đang ở trong thời đại bùng nổ thông tin. Dữ liệu đang gia tăng rất lớn trong các lĩnh vực khác nhau. Đơn cử về Facebook, cứ 60 giây thì có 510.000 nhận xét được đăng, 293.000 trạng thái được cập nhật và 136.000 ảnh được tải lên (zephoria. Dưới sự gia tăng bùng nổ của dữ liệu toàn cầu, thuật ngữ Big Data được sử dụng chủ yếu để mô tả tập hợp dữ liệu có kích thước rất lớn, khả năng phát triển nhanh, không thể thu thập, quản lý và xử lý bởi các công cụ phần mềm/phần cứng truyền thống.

So với các tập dữ liệu truyền thống, Big Data thường bao gồm các khối dữ liệu phi cấu trúc1 cần phân tích tức thời. Big Data mang lại những cơ hội để khám phá những giá trị mới, giúp chúng ta hiểu biết sâu sắc về các giá trị tiềm ẩn của dữ liệu và cũng phải gánh chịu những thách thức mới. Ví dụ, làm thế nào để tổ chức, quản lý và xử lý Big Data hiệu quả. Big Data là một lĩnh vực mới, đang phát triển và đầy tiềm năng.

Theo báo cáo mới nhất của tổ chức MarketsandMarkets, thị trường Big Data dự kiến sẽ tăng từ 28,65 tỷ USD trong năm 2016 lên 66,79 tỷ USD vào năm 2021, với tốc độ tăng trưởng hàng năm (Compound Annual Growth Rate - CAGR) là 18,45% (marketsandmarkets. Mặt khác, sự phát triển nhanh chóng của Internet, mạng xã hội, báo điện tử… làm cho mối liên hệ giữa các thực thể dữ liệu trở nên phức tạp đến nổi không thể tổ chức hiệu quả trên các hệ cơ sở dữ liệu quan hệ (RDBMS) phổ biến hiện tại. Ví dụ, mối quan hệ bạn bè trên mạng xã hội Facebook, như trong Hình 1.1, rất phức tạp và không thể tổ chức 1 Có thể chia dữ liệu thành 3 loại: 1. Có cấu trúc: như cơ sở dữ liệu quan hệ.

Bán cấu trúc: như tài liệu XML, JSON. Phi cấu trúc: như file văn bản, hình ảnh, âm thanh, video, … Tieu luan -2- hiệu quả trên các hệ cơ sở dữ liệu quan hệ. Để giải quyết thách thức của việc tổ chức, lưu trữ và truy vấn những dữ liệu như vậy nhiều hệ quản trị cơ sở dữ liệu NoSql (Not only Sql) ra đời (Eric Redmond, Jim R. Các hệ quản trị cơ sở dữ liệu NoSql được chia thành 4 loại: 1.

Key-Value Stores. Ví dụ: Amazon DynamoDB, Voldemort, Tokyo. Ví dụ: Bigtable, Hbase, Cassandra. Ví dụ: CouchDB, MongoDB.

Ví dụ: Neo4J, OrientDB.1 – Mối quan hệ bạn bè trên mạng xã hội Facebook. (Nguồn: http://mathematica.com/) Trong đó, loại Graph Databases – cơ sở dữ liệu đồ thị, chuyên dùng để tổ chức, lưu trữ và truy vấn dữ liệu có dạng đồ thị, có tốc độ phổ biến nhanh nhất. Theo thống kê Tieu luan -3- của DB-Engines, đến tháng 01/2015, cơ sở dữ liệu quan hệ không tăng, các loại cơ sở dữ liệu NoSql đều tăng, đặc biệt cơ sở dữ liệu đồ thị đã gia tăng độ phổ biến hơn 5 lần kể từ tháng 01/2013 như trong Hình 1.2 – Sự phát triển của các loại cơ sở dữ liệu từ tháng 01/2013 – 05/2015 (Nguồn: http://db-engines.com/en/blog_post//43) Các mối quan hệ phức tạp giữa các thực thể dữ liệu, như quan hệ bạn bè trên Facebook, trước kia không thể xử lý hiệu quả trên loại cơ sở dữ liệu quan hệ thì nay tổ chức dễ dàng và xử lý hiệu quả trên loại cơ sở dữ liệu đồ thị như Neo4J hoặc OrientDB.1 so sánh hiệu quả khi tìm kiếm bạn bè giữa RDBMS, hệ quản trị cơ sở dữ liệu quan hệ, và Neo4J. Depth2 có nghĩa là tìm bạn của bạn, Depth3 có nghĩa là tìm bạn của bạn của bạn… Trong các trường hợp, thời gian thực thi của Neo4J đều nhanh hơn RDBMS.

Đặc biệt, khi Depth = 5 thì RDBMS không thể hoàn thành trong khi Neo4J cho kết quả rất ấn tượng chỉ 2,132 giây! Có thể nói, Big Data và Graph Databases là hai nội dung nghiên cứu mới, hấp dẫn và đầy tiềm năng. Tuy nhiên, qua thông tin trên Internet, tại Việt Nam việc ứng dụng và khai thác Big Data cũng như Graph Databases còn còn khá mới mẻ và chưa đúng với tiềm năng và tầm quan trọng của nó. Nhiều doanh nghiệp Việt Nam đang nắm trong tay Tieu luan -4- nguồn Big Data nhưng chưa biết cách khai thác đúng mức. Vì vậy chọn một đề tài để có thể nghiên cứu và ứng dụng được cả hai kỹ thuật trên là điều cấp thiết.

Đó là lý do tôi chọn đề tài “TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẪN”2. Với đề tài này tôi có thể:  Dùng kỹ thuật Graph Databases để tổ chức, lưu trữ và truy vấn mạng trích dẫn do bản chất của mạng trích dẫn là một đồ thị.  Dùng kỹ thuật Big Data để phân tích và xử lý mạng trích dẫn do mạng trích dẫn thực nghiệm trong đề tài này khá lớn.1 – So sánh hiệu quả khi tìm kiếm bạn bè trong RDBMS và Neo4J (Nguồn: http://bitnine.net/rdbms-vs-graph-db/?ckattempt=1) RDBMS Neo4J Depth Records returned execution time(s) execution time(s) 2 0. Mục tiêu của đề tài 1.

Mục tiêu tổng quát Mục tiêu tổng quát của đề tài là nghiên cứu, ứng dụng Big Data và cơ sở dữ liệu đồ thị để bắt kịp xu hướng của thế giới trong việc khai thác, ứng dụng chúng trong thực tiễn. 2 Những khái niệm liên quan đến đề tài như: mạng trích dẫn, tầm ảnh hưởng. sẽ được trình bày chi tiết ở Chương 2. Mục tiêu cụ thể Mục tiêu cụ thể của đề tài là xây dựng hệ thống Citation Network Explorer (CNE) để tìm tầm ảnh hưởng của bài báo khoa học trong mạng trích dẫn.

Cụ thể, hệ thống CNE bao gồm các chức năng sau: 1. Tải cơ sở dữ liệu đồ thị vào hệ thống xử lý Big Data. Biểu diễn trực quan đồ thị. Tính PageRank cho các đỉnh trên đồ thị.

Tìm tầm ảnh hưởng của một bài báo. Tìm bài báo có tầm ảnh hưởng nhiều nhất. Tìm thành phần liên thông chứa một bài báo. Xác định độ lan tỏa của một bài báo theo thời gian.

Nội dung nghiên cứu Để thực hiện đề tài, những nghiên cứu sau đây cần được thực hiện: 1. Nghiên cứu cách thu thập dữ liệu bài báo khoa học và xây dựng mạng trích dẫn. Nghiên cứu về mạng trích dẫn và các thuật toán xác định tầm ảnh hưởng của bài báo trong mạng trích dẫn. Nghiên cứu về cơ sở dữ liệu đồ thị, OrientDB và các nền tảng biểu diễn trực quan đồ thị.

Nghiên cứu về Big Data, Apache Spark, GraphX, ngôn ngữ lập trình Scala. Xây dựng hệ thống Citation Network Explorer để khai thác mạng trích dẫn các bài báo khoa học. Nghiên cứu cách triển khai hệ thống trên Apache Spark Cluster gồm nhiều máy tính. Các phương pháp nghiên cứu 1.

Phương pháp tổng luận Nghiên cứu tổng luận về Big Data, cơ sở dữ liệu đồ thị, Scala. Nghiên cứu này giúp tìm hiểu những gì trên thế giới đã thực hiện, chưa thực hiện và các vấn đề mở có liên quan đến những nội dung trên. Phương pháp so sánh Để thực hiện dự án cần phải chọn lựa hệ quản trị cơ sở dữ liệu đồ thị, ngôn ngữ lập trình, hệ điều hành, … Do đó cần phải tiến hành so sánh các hệ quản trị cơ sở dữ liệu đồ thị, các ngôn ngữ lập trình, các hệ điều hành phù hợp với đề tài. Phương pháp nghiên cứu tính khả thi Trước khi thực hiện đề tài cần phải nghiên cứu tính khả thi của đề tài về: công nghệ, kinh tế, pháp lý, tiến độ công việc, … Qua nghiên cứu lý thuyết sơ bộ và thực hiện các thực nghiệm cơ bản thì đề tài này hoàn toàn khả thi.

Phương pháp nghiên cứu mô phỏng Để xử lý Big Data thực sự cần phải có Server Cluster đủ mạnh gồm nhiều server có cấu hình cao. Do điều kiện trang thiết bị hạn chế nên đề tài này chỉ thực hiện trên ba máy tính thông thường. Điều này có ảnh hưởng đến tốc độ xử lý cũng như qui mô dữ liệu được xử lý nhưng không làm thay đổi bản chất của bài toán. Phương pháp phân tích và thiết kế thuật toán Do yêu cầu của đề tài gồm những nội dung như: 1.

Tổ chức dữ liệu thô thành cơ sở dữ liệu đồ thị. Tìm tầm ảnh hưởng của một bài báo. Tìm bài báo có tầm ảnh hưởng nhiều nhất. Xác định độ lan tỏa của một bài báo theo thời gian.

Biểu diễn trực quan đồ thị… Tieu luan -7- Để giải quyết mỗi yêu cầu tôi cần phải phân tích, áp dụng thuật toán phù hợp cũng như thiết kế các thuật toán mới. Ví dụ: hiện có nhiều phương pháp xác định tầm ảnh hưởng của một bài báo, do đó cần phải phân tích các phương pháp cũng như thuật toán xác định tầm ảnh hưởng để chọn lựa phương pháp phù hợp nhất để có thể cải tiến và áp dụng nó. Đóng góp của đề tài Big Data và cơ sở dữ liệu đồ thị là hai nội dung nghiên cứu mới và nhiều tiềm năng. Chính vì vậy đề tài này tập trung nghiên cứu về Big Data và cơ sở dữ liệu đồ thị với mong muốn đóng góp một phần công sức của mình vào sự phát triển khoa học kỹ thuật của Việt Nam.

Cụ thể đề tài này triển khai những kỹ thuật mới như sau:  Sử dụng cơ sở dữ liệu đồ thị, cụ thể là OrientDB, để tổ chức, lưu trữ mạng trích dẫn các bài báo khoa học.  Dùng nền tảng Apache Spark để khai thác Big Data, cụ thể là sử dụng GraphX để phân tích mạng trích dẫn.  Dùng ngôn ngữ lập trình Scala kết hợp với Play Framework để xây dựng hệ thống.  Dùng thư viện VisJs để biểu diễn trực quan mạng trích dẫn.

Các công cụ và công trình nghiên cứu tiêu biểu có liên quan đến đề tài 1. Các công cụ phân tích mạng trích dẫn 1. CitNetExplorer CitNetExplorer là một công cụ dùng để biểu diễn trực quan và phân tích mạng trích dẫn các ấn phẩm khoa học của Leiden University, Hà Lan. Công cụ này cho phép nhập trực tiếp các mạng trích dẫn từ website cơ sở dữ liệu khoa học.

Mạng trích dẫn có thể được khám phá theo cách tương tác, ví dụ bằng cách khai thác mạng chuyên sâu và Tieu luan -8- bằng cách xác định các nhóm các ấn phẩm có liên quan chặt chẽ. VOSviewer VOSviewer là một công cụ dùng để xây dựng và biểu diễn trực quan mạng đánh giá ấn phẩm khoa học (bibliometric networks) của Leiden University, Hà Lan. Các mạng này có thể bao gồm các tạp chí, các nhà nghiên cứu, hoặc các ấn phẩm riêng biệt; và chúng được xây dựng dựa trên quan hệ đồng trích dẫn, đồng tác giả.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài báo khoa học có tầm ảnh hưởng lớn trong mạng trích dẫn, đóng vai trò quan trọng trong việc xác định giá trị và độ tin cậy của nghiên cứu. Bài viết này phân tích cách mà các bài báo được trích dẫn, từ đó giúp người đọc hiểu rõ hơn về quy trình đánh giá và công nhận trong cộng đồng khoa học. Đặc biệt, nó nhấn mạnh lợi ích của việc công bố nghiên cứu, không chỉ cho tác giả mà còn cho toàn bộ lĩnh vực khoa học, khi mà các trích dẫn có thể dẫn đến sự phát triển và cải tiến trong nghiên cứu tiếp theo.

Nếu bạn muốn tìm hiểu thêm về các nghiên cứu liên quan, hãy tham khảo Luận văn thạc sĩ hcmute nghiên cứu công nghệ và thiết bị để trích ly dầu từ quả bơ, nơi bạn có thể khám phá ứng dụng công nghệ trong nghiên cứu. Ngoài ra, bài viết **<a href="https://vn-document.net/document/nghien-cuu-chiet-tach-thanh-phan-hoa-hoc-cay-xa-den/394556567

#Bài báo khoa học