Đại học Quốc gia Hà Nội - Đào tạo Thạc sĩ Kỹ thuật và Dữ liệu

Trường đại học

Đại học Quốc gia Hà Nội

Người đăng

Ẩn danh

Thể loại

thesis

2018

193
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan Chương trình Thạc sĩ Kỹ thuật Dữ liệu VNU

Chương trình Thạc sĩ Kỹ thuậtThạc sĩ Dữ liệu tại Đại học Quốc gia Hà Nội (VNU) đang thu hút sự quan tâm lớn. Sự gia tăng về khối lượng và chủng loại dữ liệu đặt ra thách thức lớn cho các kỹ thuật xử lý và phân tích hiện có. Học máykhai phá dữ liệu cung cấp công cụ giúp giải quyết vấn đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích lượng lớn dữ liệu. Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫn đến kết quả thấp hoặc không chính xác do dữ liệu dư thừa, không liên quan hoặc nhiễu. Rút gọn đặc trưng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm giải quyết các vấn đề nêu trên. Trong đó, lựa chọn đặc trưng có thể chọn ra một nhóm con các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ các đặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút ra các đặc trưng mới bằng một phép chuyển đổi.

1.1. Giới thiệu chung về chương trình đào tạo Thạc sĩ tại VNU

Chương trình đào tạo Thạc sĩ tại VNU được thiết kế để cung cấp kiến thức chuyên sâu và kỹ năng thực hành trong lĩnh vực Kỹ thuậtDữ liệu. Chương trình chú trọng vào việc trang bị cho học viên khả năng giải quyết các vấn đề thực tế trong công việc, cũng như khả năng nghiên cứu và phát triển các công nghệ mới. Chương trình cũng tạo điều kiện cho học viên tham gia vào các dự án nghiên cứu khoa họchợp tác quốc tế.

1.2. Tầm quan trọng của Kỹ thuật và Dữ liệu trong kỷ nguyên số

Trong kỷ nguyên số, Kỹ thuậtDữ liệu đóng vai trò then chốt trong sự phát triển của mọi ngành nghề. Khả năng thu thập, xử lý và phân tích dữ liệu giúp các tổ chức đưa ra quyết định chính xác hơn, tối ưu hóa hoạt động và tạo ra các sản phẩm, dịch vụ mới. Do đó, nhu cầu về nguồn nhân lực chất lượng cao trong lĩnh vực này ngày càng tăng cao. Chương trình Thạc sĩ Kỹ thuậtThạc sĩ Dữ liệu tại VNU đáp ứng nhu cầu này bằng cách cung cấp cho học viên kiến thức và kỹ năng cần thiết để thành công trong thị trường lao động.

II. Thách thức Xử lý dữ liệu lớn trong đào tạo Thạc sĩ

Rút gọn đặc trưng tạo điều kiện cho các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất mà vẫn giữ nguyên hoặc nâng cao được hiệu quả. Nhiều kỹ thuật rút gọn đặc trưng đã được cộng đồng nghiên cứu trên thế giới công bố. Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ liệu của Google scholar(https://scholar.google.com.vn/) thì có khoảng 500 tài liệu liên quan tới chủ đề lựa chọn đặc trưng (tìm kiếm từ khóa “Feature Selection”), và có tới 159.000 tài liệu liên quan tới chủ đề trích xuất đặc trưng(tìm kiếm từ khóa “Feature Extraction”). Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang ScienceDirect thì chủ đề lựa chọn đặc trưng có trên 11.980 bài báo liên quan.

2.1. Vấn đề hiệu suất và độ chính xác khi phân tích dữ liệu lớn

Việc xử lý dữ liệu lớn đòi hỏi nguồn lực tính toán đáng kể và có thể dẫn đến thời gian xử lý kéo dài. Hơn nữa, dữ liệu lớn thường chứa nhiều thông tin nhiễu và không liên quan, có thể làm giảm độ chính xác của các mô hình phân tích. Do đó, việc áp dụng các kỹ thuật rút gọn đặc trưng là cần thiết để cải thiện hiệu suất và độ chính xác của quá trình phân tích dữ liệu.

2.2. Yêu cầu về kiến thức và kỹ năng chuyên sâu cho học viên

Để có thể xử lý hiệu quả dữ liệu lớn, học viên cần được trang bị kiến thức và kỹ năng chuyên sâu về các kỹ thuật khai phá dữ liệu, học máy, và rút gọn đặc trưng. Chương trình Thạc sĩ Kỹ thuậtThạc sĩ Dữ liệu tại VNU cần đảm bảo cung cấp cho học viên nền tảng kiến thức vững chắc và cơ hội thực hành để phát triển các kỹ năng này.

III. Cách tiếp cận Lựa chọn đặc trưng tối ưu cho Thạc sĩ

Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệu năng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặc trích xuất đặc trưng. Điển hình như luận án của Hall [34]đề xuất phương pháp lựa chọn đặc trưng dựa trên tương quan cho học máy; Diao và cộng sự[23] sử dụng tìm kiếm hài hòa (Harmony Search) cho việc xây dựng phương pháp lựa chọn đặc trưng. Osiris Villalampa[91] nghiên cứu phương pháp lựa chọn đặc trưng và phân lớp cho việc ra quyết định của công ty; Nziğa [69] sử dụng phương pháp trích xuất đặc trưng PCA thưa cho dòng dữ liệu. Veronica Bolón-Canedo cùng cộng sự [90] giới thiệu về dữ liệu có số thuộc tính lớn và các phương pháp lựa chọn đặc trưng cho dữ liệu tin sinh.

3.1. Phương pháp lựa chọn đặc trưng dựa trên tương quan

Phương pháp này tập trung vào việc xác định các đặc trưng có mối tương quan cao với biến mục tiêu và loại bỏ các đặc trưng dư thừa hoặc không liên quan. Điều này giúp giảm số lượng đặc trưng cần xử lý và cải thiện hiệu suất của các mô hình phân tích. Phương pháp này có thể được áp dụng trong nhiều lĩnh vực khác nhau, bao gồm tài chính, y tế, và marketing.

3.2. Ứng dụng tìm kiếm hài hòa trong lựa chọn đặc trưng

Tìm kiếm hài hòa là một thuật toán tối ưu hóa metaheuristic được lấy cảm hứng từ quá trình tạo ra âm nhạc. Trong lĩnh vực lựa chọn đặc trưng, thuật toán này có thể được sử dụng để tìm kiếm tập con đặc trưng tối ưu bằng cách khám phá không gian tìm kiếm một cách hiệu quả. Phương pháp này đặc biệt hữu ích khi không gian tìm kiếm là lớn và phức tạp.

IV. Giải pháp Trích xuất đặc trưng hiệu quả trong Kỹ thuật

Basant Agarwal và Namita Mittal[5] nghiên cứu trích xuất đặc trưng nổi bật trong việc phân tích quan điểm. Urszula và Lakshmi [83] giới thiệu xu hướng nghiên cứu về lựa chọn đặc trưng trong nhận dạng mẫu. Liang cùng cộng sự [56] nghiên cứu về rút gọn đặc trưng cho bài toán học đa nhãn.Florian Eyben [26] trích xuất không gian đặc trưng nhằm phân lớp dữ liệu âm thanh trực tuyến. Mark Nixon[68] sử dụng các kỹ thuật trích xuất đặc trưng trong việc xử lý ảnh. Tuy nhiên, các phương pháp rút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tương ứng.

4.1. Kỹ thuật trích xuất đặc trưng PCA cho dữ liệu

PCA là một kỹ thuật giảm chiều dữ liệu phổ biến được sử dụng để trích xuất các đặc trưng quan trọng nhất từ dữ liệu. Kỹ thuật này hoạt động bằng cách tìm kiếm các thành phần chính của dữ liệu, là các hướng mà dữ liệu có phương sai lớn nhất. Các thành phần chính này có thể được sử dụng để biểu diễn dữ liệu một cách hiệu quả hơn, giảm số lượng đặc trưng cần xử lý và cải thiện hiệu suất của các mô hình phân tích.

4.2. Ứng dụng trích xuất đặc trưng trong xử lý ảnh và âm thanh

Trích xuất đặc trưng đóng vai trò quan trọng trong các ứng dụng xử lý ảnh và âm thanh. Trong xử lý ảnh, các đặc trưng như đường viền, góc, và kết cấu có thể được trích xuất để nhận dạng đối tượng và phân tích hình ảnh. Trong xử lý âm thanh, các đặc trưng như tần số, biên độ, và pha có thể được trích xuất để nhận dạng giọng nói và phân tích âm thanh.

V. Ứng dụng Rút gọn đặc trưng trong bài toán thực tế

Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình khoa học liên quan tới học máy và khai phá dữ liệu. Tuy nhiên, hướng nghiên cứu về rút gọn đặc trưng chưa được quan tâm nhiều. Cụ thể, việc tìm kiếm từ khóa “lựa chọn đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên Google Scholar2 cho kết quả chỉ khoảng vài chục tài liệu. Tài liệu liên quan tới lựa chọn đặc trưng, trích xuất đặc trưng là kết quả nghiên cứu của một số trường đại học. Gần đây có một số luận án liên quan tới chủ đề rút gọn thuộc tính như: trong năm 2015, Hà Đại Dương [2] nghiên cứu một số phương pháp trích chọn đặc trưng nhằm phát hiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện việc rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hướng tiếp cận tập thô; Nguyễn Thị Lan Hương [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết định động theo hướng tiếp cận tập thô.

5.1. Ứng dụng trong bài toán cho điểm tín dụng

Rút gọn đặc trưng có thể được sử dụng để cải thiện hiệu suất và độ chính xác của các mô hình cho điểm tín dụng. Bằng cách loại bỏ các đặc trưng không liên quan hoặc dư thừa, các mô hình này có thể tập trung vào các yếu tố quan trọng nhất để đánh giá rủi ro tín dụng. Điều này giúp các tổ chức tài chính đưa ra quyết định cho vay chính xác hơn và giảm thiểu rủi ro.

5.2. Ứng dụng trong phân tích dữ liệu ung thư

Trong lĩnh vực y tế, rút gọn đặc trưng có thể được sử dụng để phân tích dữ liệu ung thư và xác định các yếu tố nguy cơ quan trọng. Bằng cách trích xuất các đặc trưng liên quan đến gen, protein, và các yếu tố môi trường, các nhà nghiên cứu có thể hiểu rõ hơn về cơ chế phát triển của ung thư và phát triển các phương pháp điều trị hiệu quả hơn.

VI. Kết luận Hướng phát triển đào tạo Thạc sĩ Kỹ thuật VNU

Các luận án này đã đề xuất việc áp dụng một kỹ thuật lựa chọn hoặc trích xuất đặc trưng vào bài toán của mình, tập trung chủ yếu tới bài toán xử lí ảnh. Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để các nhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển. Mục tiêu của luận án Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưng tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng. Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp.

6.1. Tăng cường hợp tác giữa VNU và doanh nghiệp

Để đảm bảo chương trình Thạc sĩ Kỹ thuậtThạc sĩ Dữ liệu tại VNU đáp ứng nhu cầu thực tế của thị trường lao động, cần tăng cường hợp tác giữa trường đại học và các doanh nghiệp. Điều này có thể được thực hiện thông qua việc tổ chức các buổi hội thảo, thực tập, và dự án nghiên cứu chung. Sự hợp tác này sẽ giúp học viên có cơ hội áp dụng kiến thức và kỹ năng đã học vào các bài toán thực tế và phát triển mạng lưới quan hệ trong ngành.

6.2. Đầu tư vào cơ sở vật chất và trang thiết bị hiện đại

Để hỗ trợ quá trình đào tạo và nghiên cứu, cần đầu tư vào cơ sở vật chất và trang thiết bị hiện đại. Điều này bao gồm việc trang bị các phòng thí nghiệm với các công cụ và phần mềm tiên tiến, cũng như cung cấp quyền truy cập vào các nguồn dữ liệu lớn và các nền tảng tính toán đám mây. Sự đầu tư này sẽ giúp học viên có cơ hội thực hành và nghiên cứu các công nghệ mới nhất trong lĩnh vực Kỹ thuậtDữ liệu.

05/06/2025
Luận văn nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu
Bạn đang xem trước tài liệu : Luận văn nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Đại học Quốc gia Hà Nội: Đào tạo Thạc sĩ Kỹ thuật và Dữ liệu" cung cấp cái nhìn tổng quan về chương trình đào tạo thạc sĩ trong lĩnh vực kỹ thuật và dữ liệu tại một trong những trường đại học hàng đầu Việt Nam. Chương trình này không chỉ trang bị cho sinh viên kiến thức chuyên sâu về công nghệ thông tin và phân tích dữ liệu mà còn giúp họ phát triển kỹ năng thực tiễn cần thiết để đáp ứng nhu cầu ngày càng cao của thị trường lao động.

Đặc biệt, tài liệu nhấn mạnh những lợi ích mà sinh viên có thể nhận được từ chương trình, bao gồm cơ hội nghiên cứu, thực tập tại các doanh nghiệp hàng đầu và khả năng kết nối với các chuyên gia trong ngành. Để mở rộng thêm kiến thức về các chương trình đào tạo liên quan, bạn có thể tham khảo tài liệu Đánh giá chương trình đào tạo tại Blueseed Digital, nơi cung cấp cái nhìn sâu sắc về các phương pháp đào tạo hiện đại. Ngoài ra, tài liệu Thiết kế giáo trình nói tiếng Anh cho kỹ thuật viên ngành may mặc cũng có thể giúp bạn hiểu rõ hơn về việc áp dụng ngôn ngữ trong lĩnh vực kỹ thuật. Cuối cùng, tài liệu Giải pháp nâng cao chất lượng đào tạo nghề sẽ cung cấp thêm thông tin về các phương pháp cải tiến trong giáo dục nghề nghiệp. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các khía cạnh khác nhau của đào tạo trong lĩnh vực kỹ thuật và dữ liệu.