Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM

Nâng cao hiệu năng phân lớp dữ liệu bằng cách cải tiến thuật toán SVM trong ngành khoa học máy tính, tối ưu hóa kết quả và ứng dụng thực tiễn.

Trường đại học

Đại học Huế

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

136

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

Danh mục các ký hiệu

Danh mục bảng biểu

Danh mục hình vẽ

MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ TOÁN HỌC CỦA SVM

1.1. Hàm toàn phương

1.2. Bài toán quy hoạch toàn phương (QP)

1.3. Điều kiện tối ưu của bài toán QP

1.4. Bài toán đối ngẫu

1.5. Bài toán phân lớp dữ liệu

1.6. Hàm phân lớp tuyến tính

1.7. Siêu phẳng lề mềm

1.8. Hàm phân lớp phi tuyến

1.9. Hàm phân lớp có trọng số

1.10. Tiểu kết chương

2. CÁC BIẾN THỂ CỦA SVM

2.1. SVM xấp xỉ (PSVM)

2.2. PSVM thông qua các trị riêng suy rộng (GEPSVM)

2.3. SVM song sinh (TSVM)

2.3.1. Trường hợp tuyến tính

2.3.2. Trường hợp phi tuyến

2.4. TSVM dùng bình phương tối thiểu (LSTSVM)

2.5. SVM song sinh có cấu trúc (S-TSVM)

2.6. Tiểu kết chương

3. NÂNG CAO HIỆU NĂNG PHÂN LỚP DỮ LIỆU TRÊN CƠ SỞ CẢI TIẾN THUẬT TOÁN SVM

3.1. SVM có cấu trúc có trọng số (WS-SVM)

3.1.1. Trường hợp tuyến tính

3.1.2. Trường hợp phi tuyến

3.2. Cải tiến SVM dùng bình phương tối thiểu (ILS-SVM)

3.2.1. Trường hợp tuyến tính

3.2.2. Trường hợp phi tuyến

3.3. Tiểu kết chương

4. PHƯƠNG PHÁP CỤM ĐỐI LỚP

4.1. Biến đổi của S-TSVM

4.2. SVM dùng bình phương tối thiểu có trọng số (WLS-SVM)

4.2.1. Trường hợp tuyến tính

4.2.2. Trường hợp phi tuyến

4.3. Tiểu kết chương

KẾT LUẬN

Danh mục các công trình khoa học của tác giả liên quan đến luận án

Tài liệu tham khảo

Phụ lục

Tóm tắt

I. Tổng quan về nâng cao hiệu năng phân lớp dữ liệu với SVM

Phân lớp dữ liệu là một trong những nhiệm vụ quan trọng trong học máy. Thuật toán Support Vector Machine (SVM) đã chứng minh được hiệu quả của mình trong nhiều ứng dụng thực tiễn. Tuy nhiên, với sự phát triển của dữ liệu lớn và phức tạp, việc cải tiến hiệu năng của SVM trở thành một thách thức lớn. Nghiên cứu này nhằm mục đích nâng cao hiệu năng phân lớp dữ liệu thông qua các cải tiến thuật toán SVM.

1.1. Khái niệm cơ bản về thuật toán SVM

SVM là một thuật toán học máy mạnh mẽ, được sử dụng để phân loại dữ liệu. Nó tìm kiếm siêu phẳng tối ưu để tách biệt các lớp dữ liệu. SVM hoạt động hiệu quả với dữ liệu tuyến tính và phi tuyến, nhưng vẫn gặp khó khăn với dữ liệu có cấu trúc phức tạp.

1.2. Tầm quan trọng của việc cải tiến SVM

Cải tiến SVM không chỉ giúp nâng cao độ chính xác trong phân lớp mà còn giảm thiểu thời gian huấn luyện. Điều này đặc biệt quan trọng trong bối cảnh dữ liệu lớn, nơi mà hiệu suất tính toán là một yếu tố quyết định.

II. Những thách thức trong phân lớp dữ liệu với SVM

Mặc dù SVM đã đạt được nhiều thành công, nhưng vẫn tồn tại một số thách thức lớn trong việc áp dụng nó cho dữ liệu phức tạp. Các vấn đề như dữ liệu không cân bằng, cấu trúc dữ liệu đa cụm và thời gian huấn luyện lâu là những yếu tố cần được giải quyết.

2.1. Vấn đề dữ liệu không cân bằng

Dữ liệu không cân bằng xảy ra khi một lớp chiếm ưu thế hơn lớp còn lại. Điều này có thể dẫn đến việc SVM thiên lệch về lớp chiếm ưu thế, làm giảm độ chính xác của mô hình.

2.2. Cấu trúc dữ liệu đa cụm

Khi dữ liệu có nhiều cụm với phân phối khác nhau, SVM có thể không khai thác được thông tin cấu trúc này, dẫn đến hiệu suất phân lớp không tối ưu.

III. Phương pháp cải tiến thuật toán SVM hiệu quả

Để nâng cao hiệu năng phân lớp dữ liệu, một số phương pháp cải tiến SVM đã được đề xuất. Những phương pháp này tập trung vào việc khai thác thông tin cấu trúc của dữ liệu và tối ưu hóa quy trình huấn luyện.

3.1. SVM có cấu trúc có trọng số WS SVM

WS-SVM là một biến thể của SVM, cho phép khai thác thông tin cấu trúc của từng cụm trong dữ liệu. Phương pháp này giúp cải thiện độ chính xác phân lớp và giảm thời gian huấn luyện.

3.2. Cải tiến SVM dùng bình phương tối thiểu ILS SVM

ILS-SVM sử dụng phương pháp bình phương tối thiểu để tối ưu hóa bài toán phân lớp. Phương pháp này giúp giảm thiểu độ phức tạp tính toán và nâng cao hiệu suất phân lớp.

IV. Ứng dụng thực tiễn của SVM cải tiến

Các cải tiến trong thuật toán SVM đã được áp dụng thành công trong nhiều lĩnh vực như nhận dạng hình ảnh, phân tích văn bản và dự đoán tài chính. Những ứng dụng này cho thấy tiềm năng lớn của SVM trong việc giải quyết các bài toán thực tiễn.

4.1. Nhận dạng hình ảnh

SVM đã được sử dụng để phân loại hình ảnh trong nhiều ứng dụng, từ nhận diện khuôn mặt đến phân loại đối tượng. Các cải tiến giúp tăng cường độ chính xác và tốc độ xử lý.

4.2. Phân tích văn bản

Trong lĩnh vực phân tích văn bản, SVM được áp dụng để phân loại tài liệu, nhận diện chủ đề và phân tích cảm xúc. Các thuật toán cải tiến giúp nâng cao khả năng phân loại và giảm thiểu sai sót.

V. Kết luận và tương lai của SVM

Nâng cao hiệu năng phân lớp dữ liệu với SVM là một lĩnh vực nghiên cứu đầy tiềm năng. Các cải tiến hiện tại đã cho thấy kết quả khả quan, nhưng vẫn cần tiếp tục nghiên cứu để giải quyết các thách thức còn tồn tại.

5.1. Tương lai của SVM trong học máy

Với sự phát triển không ngừng của công nghệ và dữ liệu, SVM sẽ tiếp tục được cải tiến và ứng dụng rộng rãi hơn trong các lĩnh vực khác nhau.

5.2. Hướng nghiên cứu tiếp theo

Các nghiên cứu tiếp theo có thể tập trung vào việc phát triển các thuật toán SVM mới, tối ưu hóa quy trình huấn luyện và khai thác tốt hơn thông tin cấu trúc của dữ liệu.

09/07/2025

Bạn đang xem trước tài liệu:

Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán svm ngành khoa học máy tính

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1. CƠ SỞ TOÁN HỌC CỦA SVM Trong chương này, trước tiên chúng tôi cung cấp các khái niệm và kết quả cơ bản về toán mà sẽ được dùng xuyên suốt nội dung luận án. Cụ thể đó là hàm toàn phương, bài toán quy hoạch toàn phương (QP), điều kiện tối ưu của bài toán QP, bài toán đối ngẫu của bài toán QP lồi. Tiếp theo là trình bày về cơ sở toán học của SVM cho các trường hợp từ đơn giản đến phức tạp.

Hàm toàn phương Trong suốt luận án này hàm toàn phương luôn được trình bày dưới dạng chuẩn như sau: 1 Q(x) = xT Gx + gT x + α; x ∈ Rn , (1.1) 2 trong đó, G ∈ Rn×n là một ma trận vuông đối xứng, g, x ∈ Rn là các véc-tơ cột và α ∈ R là một số thực. Kí hiệu T để chỉ chuyển vị của một ma trận hay véc-tơ. Hàm toàn phương (1.1) có gradient và Hessian được tính trực tiếp như sau: ∇Q(x) = Gx + g; ∇2 Q(x) = G.2) Do đó, hàm Q lồi khi và chỉ khi G là ma trận nửa xác định dương. Hơn nữa, khi G xác định dương thì Q là hàm lồi chặt.

Bài toán quy hoạch toàn phương (QP) Bài toán quy hoạch toàn phương là một dạng đơn giản của bài toán tối ưu. Cụ thể, đó là bài toán với hàm mục tiêu là hàm toàn phương và các ràng buộc tuyến tính. Bài toán quy hoạch toàn phương, kí hiệu (QP), có dạng tổng quát như sau:  Q(x) = 21 xT Gx + gT x + α −→ min,       (QP) : aTi x ≥ bi , i ∈ I := {1, 2,. , k},  7 Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM trong đó G là ma trận vuông đối xứng cấp n; g, ai , cj là các véc-tơ, α, bi , dj là các số thực, còn I và J là tập hợp hữu hạn các chỉ số: I = {1,.

Khi G là ma trận nửa xác định dương, tức hàm mục tiêu Q lồi, ta có bài toán quy hoạch toàn phương lồi. Ta có thể biểu diễn bài toán gọn hơn dưới dạng ma trận. Cụ thể, đặt A = [a1 , a2 ,. , am ]T là ma trận cấp m × n, gồm m véc-tơ hàng aTi , C = [c1 , c2 ,.

, ck ]T là ma trận cấp k × n, gồm k véc-tơ hàng cTj , b ∈ Rm và d ∈ Rk là các véc-tơ cột với các thành phần bi và dj. Lúc đó, bài toán có thể viết lại dưới dạng ma trận như sau:  Q(x) = 21 xT Gx + gT x + α −→ min,       (QP) : Ax ≥ b,     Cx = d. Điều kiện tối ưu của bài toán QP Định lý 1. (a) Giả sử x∗ là nghiệm của bài toán QP được cho ở (1.

Khi đó tồn tại các bộ hệ số λ∗ = (λ∗1 ,. , µ∗k ) ∈ Rk thoả mãn:  Xm X k ∗ µ∗j cj ,  ∗ Gx + g = λ a +  i i       i=1 j=1    T ∗ ai x ≥ bi , λ∗i ≥ 0, i ∈ I, (1.4) được gọi là hệ KKT (Karush − Kuhn − T ucker) của bài toán quy hoạch toàn phương (1.3), x∗ được gọi là điểm KKT, và các hệ số λ∗ , µ∗ được gọi là các nhân tử Lagrange tương ứng với x∗. (b) Nếu G là ma trận nửa xác định dương, và nếu x∗ là một điểm KKT cùng với các nhân tử Lagrange λ∗ , µ∗ , thì x∗ cũng là nghiệm của bài toán QP. Như vậy, nếu QP là bài toán quy hoạch toàn phương lồi, thì việc tìm nghiệm của bài toán tương đương với việc tìm điểm KKT của nó.

8 Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM Chú ý rằng, hệ KKT có thể viết lại dưới dạng ma trận như sau:      Gx∗ + g = AT λ∗ + CT µ∗ ,   Ax∗ ≥ b, λ∗ ≥ 0,   (1. Bài toán đối ngẫu Mục này trình bày cách lập bài toán đối ngẫu của quy hoạch toàn phương lồi. Đối với một số lớp bài toán thực tiễn ta có thể khai thác cấu trúc đặc biệt của bài toán đối ngẫu để giải bài toán ban đầu một cách hiệu quả hơn. Để đơn giản ta xét bài toán QP với α = 0.

Với mỗi bài toán quy hoạch toàn phương lồi ta xét bài toán đối ngẫu tương ứng. Giả sử bài toán QP ở (1.3) lồi, tức G là ma trận nửa xác định dương. Ta có hàm Lagrange của bài toán là 1 L(x, λ, µ) = xT Gx + gT x − λT (Ax − b) − µT (Cx − d), (1.6) 2 ∗ với các biến (x, λ, µ) ∈ Rn × Rm k + × R. Lúc này, điểm KKT x cùng với các nhân tử Lagrange λ∗ , µ∗ chính là điểm yên ngựa (x∗ , λ∗ , µ∗ ) của hàm L và thỏa mãn hệ KKT (1.5), hay thỏa mãn điều kiện tối ưu (Định lí 1.

Thực ra, điều kiện KKT (1.5) chính là: ∇x L = 0, ∇λ L ≥ 0, λ ≥ 0, λ∇λ L = 0, ∇µ L = 0 Bài toán QP lúc đó tương đương với bài toán minimax sau: inf sup L(x, λ, µ).8) (λ,µ)∈Rm k x∈R + ×R Với giả thiết G là nửa xác định dương, với mỗi (λ, µ), ta giải bài toán inf L(x, λ, µ), x∈Rn 9 Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM theo cách sau. Từ phương trình dừng ∇x L(x, λ, µ) = Gx + g − AT λ − CT µ = 0, giải ra ta được nghiệm x (phụ thuộc (λ, µ)) thoả mãn Gx = AT λ + CT µ − g hay g = AT λ + CT µ − Gx. Thay vào hàm Lagrange ta có 1 L(x, λ, µ) = xT Gx + gT x − λT (Ax − b) − µT (Cx − d) 2 1 T = x Gx + (λT A + µT C − xT G)x − λT (Ax − b) − µT (Cx − d) 2 1 = − xT Gx + λT b + µT d. 2 Vì vậy bài toán đối ngẫu chính là:  − 21 xT Gx + λT b + µT d −→ max,       λ ∈ Rm k +, µ ∈ R , (1.9)    Gx = AT λ + CT µ − g.

   Nếu G là xác định dương thì từ Gx = AT λ + CT µ − g suy ra x = G−1 (AT λ + CT µ − g), nên hàm mục tiêu của (1.9) là 1 1 − xT Gx + λT b + µT d = − (AT λ + CT µ − g)T G−1 (AT λ + CT µ − g) + λT b + µT d. 2 2 Do đó, bài toán đối ngẫu (1.9) trở thành  − 1 (AT λ + CT µ − g)T G−1 (AT λ + CT µ − g) + λT b + µT d −→ max,  2 λ ∈ Rm ; µ ∈ Rk.  + Đây cũng là một bài toán quy hoạch toàn phương lồi, với dạng đơn giản hơn nhiều bài toán QP ban đầu. Phần sau của chương, luận án trình bày chi tiết về cơ sở toán học của thuật toán SVM cho bài toán phân loại hai lớp dữ liệu.

10 Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM 1. Bài toán phân lớp dữ liệu Xét bài toán phân loại nhị phân có tập dữ liệu được kí hiệu bởi ma trận C ⊂ Rm×n , bao gồm m điểm (mỗi điểm là một hàng của C) xTj ∈ Rn , 1 ≤ j ≤ m. Giả sử rằng, yj ∈ Ω = {−1, 1} là nhãn của điểm dữ liệu xj. Lớp {+} gồm mA điểm và được kí hiệu bởi ma trận A ⊂ RmA ×n , lớp {−} gồm mB điểm được kí hiệu bởi ma trận B ⊂ RmB ×n.

Điểm dữ liệu xi được xếp vào lớp A nếu tương ứng ta có yi = 1, và được xếp vào lớp B nếu yi = −1. Bài toán đặt ra là: Cần tìm một hàm phân lớp f : Rn → {−1, 1} thỏa mãn: f (xi ) = yi , ∀ i ∈ Q := {1, 2, .10) Để hiểu ý nghĩa của bài toán này ta xét ví dụ sau. Trong mùa dịch sốt xuất huyết, tại một trung tâm y tế X người ta đã tiếp nhận và đã có hồ sơ bệnh án đầy đủ của 100 bệnh nhân. Thông tin của mỗi bệnh nhân được số hóa thành một véc-tơ x ∈ R9 gồm các thành phần: giới tính, tuổi, cân nặng, nhiệt độ, huyết áp, đau đầu, đau bụng, buồn nôn (trong đó huyết áp là cặp số, giới tính, đau đầu, đau bụng, buồn nôn được số hóa bởi 0 hoặc 1).

Chẳng hạn, x = (1, 25, 57, 39, 90, 150, 1, 1, 0) biểu thị cho bệnh nhân nam, 25 tuổi, nặng 57 kg, thân nhiệt 39◦ C, huyết áp 150/90, có triệu chứng đau đầu, đau bụng, nhưng không buồn nôn. Với mỗi bệnh nhân xi như vậy sau một thời gian điều trị ta đã biết người ấy có bị sốt xuất huyết (và gán yi = 1) hay không (gán yi = −1). Trên cơ sở m = 100 mẫu thử như thế chúng ta cần thiết lập một hàm f : R9 → {−1, 1} nhằm để chẩn đoán cho những bệnh nhân mới. Dĩ nhiên hàm f đó khi thực hiện trên các mẫu cũ phải cho chẩn đoán đúng, nghĩa là f (xi ) = yi với mọi i ∈ {1, 2,.

Trở lại bài toán ở (1. Nếu có một hàm g : Rn → R sao cho g(xi ) > 0 với mọi xi ∈ A, và g(xi ) < 0 với mọi xi ∈ B, thì hiển nhiên ta có thể chọn f (x) = sgn(g(x)) để làm hàm phân lớp. Lúc đó mặt mức Sg = {x ∈ Rn | g(x) = 0} được gọi là mặt biên hay mặt quyết định (xem Hình 1. Mặt quyết định chia Rn ra làm hai miền, tương ứng với hai lớp A và B.

Đặc biệt nếu g là hàm affine: g(x) = wT x + b (w ∈ Rn , b ∈ R; wT x là tích vô hướng của w và x) thì Sg là một siêu phẳng nhận w làm véc-tơ pháp mà ta gọi là mặt quyết định tuyến tính (xem Hình 1. Ngược lại, nếu g không phải là hàm affine, ta nói mặt quyết định là phi tuyến. 11 Nâng cao hiệu năng phân lớp dữ liệu trên cơ sở cải tiến thuật toán SVM Hình 1.1: Mặt quyết định phi tuyến Hình 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nâng cao hiệu năng phân lớp dữ liệu

Cải tiến thuật toán SVM

Ứng dụng của SVM trong học máy

Phân tích các biến thể của SVM