Tổng quan nghiên cứu

Trong bối cảnh nhu cầu sử dụng dịch vụ và ứng dụng di động không dây tăng trưởng vượt bậc, đặc biệt sau đại dịch Covid-19, các mạng viễn thông thế hệ mới như 5G và 6G trở thành trọng tâm nghiên cứu và phát triển toàn cầu. Theo báo cáo của Ericsson, đến giữa năm 2022, thế giới có khoảng 8,2 tỷ thuê bao di động, trong đó thuê bao 5G chiếm khoảng 8% với 660 triệu thuê bao. Dự báo đến năm 2027, số thuê bao 5G sẽ đạt 4,4 tỷ, chiếm gần 49% tổng số thuê bao toàn cầu. Tốc độ phát triển nhanh chóng này đặt ra yêu cầu cấp thiết về các công nghệ truyền thông không dây tiên tiến nhằm đáp ứng các tiêu chuẩn khắt khe của mạng 6G như tốc độ dữ liệu đỉnh tối thiểu 1 Tbps, độ trễ gần như bằng 0, hiệu suất phổ và năng lượng tăng gấp đôi so với 5G.

Một trong những công nghệ nổi bật của 6G là bề mặt phản xạ thông minh (Intelligent Reflecting Surface - IRS), được phát triển trong khoảng 5 năm gần đây, có khả năng cải thiện hiệu suất và chất lượng truyền thông bằng cách điều chỉnh sóng phản xạ một cách chủ động. Tuy nhiên, việc tối ưu hóa hiệu suất hệ thống có sử dụng IRS là một thách thức lớn do số lượng tham số tăng lên đáng kể và tính phi lồi của bài toán. Song song đó, các thuật toán học máy, đặc biệt là học sâu tăng cường (Deep Reinforcement Learning - DRL), đang được ứng dụng rộng rãi để giải quyết các bài toán phức tạp trong viễn thông.

Luận văn tập trung nghiên cứu tối ưu tốc độ dữ liệu trong hệ thống MISO đa người dùng có sự hỗ trợ của IRS bằng phương pháp học sâu tăng cường. Mục tiêu chính là xây dựng mô hình toán học, đề xuất giải thuật DRL dựa trên Deep Deterministic Policy Gradient (DDPG), so sánh với phương pháp giải tối ưu truyền thống và đánh giá hiệu quả qua các kết quả mô phỏng. Phạm vi nghiên cứu giới hạn trong điều kiện trạng thái thông tin kênh truyền (CSI) đã biết, phần cứng lý tưởng và IRS không suy hao, với khả năng điều chỉnh pha liên tục. Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các giải pháp tối ưu cho mạng 6G, góp phần nâng cao hiệu suất truyền thông không dây trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

  • Mô hình kênh truyền MISO và IRS: Hệ thống MISO đa người dùng với trạm phát có M anten và K người dùng đơn anten, được hỗ trợ bởi IRS gồm N phần tử phản xạ có khả năng điều chỉnh pha liên tục. Kênh truyền được mô hình hóa bao gồm kênh trực tiếp và kênh phản xạ qua IRS, với các vector và ma trận kênh như 𝐆 (BS đến IRS), 𝚯 (ma trận pha IRS), 𝒉𝒓𝒌 (IRS đến user k), 𝒉𝒅𝒌 (BS đến user k).

  • Học sâu tăng cường (Deep Reinforcement Learning - DRL): Phương pháp học máy dựa trên tương tác giữa tác tử (Agent) và môi trường (Environment), tối ưu hóa chính sách hành động để nhận phần thưởng tối đa. DRL kết hợp mạng nơ-ron sâu với học tăng cường, phù hợp với các bài toán có không gian trạng thái và hành động lớn, phức tạp.

  • Giải thuật Deep Deterministic Policy Gradient (DDPG): Thuật toán DRL kết hợp giữa policy-based và value-based, sử dụng hai mạng nơ-ron Actor và Critic để xử lý không gian hành động liên tục. DDPG sử dụng kỹ thuật off-policy, mạng đích (Target Network) để tăng tính ổn định trong huấn luyện.

Các khái niệm chính bao gồm: kênh truyền LoS, NLoS, Rician fading; IRS với các phần tử phản xạ điều chỉnh pha; chính sách (Policy), phần thưởng (Reward), trạng thái (State), hành động (Action) trong học tăng cường; và các thành phần mạng nơ-ron trong DDPG.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu mô phỏng được xây dựng dựa trên mô hình toán học của hệ thống MISO-IRS, với các tham số kênh truyền, công suất phát, số lượng anten và phần tử IRS được thiết lập theo các kịch bản thực tế.

  • Phương pháp phân tích: Luận văn áp dụng hai phương pháp chính để giải bài toán tối ưu tổng tốc độ dữ liệu:

    1. Phương pháp giải tối ưu truyền thống: Sử dụng kỹ thuật Inexact Block Coordinate Descent (IBCD) để giải bài toán phi lồi bằng cách phân tách thành hai bài toán con tối ưu ma trận beamforming 𝐖 và vector pha IRS 𝜽. Các bài toán con được chuyển về dạng lồi và giải bằng công cụ CVX.

    2. Phương pháp học sâu tăng cường: Triển khai giải thuật DDPG để học chính sách tối ưu trong không gian hành động liên tục, tối đa hóa tổng tốc độ dữ liệu. Mạng Actor đề xuất hành động (beamforming và pha IRS), mạng Critic đánh giá giá trị hành động. Quá trình huấn luyện sử dụng bộ nhớ đệm (Replay Buffer) và cập nhật mạng đích để đảm bảo hội tụ.

  • Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 9/2022, hoàn thành mô hình toán học và giải thuật trong quý 1/2023, tiến hành mô phỏng và đánh giá kết quả trong quý 2/2023, hoàn thiện luận văn và bảo vệ vào tháng 7/2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của giải thuật DDPG trong tối ưu tốc độ dữ liệu: Kết quả mô phỏng trên 50 kênh truyền cho thấy phương pháp DDPG đạt tổng tốc độ dữ liệu (sum rate) trung bình cao hơn khoảng 10-15% so với phương pháp giải tối ưu truyền thống khi số lượng anten M=8, phần tử IRS N=32 và người dùng K=8. Ví dụ, với công suất phát 0 dBm, sum rate của DDPG đạt khoảng 12.5 bps/Hz so với 11 bps/Hz của phương pháp truyền thống.

  2. Ảnh hưởng của số lượng anten và phần tử IRS: Khi tăng số lượng anten M và phần tử IRS N, tổng tốc độ dữ liệu tăng rõ rệt. Cụ thể, khi M tăng từ 4 lên 8 và N từ 16 lên 32, sum rate tăng trung bình 20%. Phương pháp DDPG thể hiện khả năng thích ứng tốt với sự thay đổi này, duy trì hiệu suất cao hơn so với phương pháp truyền thống.

  3. Khả năng mở rộng và ổn định của DDPG: Đường cong huấn luyện cho thấy DDPG hội tụ ổn định sau khoảng 5000 vòng lặp, với sự cải thiện liên tục về sum rate. Điều này chứng tỏ giải thuật có thể áp dụng hiệu quả trong môi trường kênh truyền đa dạng và phức tạp.

  4. So sánh về chi phí tính toán: Mặc dù phương pháp giải tối ưu truyền thống cho kết quả tốt, nhưng chi phí tính toán cao và không phù hợp với các hệ thống thời gian thực. Ngược lại, DDPG với khả năng học và dự đoán nhanh chóng phù hợp hơn cho các ứng dụng thực tế, đặc biệt trong mạng 6G.

Thảo luận kết quả

Nguyên nhân chính giúp DDPG vượt trội là do khả năng học chính sách tối ưu trong không gian hành động liên tục, tận dụng mạng nơ-ron sâu để xử lý các mối quan hệ phi tuyến phức tạp giữa beamforming và pha IRS. So với các nghiên cứu trước đây chỉ sử dụng giải thuật tối ưu truyền thống hoặc machine learning đơn giản, luận văn đã kết hợp chặt chẽ mô hình toán học với giải thuật DRL hiện đại, đồng thời khảo sát cả điều kiện small-scale và large-scale fading, tạo nên sự toàn diện và thực tiễn hơn.

Kết quả mô phỏng có thể được trình bày qua biểu đồ đường cong huấn luyện sum rate theo số vòng lặp, biểu đồ so sánh sum rate giữa hai phương pháp theo các tham số M, N, K, và bảng tổng hợp số liệu trung bình. Những biểu đồ này minh họa rõ ràng sự vượt trội về hiệu suất và tính ổn định của DDPG.

Ý nghĩa của nghiên cứu là mở ra hướng tiếp cận mới cho tối ưu hóa hệ thống MISO-IRS trong mạng 6G, giúp giảm chi phí tính toán, tăng hiệu quả truyền thông và khả năng thích ứng với môi trường biến đổi nhanh.

Đề xuất và khuyến nghị

  1. Triển khai giải thuật DDPG trong các hệ thống thực tế: Khuyến nghị các nhà phát triển mạng 6G áp dụng giải thuật DDPG để tối ưu beamforming và điều chỉnh IRS, nhằm nâng cao tổng tốc độ dữ liệu và hiệu quả phổ. Thời gian thực hiện trong vòng 1-2 năm, phối hợp với các nhà sản xuất thiết bị viễn thông.

  2. Mở rộng nghiên cứu cho các hệ thống MIMO đa đầu ra đa đầu vào: Nghiên cứu tiếp tục áp dụng DRL cho các hệ thống MIMO phức tạp hơn, bao gồm cả uplink và downlink, nhằm khai thác tối đa tiềm năng của IRS. Thời gian nghiên cứu dự kiến 2-3 năm, do các tổ chức nghiên cứu và trường đại học thực hiện.

  3. Phát triển mô hình kênh truyền thực tế và dữ liệu thực nghiệm: Thu thập và xây dựng bộ dữ liệu kênh truyền thực tế để huấn luyện và đánh giá giải thuật DRL, tăng tính chính xác và khả năng ứng dụng thực tế. Chủ thể thực hiện là các trung tâm nghiên cứu viễn thông, trong vòng 1 năm.

  4. Tích hợp các công nghệ AI khác trong mạng 6G: Kết hợp DRL với các kỹ thuật học máy khác như học có giám sát, học không giám sát để cải thiện khả năng dự đoán và tối ưu hóa mạng. Thời gian triển khai 2 năm, phối hợp giữa các viện nghiên cứu và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành viễn thông: Luận văn cung cấp kiến thức sâu rộng về công nghệ IRS, mô hình MISO, và ứng dụng DRL, giúp nâng cao hiểu biết và phát triển các đề tài nghiên cứu mới.

  2. Kỹ sư phát triển mạng và thiết bị viễn thông: Các kỹ sư có thể áp dụng giải thuật và mô hình trong thiết kế và tối ưu hệ thống mạng 6G, cải thiện hiệu suất và giảm chi phí vận hành.

  3. Doanh nghiệp công nghệ và viễn thông: Các công ty phát triển thiết bị và dịch vụ mạng có thể khai thác kết quả nghiên cứu để nâng cao sản phẩm, đáp ứng yêu cầu thị trường về tốc độ và chất lượng dịch vụ.

  4. Cơ quan quản lý và hoạch định chính sách: Tham khảo luận văn để hiểu rõ xu hướng công nghệ 6G, từ đó xây dựng chính sách hỗ trợ nghiên cứu và phát triển hạ tầng viễn thông hiện đại.

Câu hỏi thường gặp

  1. IRS là gì và tại sao nó quan trọng trong mạng 6G?
    IRS là bề mặt phản xạ thông minh gồm các phần tử phản xạ có thể điều chỉnh pha sóng điện từ, giúp cải thiện hiệu suất truyền thông bằng cách điều khiển môi trường truyền dẫn. IRS giúp tăng tốc độ dữ liệu, hiệu suất phổ và tiết kiệm năng lượng, là công nghệ then chốt của mạng 6G.

  2. Phương pháp học sâu tăng cường (DRL) khác gì so với các phương pháp học máy khác?
    DRL kết hợp học tăng cường với mạng nơ-ron sâu, cho phép tác tử học cách tối ưu hành động trong môi trường phức tạp và không gian trạng thái lớn mà không cần dữ liệu gán nhãn trước, phù hợp với các bài toán tối ưu trong viễn thông.

  3. Tại sao chọn giải thuật DDPG cho bài toán tối ưu trong hệ thống MISO-IRS?
    DDPG xử lý tốt không gian hành động liên tục, kết hợp chính sách và giá trị hành động, giúp tìm lời giải tối ưu hiệu quả trong các bài toán phi lồi và phức tạp như tối ưu beamforming và pha IRS.

  4. Phương pháp giải tối ưu truyền thống có nhược điểm gì?
    Phương pháp truyền thống thường yêu cầu tính toán phức tạp, tốn thời gian và khó áp dụng trong thời gian thực, đặc biệt khi số lượng tham số lớn và môi trường thay đổi nhanh.

  5. Kết quả nghiên cứu có thể ứng dụng thực tế như thế nào?
    Giải thuật DDPG có thể được tích hợp vào hệ thống điều khiển mạng 6G để tự động điều chỉnh beamforming và IRS, nâng cao tốc độ dữ liệu và chất lượng dịch vụ, đồng thời giảm chi phí vận hành và tăng khả năng thích ứng với môi trường mạng biến đổi.

Kết luận

  • Luận văn đã xây dựng mô hình toán học và giải thuật tối ưu tổng tốc độ dữ liệu trong hệ thống MISO đa người dùng có hỗ trợ IRS, áp dụng cả phương pháp giải tối ưu truyền thống và học sâu tăng cường DDPG.
  • Kết quả mô phỏng chứng minh DDPG vượt trội về hiệu suất và khả năng mở rộng so với phương pháp truyền thống, phù hợp với yêu cầu mạng 6G.
  • Nghiên cứu góp phần mở rộng ứng dụng AI trong viễn thông, đặc biệt trong tối ưu hóa các hệ thống có IRS, tạo nền tảng cho các nghiên cứu tiếp theo.
  • Đề xuất triển khai giải thuật DDPG trong thực tế, mở rộng nghiên cứu cho các hệ thống MIMO phức tạp hơn và phát triển dữ liệu thực nghiệm.
  • Khuyến khích các nhà nghiên cứu, kỹ sư và doanh nghiệp viễn thông tham khảo và ứng dụng kết quả để thúc đẩy phát triển mạng 6G tại Việt Nam và quốc tế.

Hành động tiếp theo là triển khai thử nghiệm giải thuật trên các nền tảng phần cứng thực tế và mở rộng nghiên cứu tích hợp các công nghệ AI khác nhằm nâng cao hiệu quả tối ưu trong mạng 6G.