Hiệu quả của Mô hình Ngôn ngữ Không Chú ý cho Phân tích Cảm xúc Nền tảng Thương mại Điện tử

Phân tích cảm xúc khách hàng trên sàn TMĐT hiệu quả hơn với mô hình ngôn ngữ không cần cơ chế attention. Tìm hiểu cách tiếp cận mới này cải thiện độ chính xác.

Trường đại học

Đại học Kinh tế Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học dữ liệu và trí tuệ nhân tạo

Người đăng

Ẩn danh

Thể loại

Báo cáo tổng kết đề tài nghiên cứu khoa học

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

1. Summary of the research

2. Introduction

2.1. Overview of the development of E-commerce platforms

2.2. Research gaps and Motivation

2.3. Objective of the Research

3. Literature Review

4. Theoretical Framework

4.1. Fundamentals of Language Processing

4.1.1. The Importance of Language Processing

5. Methods

6. Experimental Design

7. Results and Discussion

8. Conclusion and Future Work

A Proof of Cross-entropy Convexity

B Evidence of Paper

List of Tables

List of Figures

List of Abbreviations

Tóm tắt

I. Tổng Quan Hiệu Quả Mô Hình Ngôn Ngữ Không Chú Ý Cho Thương Mại ĐT

Sự trỗi dậy của thương mại điện tử đã tạo ra một lượng lớn dữ liệu văn bản, bao gồm các đánh giá của khách hàng, phản hồi về sản phẩm, và các tương tác trên mạng xã hội. Việc phân tích những dữ liệu này để hiểu được tình cảm của khách hàng là vô cùng quan trọng đối với các doanh nghiệp thương mại điện tử. Phân tích tình cảm giúp các doanh nghiệp cải thiện sản phẩm, dịch vụ, và nâng cao trải nghiệm khách hàng. Mặc dù các mô hình ngôn ngữ dựa trên cơ chế chú ý (attention mechanism) như Transformers đã đạt được những thành công đáng kể, nhưng chúng lại đòi hỏi nguồn lực tính toán lớn. Vì vậy, việc nghiên cứu các mô hình ngôn ngữ không cần chú ý, như attention-free language models, để phân tích tình cảm trong thương mại điện tử là một hướng đi đầy hứa hẹn, đặc biệt để tối ưu hiệu suất và giảm chi phí. Nghiên cứu này tập trung vào việc đánh giá hiệu quả của các mô hình này trong bối cảnh phân tích tình cảm trên các nền tảng thương mại điện tử.

1.1. Tầm quan trọng của Phân tích Tình cảm trong Thương mại Điện tử

Phân tích tình cảm đóng vai trò then chốt trong việc nắm bắt quan điểm khách hàng về sản phẩm, dịch vụ và thương hiệu trên các nền tảng thương mại điện tử. Dữ liệu tình cảm thu thập được từ đánh giá sản phẩm, bình luận trên mạng xã hội và tương tác khách hàng giúp doanh nghiệp hiểu rõ nhu cầu, mong muốn và mối quan tâm của khách hàng. Bằng cách phân tích các xu hướng tình cảm, doanh nghiệp có thể đưa ra các quyết định kinh doanh sáng suốt hơn, từ việc cải thiện sản phẩm và dịch vụ, đến việc điều chỉnh chiến lược marketing và chăm sóc khách hàng. Phân tích tình cảm cũng giúp doanh nghiệp phát hiện sớm các vấn đề tiềm ẩn, như đánh giá tiêu cực hoặc phàn nàn về sản phẩm, từ đó có biện pháp xử lý kịp thời để duy trì uy tín và lòng trung thành của khách hàng.

1.2. Giới thiệu về Mô hình Ngôn ngữ Không Chú ý Attention Free Language Models

Mô hình ngôn ngữ không chú ý (Attention-Free Language Models) là một hướng tiếp cận mới trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), nhằm mục đích vượt qua những hạn chế về hiệu suất tính toán của các mô hình dựa trên cơ chế chú ý như Transformers. Thay vì sử dụng cơ chế chú ý để tập trung vào các phần quan trọng của câu, attention-free models sử dụng các phương pháp khác như gating mechanism, convolutional layers, hoặc multilayer perceptrons để xử lý thông tin. Ưu điểm chính của attention-free models là khả năng giảm đáng kể độ phức tạp tính toán, giúp chúng phù hợp hơn với các ứng dụng có yêu cầu về tốc độ và hiệu quả năng lượng. Mặc dù còn khá mới, attention-free models đang ngày càng chứng minh được tiềm năng của mình trong nhiều nhiệm vụ NLP, bao gồm phân tích tình cảm, tóm tắt văn bản, và dịch máy.

II. Thách Thức Hiệu Suất và Tính Toán trong Phân Tích Tình Cảm E Commerce

Mặc dù các mô hình ngôn ngữ dựa trên Transformer đã đạt được những thành công vượt trội trong phân tích tình cảm, chúng đi kèm với những thách thức đáng kể về hiệu suất tính toán và khả năng mở rộng, đặc biệt là khi xử lý lượng lớn dữ liệu từ các nền tảng thương mại điện tử. Cơ chế chú ý trong Transformer có độ phức tạp bậc hai (O(n^2)), khiến cho việc huấn luyện và triển khai các mô hình này trở nên tốn kém và chậm chạp. Điều này đặc biệt gây khó khăn cho các doanh nghiệp nhỏ và vừa, những đơn vị có nguồn lực hạn chế. Thêm vào đó, các mô hình Transformer thường có kích thước lớn, đòi hỏi bộ nhớ và năng lượng tiêu thụ đáng kể. Việc tìm kiếm các giải pháp thay thế, như attention-free language models, để giải quyết những thách thức này là vô cùng cần thiết để dân chủ hóa phân tích tình cảm và giúp các doanh nghiệp thương mại điện tử khai thác tối đa giá trị từ dữ liệu khách hàng.

2.1. Hạn chế của Mô hình Dựa trên Chú ý Attention Based Models

Các mô hình dựa trên cơ chế chú ý (attention-based models), đặc biệt là Transformers, đã chứng minh khả năng vượt trội trong nhiều nhiệm vụ NLP. Tuy nhiên, cơ chế chú ý lại là một nút thắt cổ chai về hiệu suất tính toán. Độ phức tạp bậc hai của cơ chế chú ý khiến cho thời gian huấn luyện và suy luận tăng lên đáng kể khi xử lý các chuỗi văn bản dài. Điều này đặc biệt ảnh hưởng đến các ứng dụng phân tích tình cảm trên các nền tảng thương mại điện tử, nơi mà các đánh giá của khách hàng thường có độ dài đáng kể. Bên cạnh đó, kích thước lớn của các mô hình Transformer cũng gây khó khăn cho việc triển khai trên các thiết bị có tài nguyên hạn chế, như điện thoại thông minh hoặc các thiết bị nhúng.

2.2. Yêu cầu về Khả năng Mở rộng và Hiệu quả trong Phân tích Tình cảm E commerce

Để đáp ứng nhu cầu ngày càng tăng về phân tích tình cảm trên các nền tảng thương mại điện tử, các mô hình cần phải có khả năng mở rộng và hiệu quả cao. Khả năng mở rộng đề cập đến khả năng xử lý lượng lớn dữ liệu đánh giá của khách hàng một cách nhanh chóng và hiệu quả. Hiệu quả đề cập đến việc giảm thiểu chi phí tính toán và tài nguyên cần thiết để huấn luyện và triển khai các mô hình. Các doanh nghiệp thương mại điện tử cần các giải pháp phân tích tình cảm có thể xử lý hàng triệu đánh giá mỗi ngày, đồng thời đảm bảo chi phí hợp lý và thời gian phản hồi nhanh chóng. Điều này đòi hỏi sự phát triển của các mô hình ngôn ngữ mới, có khả năng cân bằng giữa độ chính xác và hiệu suất.

III. Phương Pháp Đánh Giá Mô Hình Ngôn Ngữ Không Chú Ý cho E Commerce

Nghiên cứu này tập trung vào việc đánh giá hiệu quả của các mô hình ngôn ngữ không chú ý (attention-free language models) cho phân tích tình cảm trên các nền tảng thương mại điện tử. Các mô hình được đánh giá bao gồm BiLSTM, TextCNN, gMLP, và HyenaDNA. Để đảm bảo tính khách quan, nghiên cứu sử dụng bộ dữ liệu UEH-Ecom, một bộ dữ liệu mới được thu thập từ các nền tảng thương mại điện tử phổ biến ở Việt Nam. Các mô hình được huấn luyện và đánh giá trên bộ dữ liệu này bằng cách sử dụng các metrics tiêu chuẩn như độ chính xác (accuracy), độ chính xác (precision), độ phủ (recall), và điểm F1 (F1-score). Kết quả cho thấy các attention-free models có thể đạt được hiệu suất tương đương với các mô hình dựa trên Transformer với số lượng tham số ít hơn đáng kể, cho thấy tiềm năng lớn trong việc triển khai trên các thiết bị có tài nguyên hạn chế.

3.1. Giới thiệu các Mô hình Ngôn ngữ Không Chú ý Attention Free Language Models được Đánh giá

Nghiên cứu này đánh giá một loạt các mô hình ngôn ngữ không chú ý (attention-free language models), bao gồm các mô hình truyền thống như BiLSTM và TextCNN, cũng như các mô hình mới hơn như gMLP và HyenaDNA. BiLSTM là một mô hình mạng nơ-ron hồi quy (RNN) hai chiều, có khả năng nắm bắt thông tin từ cả hai hướng của chuỗi văn bản. TextCNN là một mô hình mạng nơ-ron tích chập (CNN) được thiết kế đặc biệt để xử lý dữ liệu văn bản. gMLP là một mô hình dựa trên mạng nơ-ron nhiều lớp (MLP), sử dụng cơ chế gating để kiểm soát luồng thông tin. HyenaDNA là một mô hình mới, sử dụng các phép tích chập (convolution) dài và gating dựa trên dữ liệu để thay thế cho cơ chế chú ý.

3.2. Bộ dữ liệu UEH Ecom Thu thập và Đặc điểm

Để đảm bảo tính đại diện và phù hợp với bối cảnh thương mại điện tử Việt Nam, nghiên cứu này sử dụng bộ dữ liệu UEH-Ecom, một bộ dữ liệu mới được thu thập từ các nền tảng thương mại điện tử phổ biến như Shopee, Lazada, Tiki, Sendo, và Chotot. Bộ dữ liệu bao gồm gần 90,000 đánh giá của khách hàng, được phân loại thành hai loại tình cảm: tích cực và tiêu cực. Dữ liệu được tiền xử lý để loại bỏ các ký tự đặc biệt, chuyển đổi chữ thường, và loại bỏ các từ dừng. Bộ dữ liệu UEH-Ecom được chia thành hai tập: tập huấn luyện (72,000 đánh giá) và tập kiểm tra (18,000 đánh giá).

3.3. Thiết lập Thử nghiệm và Metrics Đánh giá Hiệu suất Mô hình

Để đánh giá hiệu suất của các mô hình ngôn ngữ không chú ý (attention-free language models), nghiên cứu này sử dụng một thiết lập thử nghiệm tiêu chuẩn. Các mô hình được huấn luyện trên tập huấn luyện của bộ dữ liệu UEH-Ecom và sau đó được đánh giá trên tập kiểm tra. Các metrics đánh giá hiệu suất bao gồm độ chính xác (accuracy), độ chính xác (precision), độ phủ (recall), và điểm F1 (F1-score). Độ chính xác đo lường tỷ lệ các dự đoán đúng trên tổng số dự đoán. Độ chính xác đo lường tỷ lệ các dự đoán tích cực đúng trên tổng số các dự đoán tích cực. Độ phủ đo lường tỷ lệ các đánh giá tích cực thực tế được dự đoán đúng. Điểm F1 là trung bình điều hòa của độ chính xác và độ phủ, và là một metric tổng quan cho hiệu suất của mô hình.

IV. Kết Quả So Sánh Hiệu Năng Các Mô Hình và Đề Xuất Giải Pháp Tối Ưu

Kết quả nghiên cứu cho thấy các mô hình ngôn ngữ không chú ý (attention-free language models) có thể đạt được hiệu suất cạnh tranh với các mô hình dựa trên Transformer trong phân tích tình cảm trên các nền tảng thương mại điện tử. Cụ thể, BiLSTM đạt được độ chính xác cao nhất trong số các attention-free models, nhưng sự khác biệt so với gMLP là không đáng kể. Tuy nhiên, gMLP lại đạt được điểm F1 cao nhất, cho thấy sự cân bằng tốt hơn giữa độ chính xác và độ phủ. Điều quan trọng là, các attention-free models có số lượng tham số ít hơn đáng kể so với Transformer, cho thấy tiềm năng lớn trong việc triển khai trên các thiết bị có tài nguyên hạn chế. Dựa trên kết quả này, nghiên cứu đề xuất gMLP là một giải pháp thay thế hứa hẹn cho Transformer trong phân tích tình cảm trên các nền tảng thương mại điện tử, đặc biệt là khi hiệu quả tính toán là một yếu tố quan trọng.

4.1. Bảng so sánh Chi tiết về Hiệu suất Các Mô hình trên Bộ dữ liệu UEH Ecom

Bảng so sánh chi tiết về hiệu suất của các mô hình ngôn ngữ được thể hiện rõ qua số liệu độ chính xác (accuracy), độ chính xác (precision), độ phủ (recall) và điểm F1 (F1-score). Các kết quả cho thấy, mô hình BiLSTM đạt độ chính xác cao nhất trong số các attention-free models, trong khi mô hình gMLP cho thấy điểm F1 ấn tượng. Mặc dù độ chính xác có sự chênh lệch không quá lớn, song việc mô hình gMLP có số lượng tham số ít hơn đáng kể giúp tối ưu thời gian tính toán. Các thông số này được đo lường một cách khách quan thông qua bộ dữ liệu UEH-Ecom, được thu thập từ các nền tảng thương mại điện tử nổi tiếng.

4.2. Phân tích Ưu và Nhược điểm của từng Mô hình Ngôn ngữ Không Chú ý Attention Free Language Models

Mỗi mô hình ngôn ngữ không chú ý có những ưu điểm và nhược điểm riêng. BiLSTM có khả năng nắm bắt ngữ cảnh tốt nhờ kiến trúc hai chiều, nhưng lại gặp khó khăn trong việc xử lý các chuỗi văn bản dài. TextCNN có hiệu quả cao trong việc phát hiện các đặc trưng quan trọng trong văn bản, nhưng lại ít linh hoạt hơn trong việc nắm bắt các mối quan hệ phức tạp giữa các từ. gMLP có hiệu suất tính toán tốt và khả năng xử lý các chuỗi văn bản dài, nhưng lại có thể gặp khó khăn trong việc nắm bắt các thông tin cục bộ. HyenaDNA có khả năng xử lý các chuỗi văn bản rất dài với độ phức tạp tính toán thấp, nhưng lại có thể khó huấn luyện hơn so với các mô hình khác.

4.3. Đề xuất lựa chọn Mô hình Ngôn ngữ Không Chú ý Attention Free Language Models Phù Hợp với Bài Toán E Commerce

Dựa trên kết quả đánh giá, việc lựa chọn mô hình ngôn ngữ không chú ý phù hợp cho bài toán phân tích tình cảm trên các nền tảng thương mại điện tử phụ thuộc vào yêu cầu cụ thể của ứng dụng. Nếu độ chính xác là yếu tố quan trọng nhất, BiLSTM có thể là lựa chọn tốt nhất. Tuy nhiên, nếu hiệu quả tính toán và khả năng mở rộng là ưu tiên hàng đầu, gMLP có thể là lựa chọn phù hợp hơn. Đối với các ứng dụng đòi hỏi xử lý các chuỗi văn bản rất dài, HyenaDNA có thể là lựa chọn duy nhất. Cần cân nhắc kỹ lưỡng các yếu tố này để đưa ra quyết định phù hợp nhất.

V. Triển Vọng Tối Ưu và Áp Dụng Mô Hình Ngôn Ngữ Không Chú Ý Trong E Commerce

Nghiên cứu này đã chứng minh tiềm năng của các mô hình ngôn ngữ không chú ý (attention-free language models) trong phân tích tình cảm trên các nền tảng thương mại điện tử. Tuy nhiên, vẫn còn nhiều hướng nghiên cứu có thể được khám phá để tối ưu hóa và mở rộng ứng dụng của các mô hình này. Một hướng đi tiềm năng là kết hợp các attention-free models với các kỹ thuật học sâu (deep learning) khác, như transfer learning và domain adaptation, để cải thiện hiệu suất trên các bộ dữ liệu khác nhau. Một hướng đi khác là phát triển các kiến trúc attention-free models mới, có khả năng nắm bắt thông tin ngữ cảnh tốt hơn và xử lý các chuỗi văn bản dài hiệu quả hơn. Cuối cùng, việc nghiên cứu các phương pháp giải thích kết quả phân tích tình cảm của các attention-free models có thể giúp các doanh nghiệp thương mại điện tử hiểu rõ hơn về ý kiến và cảm xúc của khách hàng.

5.1. Các Hướng Nghiên cứu và Phát Triển Tiếp Theo cho Mô Hình Ngôn Ngữ Không Chú ý Attention Free Language Models

Để nâng cao hiệu quả của mô hình ngôn ngữ không chú ý (attention-free language models), các hướng nghiên cứu và phát triển tiếp theo có thể tập trung vào việc kết hợp chúng với các kỹ thuật học sâu (deep learning) khác, cũng như phát triển các kiến trúc mô hình mới. Việc áp dụng các kỹ thuật transfer learning và domain adaptation có thể giúp các attention-free models thích ứng nhanh chóng với các bộ dữ liệu mới và các lĩnh vực khác nhau. Ngoài ra, việc phát triển các kiến trúc attention-free models mới, có khả năng nắm bắt thông tin ngữ cảnh tốt hơn và xử lý các chuỗi văn bản dài hiệu quả hơn, cũng là một hướng đi đầy hứa hẹn.

5.2. Ứng dụng Thực Tế và Tiềm Năng Phát Triển của Mô hình Ngôn Ngữ Không Chú ý Attention Free Language Models trong Thương Mại Điện Tử

Các attention-free models có tiềm năng ứng dụng rộng rãi trong lĩnh vực thương mại điện tử, từ việc phân tích tình cảm trong các đánh giá của khách hàng đến việc cải thiện chatbot và các hệ thống tư vấn sản phẩm. Bằng cách tự động hóa quá trình phân tích tình cảm, các doanh nghiệp thương mại điện tử có thể tiết kiệm thời gian và chi phí, đồng thời có được thông tin chi tiết về ý kiến và cảm xúc của khách hàng. Điều này giúp các doanh nghiệp đưa ra các quyết định kinh doanh sáng suốt hơn, cải thiện sản phẩm và dịch vụ, và nâng cao trải nghiệm khách hàng. Ngoài ra, các attention-free models cũng có thể được sử dụng để phát hiện các bình luận spam hoặc các đánh giá giả mạo, giúp duy trì tính trung thực và tin cậy của các nền tảng thương mại điện tử.

18/04/2025

Bạn đang xem trước tài liệu:

Towards the effectiveness of attention free language models for e commerce platform sentiment analysis

Tải đầy đủ

Trích đoạn nội dung tài liệu

Bộ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TE thành PHố Hồ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC THAM GIA XÉT GIẢI THƯỞNG “NHÀ NGHIÊN CỨU TRẺ UEH” NĂM 2024 TOWARDS THE EFFECTIVENESS OF ATTENTION-FREE LANGUAGE MODELS FOR E-COMMERCE PLATFORM SENTIMENT ANALYSIS Thuộc nhóm chuyên ngành: Khoa học dữ liệu và trí tuệ nhân tạo TP. Hồ Chí Minh Ngày 17 tháng 2 năm 2024 1 Summary of the research While Transformers has gained its popularity in the modern deep learning stack, it has high complexity due to the Attention operation. Although other language models without the use of the Attention component have been proposed, whether they perform effectively in sentiment analysis tasks for e-commerce platform feedback remains understudied. Furthermore, while there have been many surveys and comparative studies on related methods for sentiment analysis, the majority of these studies focus on machine learning and traditional recurrent-based models such as RNN and LSTM without taking into consideration current attention-free language models.

In this work, we evaluate the performance of such attention-free models, namely BiLSTM, TextCNN, gMLP, and Hyena. We collected the dataset of e-commerce platform feedback and release it under the name UEH-Ecom. We then implement the aforementioned models and give a comprehensive analysis and comparison. Our findings show that the accuracy of Bidirectional LSTM, TextCNN, HyenaDNA, and gMLP achieved comparative results compared to RoBERTa with significantly less number of parameters.

In addition, among the considered attention-free models, even though Bidirectional LSTM obtained the highest accuracy, the difference compared to gMLP is tiny. Otherwise, gMLP also acquired the highest Fl score in the considered attention-free model family.1 Overview of the dataset].1 Cross-entropy loss.2 Experimental design for RoBERTaỊ.3 Experimental design for BÌLSTMỊ.4 Experimental design for TextCNN 50 6.5 Experimental design for HyenaDNA|.6 Experimental design for gMLP[. 53 |7 Results and Discussion] 53 7. 53 7,2 Interpretation of Results in the Context of E-Commerce Feedback] .3 Limitations and Future Work!.

56 18 Conclusion and Future Work! 57 A Proof of Cross-entropy Convexity 58 B Evidence of Paper 60 3 Contents 1 Summary of the research 12 Introduction! 9 2,1 Overview of the development of E-commerce platforms!.2 Research gaps and Motivation 10 2.3 Objective of the Research. 13 13 Literature Review 14 |4 Theoretical Framework! 17 4.1 Fundamentals of Language Processing!.1 The Importance of Language Processing!.2 History of NLP and Important Techniques!.2 Attention mechanism and Transformers modell.2 Sliding Window Attention.5 Preliminaries of Attention-Free Models!. 32 2 List of Tables 1 Samples from our dataset, including the content of the feedback, and its corresponding targets. 42 2 Hyperparameters for finetuning RoBERTubaseI.49 13 Performance metrics of various modelsl.

54 List of Figures 1 Number of visits for popular E-commerce platforms. Figure adapted from. 9 2 Popular E-commerce Platform Market Share in 02/2022. 10 3 A taxonomy of research development for efficient Transformers 1196]].

11 4 Overall workflow of comparing attention-free and transformer-based model. After preprocessing, the data is used to train 4 attention-free models and RoBERTa. The performance of these models is then eval- uated using the test data. 14 5 Attention visualizations [104], The model learns to attend to the words that are most relevant given the input word.

Here, the <E0S> is a special token that marks the end of the sentence and <pad> are padding tokens.! 22 4 6 Illustration of the Attention Mechanism. Here, Query Q and Key K are input matrices of dimensions N X N that represent the data and the aspects to focus on, respectively. Similarity Score s is calculated as the outer product of <2 and K (i. Attention Probabilities A is the softmax function applied to the similarity scores to obtain a probability distribution (i.

This represents the attention each part of the input should receive. Value V is another input matrix that represents the original data. It is used in the final computation of the output. Output Ơ is the output calculated as the dot product of the attention probabilities and the value (i.

This represents the final ‘attended* output. 22 7 An overview of the Transformer architecture [96]]I. 23 18 RoBERTa has the same architecture as BERTI. 25 9 Different attention variants architecture.

Figure adapted from Ị58Ị. While memory-compressed attention utilizes convolution to reduce the computation amount of keys and queries, local attention splits the sequences into separate blocks before feeding into the Masked I Multi-head Attention?]. 27 10 Illustration of sliding window attention according to different window patterns [6]. From left to right: vanilla n2 attention, sliding window attention, dilated sliding window, global+sliding window.

27 5 11 An overall design of Flash Attention. Left: GPU components hierarchy and its bandwidth and memory size. Right: An overall architecture of I FlashAttention. 28 12 LSTM Cell with three components: Input Gate, Forget Gate, and Output Gate 116311.

30 13 TextCNN architecture with 2 channels input [52^1. 36 15 gMLP architecture IỊ57Í 39 16 Distribution of the reviews1 length in the training and test set|. 42 17 An Examination of Sentiment Distribution and Sentence Lengths in the Test Set, (a) Depicts the sentiment distribution in the test set, (b) Illustrates the frequency of sentence lengths for both positive (blue) and negative (red) sentiments 42 18 Top 25 most common words in the training datasetl. 43 119 Tradeoff between Precision and Recall!.

46 20 Cross-entropy loss 48 21 BiLSTM architecture. Best view in digital format. 50 22 TextCNN architecture with our setting 51 6 23 Left: Comparison between Accuracy and Total Parameters. gMLP matches 97% the accuracy of RoBERTa while having 100 times fewer parameters.

Right: Validation loss over epochs of the trained models. We trained RoBERTa and Hyena for only 5 epochs as it starts to converge at this point. For other models, we trained for 30 epochs. 54 24 Models^ Training and Validation Loss after 10 epochs.

The bold lines depict the Training loss while the Validation loss is represented in 7 List of Abbreviations Abbreviation Meaning Al Artificial Intelligence BERT Bidirectional Encoder Representations from Transformers BiGRU Bidirectional Gated Recurrent Unit BiLSTM Bidirectional Long-short Term Memory FFN Feedforward Network FLOPS Floating point operations per second GELL' Gaussian Error Linear Unit gMLP Gated Multilayer Perceptron GPT Generative Pre-trained Transformer HBM High Bandwidth Memory HTML HyperText Markup Language NLP Natural Language Processing POS Part of Speech ReLU Rectified Linear Unit RNNs Recurrent Neural Networks RoBERTa Robustly optimized Bidirectional Encoder Representations from Transformers SGU Spatial Gating Unit SRAM Static random-access memory TextCNN Text Convolutional Neural Network URL Uniform Resource Locator 8 2 Introduction 2.1 Overview of the development of E-commerce platforms The evolution of e-commerce over the past five decades has been marked by signifi cant transformations thanks to the advancements and development of both consumer demands and technological progress. The last decade has witnessed an unprecedented surge in growth and widespread popularity worldwide, making E-commerce platforms an indispensable component in the modern commercial exchange industry. Monthly Visits to Companies Over Time Figure 1: Number of visits for popular E-commerce platforms. Figure adapted from |68| As of 2020, global e-commerce sales reached an impressive $4.13 trillion, reflecting an 18 percent increase from the previous year [64J.

In 2021, more than 2 billion people worldwide regularly engaged in e-commerce transactions. Mobile e-commerce, in particular, witnessed substantial growth, constituting nearly 73 percent of total sales in 2021. 9 Popular E-commerce Platform Market Share in 02/2022 In Vietnam, as illustrated in [Figure 2| Shopee accounted for roughly 66% of the total market share by February 2022. Following that is Lazada, Tiki, and Chotol with nearly 12% and 10% respectively.

E-commerce has evolved into an indispensable component of the global retail land scape. As global internet accessibility and adoption escalate, the number of online shoppers continues to rise. The future of retail is unmistakably shifting towards e- commerce, necessitating businesses to adapt and embrace this transformative change to remain competitive.2 Research gaps and Motivation Since its introduction in 2017 by [104], Transformers has been considered a break through in Al research and applications, leading to an unprecedented development in training language models on a large scale, namely [80, [9, 82,|26j|. Furthermore, this 10 successful development has gone beyond the scope of natural language processing to other fields, including computer vision [29.

Over the last few years, a massive body of research work has proposed more efficient Transformer models in an attempt to improve the performance of the vanilla Transformer, including. 7], a taxonomy of this development can be illustrated in |Figure| Lhartormer OKpn parrec ■"erceiver Rvoeec ai.zuz Jaaq^ at '2021 I ransformer-x Nystromformer Dai Ct al 2019 A ., : Hi HI ZIHV Memory / Memory Recurrence compressec uompressivG Downsampling 1 M w, ^. JU I ft franstormer Set I ransformer Rae et al zuw Lccciai,zoi9 Clusterformer Routine iWanget al 2020) Hinne Poonngtormer 1 ransormer * Hl zV/L, Reformer ranstnrmer (NUtv Cl a. 20231 Performer U4KH4I ZU/U unaKxnanjm 01 ai.ztizu: - IL Jig Uirc Learnable ««141.2020 Zaheer ec 41'2020 Low-Rank rans ormer Wlnauai Ml 7320’ Lonaformer swin lie Jijy e.

N ZWJI ranstormer Clustered Attention 1 IU «1 fll. ZUZ4 s nkhorn iVyas el aU 2020) nfnrmer Low Rank / _onc snort I ransrorrr ’avc<e* .zvzw wane Ct al. 2Ũ2DỒ Kerne s I ranstormer /nj*:*t zw I Fixed/Factorized/ Adaptive Random Patterns Sparse Random feature Attention Synthesizer »ave« ?. aw? DC-Net SSharc fransrormer ^^1 /vz 1 i nr.kw ae ransmrmer vo ice el al.

zuzu; auaai 2019 near Sparse I ransiormer Sparse Transformer Ju etauzuz- MV^rcccws eltf. zvzv image Transformer mttciai.zo 9 Switch p»ma'GUI MIS’ Product Key fransformer Axta I ranstormer ►ecu? CI aLZOZU Memory lamoieet auzuis: Scaling Transformer IMWur at *L20?\ Figure 3: A taxonomy of research development for efficient Transformers |96| Despite the aforementioned advancements, one bottleneck of the Transformer archi tecture lies in its Attention mechanism with &{n~} complexity, leading to inefficient training, thus large computational resources are often required to train Transformer based models. While much effort has been made to improve upon this, including adjusting the self-attention to have fixed patterns 120] to applying low-rank methods 11 115] and connecting the fixed blocks of sequences in a recurrent manner Eni, it has been shown that most of these modifications and proposal of novel Transformer variants does not lead to significantly improved performance |70| and that they have poor performance on long-range sequences modeling tasks |951. Therefore, it is necessary to explore other language models that operate without the use of the Attenion operation.

Recent advancements in attention-free language models have been made with the proposal of the novel capable model, including gMLP [57] which ultilizes Multilayer Perceptron (MLP) in combination with a spatial gating unit. Another featured model is Hyena [78, 72], a novel model that has subquadratic complexity by using long convolutions and data-controlled gating as an alternative for the Attention mechanism. Although there have been many comparative studies regarding the use of deep learning models for sentiment analysis |ịl2; 108[|231, most of them do not take into consideration recently proposed attention-free language models since they are relatively new. The question of the effectiveness of such models therefore remains understudied.

Motivated by this, in this work, we make a comprehensive comparison and analysis of attention- free language models in the context of sentiment analysis tasks for E-commerce platform feedback. In particular, wc first collected feedback from the Google Play Store and App Store for five different popular E-commerce platforms in Vietnam, including Shopee, Tiki, Lazada, Sendo, and Chotot. The final complete dataset includes nearly 90 thousand feedback, with over 72 thousand reviews in the training 12 set and 18 thousand in the test set. We then preprocess this data before training and evaluating the models.

Following that, we implement attention-free language models including traditional ones like BiLSTM |88|, TextCNN IĨ5ÕỊ1. and more advanced models, namely gMLP 1571 and Hyena [78]. We train these models from scratch and show that gMLP is the most capable attention-free model for E-commerce platform feedback sentiment analysis, with 87.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân tích Cảm xúc Thương mại Điện tử: Đánh giá Mô hình Ngôn ngữ Không Chú ý (Attention-Free)" cung cấp cái nhìn sâu sắc về cách mà các mô hình ngôn ngữ không chú ý có thể được áp dụng để phân tích cảm xúc trong lĩnh vực thương mại điện tử. Tài liệu này không chỉ giải thích các khái niệm cơ bản mà còn trình bày các phương pháp và kỹ thuật cụ thể giúp cải thiện khả năng phân tích dữ liệu cảm xúc từ phản hồi của khách hàng. Độc giả sẽ nhận được lợi ích từ việc hiểu rõ hơn về cách mà cảm xúc ảnh hưởng đến quyết định mua sắm và cách tối ưu hóa trải nghiệm người dùng.

Nếu bạn muốn mở rộng kiến thức của mình về các khía cạnh liên quan, hãy tham khảo tài liệu Hoàn thiện hoạt động giao nhận hàng xuất khẩu bằng đường hàng không tại công ty avc logistics, nơi bạn có thể tìm hiểu về quy trình giao nhận hàng hóa trong thương mại điện tử. Ngoài ra, tài liệu Nguyên tắc tranh tụng trong giải quyết các vụ án dân sự thực tiễn thực hiện tại tòa án nhân dân thị xã cai lậy tỉnh tiền giang và giải pháp cũng có thể cung cấp những hiểu biết bổ ích về các quy định pháp lý liên quan đến thương mại. Cuối cùng, tài liệu Nghiên cứu chế tạo vi nhũ tương chứa collagen peptide và dầu sachi định hướng làm chất mang vitamin sẽ giúp bạn khám phá thêm về các ứng dụng công nghệ trong sản phẩm tiêu dùng. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và áp dụng kiến thức vào thực tiễn.

#Tối ưu hóa nội dung website

#SEO cho website mới

#xây dựng backlink cho website

#tăng lượt truy cập website mới

#cách tăng traffic website nhanh

#quảng bá website mới hiệu quả

Chủ đề

Chiến lược SEO cho website mới

Tăng trưởng traffic website bền vững

Marketing nội dung cho website mới

Phân tích và tối ưu hóa website