Chương 1: Lý luận chung về đánh giá của người dùng trên trang thương mại điện tử và các phương pháp xử lý ngôn ngữ tự nhiên. Chương này tập trung giải thích các khái niệm có trong dé tài, đồng thời lý luận những van đề tông quan, nêu ý nghĩa của đề tài nghiên cứu và đề xuất phương pháp, mô hình nghiên cứu. - Chương 2: Quy trình đánh giá cảm xúc của người dùng trên trang thương mai điện tử Foody. + Vì bộ đữ liệu lấy trực tiếp từ những đánh giá trên Foody, hoàn toàn chưa qua xử lý nên ở chương này, nghiên cứu sẽ tiến hành tiền xử lý những đánh giá này.
Đây là bước quan trọng trong những bài toán NLP vì dữ liệu thu thập được thường không được “đẹp” như dữ liệu dạng bảng, gồm rất nhiều từ viết tắt, email, số điện thoại,. hoàn toàn có thé gây anh hưởng lớn đến kết quả mô hình về sau. + Bên cạnh đó nghiên cứu sẽ phân tích qua các đặc điểm chung của bộ dữ liệu dựa trên các từ ngữ phô biến hay gặp và đánh giá của người dùng. Dựa trên phân phối điểm và các bình luận cụ thể của từng nhóm điểm, nghiên cứu sẽ gán nhãn cho các đánh giá nhằm tiến hành chạy mô hình cho phan sau.
+ Sau cùng nghiên cứu sẽ tiến hành phân tích bằng các mô hình hay được sử dụng trong các bài toán phân lớp và tiễn hành dự đoán rồi đưa ra kết quả về hiệu năng của mô hình tương ứng, so sánh giữa các mô hình và chọn ra mô hình tốt nhất. Kết luận và kiến nghị. Chương cuối cùng nghiên cứu đưa ra những so sánh về mô hình, cách gán nhãn và thời gian chạy. Từ đó đưa ra các kiến nghị dựa trên đặc điểm dit liệu cũng như đề xuất các mô hình phù hợp.
CHUONG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TREN TRANG THUONG MẠI ĐIỆN TU VÀ CÁC PHƯƠNG PHAP XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1. Tổng quan về vấn đề nghiên cứu. Thương mại điện tử trong những năm qua đã có sự bùng phát trên thị trường thế giới và trở thành đòn bay cho sự tăng trưởng kinh tế và thương mại ở nhiều quốc gia trong môi trường toàn cầu hoá. Có thé coi đây là một lĩnh vực giao thoa giữa thương mại truyền thống và công nghệ thông tin đang càng ngày càng phát triển.
Trong thương mại điện tử, các công tác người dùng hoá và marketing một mục tiêu, tương tác một- một được đầu tư phát triển mạnh hơn nhiều so với thương mại truyền thống. Bên cạnh đó, lượng dữ liệu thu thập được trên các trang thương mại điện tử vô cùng dồi dào. Mỗi ngày có hàng triệu các đơn hàng được đặt từ các sản thương mại điện tử, kèm theo các đánh giá, hình ảnh liên quan. Tuy nhiên van đề nảy sinh ra là dit liệu trên những sàn thương mại điện tử này hầu hết đều ở dang dữ liệu phi cau trúc (những loại dữ liệu văn bản, hình ảnh, âm thanh,.) khác biệt rất lớn so với dữ liệu bảng thông thường nên việc phân tích cũng như lưu trữ cũng gặp nhiều khó khăn, không thể sử dụng các cơ sở dữ liệu quan hệ hay các phương pháp thống kê đơn giản để xử lý.
Với sự phát triển của khoa học công nghệ, các phương pháp thống kê ngày càng trở nên mạnh mẽ với sự kết hợp của toán học cũng như công nghệ tính toán. Ngày nay với sự trợ giúp của những thiết bị máy tính mạnh mẽ, chúng ta có thể thiết kế những mô hình học máy với hàng tỷ các biến số với hiệu năng cao hơn nhiều so với các mô hình toán và thong kê cổ điển. Bài toán dự đoán thái độ của người dùng dựa trên phản hồi đánh giá không còn là đề tài quá mới mẻ trong phân tích dữ liệu. Trong 10 năm trở lại đây, có nhiều những nghiên cứu được xem là bước nhảy vọt trong xử lý ngôn ngữ tự nhiên như “Attention Is All You Neeđ” (tạm dịch là Sự chú ý là tất cả chúng ta cần) về mô hình Transformers (mạng biến đổi) của Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N.
Gomez, Lukasz Kaiser, Illia Polosukhin là những nhà nghiên cứu từ Google nham cải thiện công nghệ dich máy của mình và công nghệ đi ngay sau nó chuyên sâu hơn cho các bài toán phân loại văn bản như trong đề tài nghiên cứu là “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (tạm dịch là BERT: Mô hình biến đổi 2 chiều dùng trong xử lý ngôn ngữ) cua Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Ca 2 công nghệ trên ngay sau khi được công bố đều đem lại một làn sóng đột phá rất lớn tới cộng đồng những nhà phân tích dữ liệu chuyên sâu về ngôn ngữ tự nhiên. Ở Việt Nam, VinAI cũng có một phiên ban BERT của riêng mình là “PhoBERT: Pre-trained language models for Vietnamese” (PhoBERT: mô hình ngôn ngữ cho Tiếng Việt) của Dat Quoc Nguyen, Anh Tuan Nguyen với cái tên lay cảm hứng từ món ăn đặc trưng ở Việt Nam là “Phở”. Rất nhiều những nghiên cứu sau này đều được tiễn hành dựa trên 10 các mô hình mạng biến đổi hay BERT với bài toán khá tương tự với dé tài nghiên như “Vietnamese hate and offensive detection using PhoBERT-CNN and social media streaming data” (tạm dịch: Phat hiện thai độ tiêu cực sử dung PhoBERT-CNN từ nền tảng xã hội trực tuyến) từ Quoc Tran Khanh, Trong Nguyen An, Hoang Phu Gia, Luu Canh Duc, Do Trong-Hop & Nguyen Kiet Van va A Text Classification for Vietnamese Feedback via PhoBERT-Based Deep Learning (Phân loại văn bản cho các phan hồi Tiếng Việt qua PhoBERT) của Cu Vinh Loc, Truong Xuan Viet, Tran Hoang Viet, Le Hoang Thao & Nguyen Hoang Viet.
Do vay, em quyết định sử dung các bình luận trên Foody dé đưa vào phân tích và đưa ra dự đoán phù hợp về đánh giá của người dùng sử dụng PhoBERT nêu trên và một số các phương pháp khai phá đữ liệu cơ bản như SVM, Hồi quy Logistics, Naive Bayes,. nhằm so sánh hiệu quả của các mô hình dé chọn ra mô hình tốt nhất. Đề xuất mô hình nghiên cứu. Dựa trên cơ sở các nghiên cứu nêu ở phân tông quan, nhóm nghiên cứu đê xuât mô hình nghiên cứu như sau.
Vector Bình luận của được Cảm xúc của người dùng người dùng tính toán vê sản phâm từ văn bản Biến độc lập Biến phụ thuộc Bình luận của người dùng là dạng văn bản phi cấu trúc, do đó sẽ không thể trực tiếp đưa vào phân tích được. Vì vậy sẽ phải mã hoá thành dạng véc tơ phù hợp bằng các phương pháp vector hoá dùng phô biến trong xử lý ngôn ngữ tự nhiên là TF-IDF. Từ các véc tơ được mã hoá chứa thông tin của ngôn ngữ kết hợp với điểm dự đoán thu thập được, ta sẽ đưa vào mô hình huấn luyện và dé tiến hành dự đoán thái độ của người dùng về sản phâm đã đặt trước đó. Những vấn đề chung về Thương mại điện tử.
Thương mại điện tử. Thuong mại điện tử (Electronic commerce hay eCommerce) là khái niệm được dùng dé mô tả quá trình mua và bán hoặc trao đôi sản phẩm, dịch vụ thông qua mang internet. Khái niệm trên là kết hợp của thuật ngữ “Thương mại” được hiểu rộng rãi là quá trình trao đôi, giao dịch giữa các bên kinh doanh; và “điện tử” là các thiết bị điện tử. Do vậy, thương mại điện tử có thể hiểu đơn giản là mua và bán hàng hoá, dịch vụ ở trên mạng, thông qua các phương thức điện tử.
Với sự phát triển của mạng máy tính, các phương thức thanh toán ngày càng trở nên đa dạng và phô biến, thương mại điện tử là một trong những thuật ngữ, những ngành nghề trở nên phổ biến những năm gần đây ở Việt Nam nói riêng hay toàn thế giới nói chung. Những năm gần đây, những sàn thương mại điện tử ngày một mọc lên và phát triển với tốc độ chóng mặt như Shopee, Lazada, Tiki,. với hàng triệu giao dịch hàng ngày. Chính vì sự phát triển mạnh mẽ này kết hợp với cơ sở hạ tầng số ngày càng được đầu tư phát triển của nước ta hiện nay, các doanh nghiệp đã và đang giành sự quan tâm mạnh mẽ đến lĩnh vực này.
Hiện nay không khó bắt gặp các kênh bán của những thương hiệu nồi tiếng trên thế giới như Samsung, NVIDIA, LG,. trên các san thương mại điện tử, một số bên còn có riêng sàn cho riêng mình. Có thể nói, thương mại điện tử đã trở thành yếu tố xúc tác làm thay đổi cơ cấu hoạt động và quan lý của các tô chức. Sàn thương mại điện tử.
Sàn thương mại điện tử được hiểu là một không gian mạng được mở ra nhằm mục đích giao bán những sản phẩm dich vụ từ đa dang các nhà cung cấp một cách trực tiếp đến người tiêu dùng. Mỗi ngày có đến hàng triệu các giao dịch được diễn ra trên một sản thương mại điện tử lớn. San thương mại điên tử mang đến nhiều loi ích cho người tiêu dùng. Đồng thời với hệ thống giao hàng công nghệ được phát triển song song mạnh mẽ, người mua hàng có thể nhận hàng ở nơi mình mong muốn mà không tốn công sức đi lại.
Chính vì vậy, đây chính là hình thức mua sắm được đây mạnh trong những năm vừa qua. Nhà cung cấp trên sàn thương mại điện tử. Nhà cung cấp trên sản thương mại điện tử là những các nhân hay tô chức cung cấp hàng hoá và tham gia bán hàng trên các sàn thương mại điện tử. Các bên nhà cung cấp sẽ phải đồng ý với những chính sách cũng như chỉ phí, thuế suất phải trả cho sàn và nhà nước, cũng như phải đảm bảo nguồn cung hàng hoá và cung cấp hàng đúng thời hạn cho bên vận chuyền.
Người dùng trên sàn thương mại điện tử. Nếu như nhà cung cấp trên sàn thương mại điện tử chính là người bán thì người dùng trên sàn sẽ là người mua. Người dùng trên sàn được định danh bằng tài khoản cá nhân hoặc một số trường hợp có thể là tài khoản dành riêng cho doanh nghiệp. Tài khoản cá nhân của người dùng thông thường cần cung cấp đầy đủ các thông tin như tên tuổi, số điện thoại, địa chỉ, email, số căn cước công dân, hộ chiếu hay mã số thuế tuỳ vào các đối tượng khác nhau dé được hưởng day đủ chính sách của sàn.
Người dùng trong sàn thương mại điện tử là một đối tượng có khả năng xem và mua hàng, nhắn tin cho người ban và dé lại những đánh giá về sản phẩm. Đánh giá của người dùng. Đánh giá của người dùng chính là những bình luận của người dùng về hàng hoá hay dịch vụ sau khi đã mua và trải nghiệm qua sản phẩm.