LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Hồ Chí Minh, ngày … tháng … năm 202… (Ký tên và ghi rõ họ tên) iii ABSTRACT Pricing strategies refer to the methods that price products to maximize business profits. One of the challenges is that while improving profits, businesses should have chosen the appropriate method and come up with an efficient usage. Thus, statistical estimations have become useful in supporting solving the problem. Many existing pricing tactics applications can be used with regression or causal inference. However, those approaches may include general assumptions or robust which might result in ineffective strategies. In this paper, we apply machine learning techniques with causal inference to the pricing strategies. We consider two groups of methods. The first group, known as unconfoundedness, is using conditional moment models that gives strict statistical assumptions and most of its’ models implement regressions, while the other, known as instrumental variable estimation, includes flexible demonstrations of nuisance components and weaker assumptions. Orthogonal Random Forest which belongs to unconfoundedness models and our suggested improvements were experimented and analyzed with both synthetic and real datasets. Testing with real dataset helped evaluate the model when applying to pricing strategy problems. Depending on specific strategy, predictions should provide suggestions that support human in making significant decisions to optimize the business benefit. This work aimed to improve the highly effective Orthogonal Random Forest which was introduced in 2019. In short, instead of calculating scores based on moment function assumption, we would like to do some estimations. This comes from the idea that absolute sampling errors related to the moment may increase while splitting data. Therefore, exact score finding can accidentally skip those. While measurement is not feasible, adding definable errors by estimating can make things more realistic. Moreover, controllable errors support in tuning the model with low cost comparing with tree increments or some other solutions, which usually harm the training speed. We performed simulation experiments learned from the model paper. Furthermore, iv we tested on real data to see how effective the model in solving pricing strategies problems. v TÓM TẮT Chiến lược định giá là tên gọi của một nhóm các phương pháp gán giá cho sản phẩm nhằm tối đa lợi ích doanh nghiệp. Một trong những thách thức là trong lúc cải thiện lợi ích, doanh nghiệp cần chọn phương pháp phù hợp và suy nghĩ về cách thực hiện sao cho hiệu quả. Vì vậy, ước lượng thống kê đã trở nên cực kỳ hữu ích. Hầu hết ứng dụng chiến lược định giá đều có thể kết hợp hồi quy hay suy luận nhân quả. Tuy nhiên, những cách tiếp cận này có thể bao gồm giả định mang tính chung chung hoặc mạnh mẽ và từ đó có thể khiến chiến lược không hiệu quả. Cũng trong công trình nghiên cứu này, kỹ thuật máy học được áp dụng cùng suy luận nhân quả trong chiến lược định giá. Có hai nhóm phương pháp. Ở nhóm đầu tiên, được biết đến với tên “unconfoundedness”, sử dụng các mô hình mô-men có điều kiện mà theo đó là các giả định thống kê khắt khe, và hầu hết trong nhóm này đều tích hợp các giải pháp hồi quy. Trong khi đó, nhóm còn lại là ước lượng biến điều khiển, bao gồm các thành phần gây hại cùng với giả định yếu hơn. Kỹ thuật Rừng Ngẫu Nhiên Trực Giao thuộc nhóm unconfoundedness cùng với cải tiến của nó được thực nghiệm và phân tích với dữ liệu giả lập và dữ liệu thật. Thực nghiệm dữ liệu thật giúp đánh giá mô hình khi áp dụng vào bài toán chiến lược định giá. Trong đó, tùy thuộc vào chiến lược cụ thể, dự đoán mô hình dẫn đến các gợi ý hỗ trợ con người đưa ra các quyết định quan trọng nhằm tối ưu hóa lợi ích doanh nghiệp. Nghiên cứu này tập trung cải thiện mô hình đã rất hiệu quả Rừng Ngẫu Nhiên Trực Giao lần đầu giới thiệu năm 2019. Một cách ngắn gọn, thay vì tính toán điểm số dựa trên giả định liên quan đến hàm mô-men, cải tiến sẽ thực hiện ước lượng. Ý tưởng là việc lỗi xây dựng tập mẫu sẽ tăng lên đáng kể trong lúc thực hiện chia tách dữ liệu. Từ đó, việc tính toán chính xác có thể khiến nó bị bỏ qua. Khi việc đo lượng lỗi chính xác là không khả thi, thêm một hàm phát sinh lỗi định nghĩa từ trước bằng cách ước lượng có thể khiến mọi thứ thực tế hơn. Hơn nữa, giá trị lỗi còn giúp bổ sung thêm tham số có thể thay đổi giúp cải thiện mô hình với chi phí thấp so với việc tăng số lượng cây hoặc các giải pháp ảnh hưởng đến tốc độ huấn luyện khác. Thử nghiệm giả vi lập được tham khảo từ bài báo. Hơn nữa, thực nghiệm trên dữ liệu có thật được tiến hành để quan sát độ hiệu quả của mô hình trong việc giải quyết vấn đề chiến lược định giá. vii MỤC MỤC Trang tựa TRANG Quyết định giao đề tài . Biên bản chấm luận văn tốt nghiệp thạc sĩ . Phiếu nhận xét . Lý lịch khoa học . ii Lời cam đoan . vi Mục mục . viii Danh sách chữ viết tắt . x Danh sách các bảng . xi Danh sách các hình . xii Chương 1 TỔNG QUAN .1 Tính cấp thiết của đề tài .2 Mục tiêu và đối tượng nghiên cứu .3 Nhiệm vụ nghiên cứu và giới hạn .4 Phương pháp nghiên cứu .5 Ý nghĩa thực tiễn của đề tài .6 Kết cấu của luận văn . 10 Chương 2 CƠ SỞ LÝ THUYẾT .1 Suy luận nhân quả .1 Hồi quy tuyến tính.2 Hiệu ứng liệu pháp dựa trên nhân quả .2 Phương pháp suy luận .1 Cơ sở xây dựng phương pháp .2 Chiến lược định giá . 28 Chương 3 TÌNH HÌNH NGHIÊN CỨU .1 Suy luận nhân quả .2 Ước lượng nghiệm phương trình .3 Tối ưu chiến lược định giá . 35 Chương 4 CẢI TIẾN RỪNG NGẪU NHIÊN TRỰC GIAO BẰNG PHƯƠNG PHÁP KẾT HỢP ƯỚC LƯỢNG NGHIỆM .1 Giải pháp xây dựng cây trong Rừng Ngẫu Nhiên Trực Giao .2 Phương pháp kết hợp giải nghiệm Newton phương trình bậc một.3 Phương pháp đề xuất.1 Phương pháp Ước lượng Chebyshev – Halley .2 Phương pháp Ước lượng Newton cải tiến . 44 CHƯƠNG 5 KẾT QUẢ THỰC NGHIỆM .2 Dữ liệu thật. 57 Chương 6 KẾT LUẬN .3 Hướng phát triển đề tài . 73 TÀI LIỆU THAM KHẢO . 79 ix DANH SÁCH CHỮ VIẾT TẮT STT Ký hiệu Nguyên nghĩa 1 UTE Hiệu ứng liệu pháp đơn vị 2 ATE Hiệu ứng liệu pháp trung bình 3 ATET Hiệu ứng liệu pháp trung bình xét trên đối tượng áp dụng liệu pháp 4 ATEC Hiệu ứng liệu pháp trung bình xét trên nhóm chứng 5 CATE Hiệu ứng liệu pháp trung bình có điều kiện 6 DML Mô hình Double Machine Learning 7 ORF Mô hình Rừng Ngẫu Nhiên Trực Giao 8 FE “Fan Edition”. Tên một dòng điện thoại Samsung Galaxy Note 9 MAE Sai số tuyệt đối trung bình 10 MSE Sai số toàn phương trung bình x DANH SÁCH CÁC BẢNG BẢNG TRANG Bảng 5.1: Cấu hình cho các mô hình tham gia thử nghiệm .2: Môi trường thực hiện thử nghiệm, thời gian chạy giả lập .3: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 1 .4: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 15 .5: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 20 .6: Phần trăm tăng hay giảm hệ số lỗi MAE so với Newton chuẩn.7: Phần trăm tăng hay giảm hệ số lỗi MSE so với Newton chuẩn.8: Phần trăm tăng hay giảm hệ số lỗi tuyệt đối của ATE so với Newton chuẩn.9: Phần trăm tăng hay giảm hệ số lỗi MAE so với Newton chuẩn.10: Phần trăm tăng hay giảm hệ số lỗi MSE so với Newton chuẩn.11: Phần trăm tăng hay giảm hệ số lỗi tuyệt đối của ATE so với Newton chuẩn.12: Bảng thuộc tính bộ dữ liệu thực nghiệm .13: Mô tả kiểu trình bày đồ thị quan hệ giữa thuộc tính - hiệu ứng .14: Kết luận dựa trên ước lượng UTE với định giá tâm lý là liệu pháp.15: Kết luận dựa trên ước lượng UTE với định giá giảm là liệu pháp.16: Kết luận dựa trên ước lượng UTE với giá cả là liệu pháp.70 xi DANH SÁCH CÁC HÌNH HÌNH TRANG Hình 2.1: Mô hình quan hệ của biến nhiễu W .2: Mô hình quan hệ của biến điều khiển Z .1: Mô hình sơ đồ cây mẫu trong Rừng Ngẫu Nhiên Trực Giao .2: Đồ thị của 𝜌𝑔 và 𝜌𝑓 .3: Đường phân cách thẳng dọc tại 𝑥 = 1, vuông góc với trục Ox .1: Biểu đồ MAE theo giá trị support của bốn giải pháp, với 𝑛 = 25 .2: Biểu đồ MSE theo giá trị support của bốn giải pháp, với 𝑛 = 25 .3: Biểu đồ hệ số lỗi tuyệt đối của ATE theo giá trị support của bốn giải pháp, với 𝑛 = 25 .4: Biểu đồ MAE theo giá trị support của bốn giải pháp, với 𝑛 = 50 .5: Biểu đồ MSE theo giá trị support của bốn giải pháp, với 𝑛 = 50 .6: Biểu đồ hệ số lỗi tuyệt đối của ATE theo giá trị support của bốn giải pháp, với 𝑛 = 50 .7: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Newton .8: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Chebyshev – Halley (2) .9: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Chebyshev – Halley (3) .10: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Newton cải tiến .11: Kết quả từ mô hình Newton cải tiến. Các mô hình đều dự đoán tỉ lệ nữ giới có việc làm toàn thời gian trên 35% giúp hiệu ứng ổn định hơn.12: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Newton .13: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Chebyshev – Halley (2) .14: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Chebyshev – Halley (3) .15: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Newton cải tiến .16: Đồ thị dự đoán hiệu ứng định giá giảm theo income của Newton cải tiến. Vùng xám là miền có hệ số thu nhập dưới 10.
Mục lục chi tiết
THÔNG TIN CHI TIẾT
Chuyên ngành: Ứng dụng mô hình suy luận nhân quả Rừng Ngẫu Nhiên Trực Giao
Đề tài: Kỹ Thuật Suy Luận Nhân Quả Trong Chiến Lược Định Giá Hiệu Quả
Loại tài liệu: luận văn
Năm xuất bản: 202...
Địa điểm: Hồ Chí Minh
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ