Phân bổ và lập kế hoạch tài nguyên tích hợp trong môi trường đa tác nhân ngẫu nhiên

Nghiên cứu luận án tiến sĩ về phân bổ và lập kế hoạch tài nguyên tích hợp trong môi trường đa tác nhân ngẫu nhiên, mang lại giải pháp tối ưu.

Trường đại học

The University of Michigan

Người đăng

Ẩn danh

Thể loại

dissertation

2006

250
4
0

Phí lưu trữ

55 Point

Mục lục chi tiết

DEDICATION

ACKNOWLEDGEMENTS

LIST OF FIGURES

ABSTRACT

1. CHAPTER 1: Introduction

1.1. Resource Allocation and Stochastic Planning

1.2. Main Contributions

Tóm tắt

I. Tổng quan về Phân bổ Tài nguyên Đa Tác nhân Ngẫu nhiên

Bài toán phân bổ tài nguyên giữa nhiều tác nhân tự động (agents) xuất hiện rộng rãi trong thế giới hiện đại. Một nhà quản lý doanh nghiệp cần phân bổ ngân sách hạn chế cho các phòng ban. Một trung tâm máy tính đối mặt với việc phân bổ tài nguyên hạn chế cho các tác vụ tính toán. Một chính phủ chịu trách nhiệm phân phối các nguồn tài nguyên khan hiếm của đất nước (ví dụ: phổ tần vô tuyến) cho người dân và doanh nghiệp. Việc đưa ra các quyết định phân bổ đúng đắn trong các tình huống này có thể mang tính chất sống còn. Tuy nhiên, phân bổ tài nguyên một cách “đúng đắn” có nghĩa là gì? Một nhà quản lý giỏi muốn tối đa hóa lợi nhuận dài hạn của doanh nghiệp. Một quy trình phân bổ tài nguyên cho các tác vụ trong môi trường máy tính nên hướng đến việc hoàn thành càng nhiều công việc hữu ích càng tốt. Mục tiêu của một chính phủ hoạt động chuyên nghiệp và trung thực là làm những gì tốt nhất cho người dân của mình. Trong tất cả những điều trên, mục tiêu của quy trình phân bổ tài nguyên là tối đa hóa thước đo tiện ích toàn cầu mà các tác nhân trong hệ thống có thể đạt được bằng cách sử dụng các tài nguyên này. Điều này, đến lượt nó, đặt ra câu hỏi về điều gì quyết định giá trị của một tập hợp tài nguyên cụ thể đối với một tác nhân. Các tác nhân sử dụng tài nguyên để theo đuổi mục tiêu của họ và nhận phần thưởng khi đạt được mục tiêu sau này. Tuy nhiên, để có thể đạt được những mục tiêu đó, các tác nhân thường cần giải quyết một bài toán lập kế hoạch không tầm thường.

1.1. Giới thiệu bài toán Lập kế hoạch Tài nguyên Ngẫu nhiên

Bài toán lập kế hoạch tài nguyên trong môi trường ngẫu nhiên là một vấn đề phức tạp, đòi hỏi sự kết hợp giữa phân bổ tài nguyênra quyết định dưới điều kiện không chắc chắn. Các tác nhân phải đưa ra quyết định về cách sử dụng tài nguyên để đạt được mục tiêu, đồng thời phải đối mặt với sự không chắc chắn về kết quả của các hành động của mình. Điều này đòi hỏi các mô hình và thuật toán có thể xử lý cả hai khía cạnh của vấn đề. Theo Dmitri A. Dolgov, việc tích hợp phân bổ tài nguyênlập kế hoạch cho phép khai thác cấu trúc vấn đề mà nếu xem xét riêng rẽ sẽ bị mất. (Dolgov, 2006)

1.2. Tầm quan trọng của Mô hình hóa Tác nhân trong Môi trường Ngẫu nhiên

Việc mô hình hóa tác nhân trong môi trường ngẫu nhiên là rất quan trọng để hiểu và giải quyết bài toán phân bổ tài nguyên. Các mô hình này phải nắm bắt được khả năng, mục tiêu và ràng buộc của các tác nhân, cũng như sự không chắc chắn về môi trường. Các mô hình phổ biến bao gồm các tiến trình quyết định Markov (MDPs) và các biến thể của chúng. Việc sử dụng MDPs cho phép biểu diễn rõ ràng các trạng thái, hành động, phần thưởng và xác suất chuyển đổi, tạo điều kiện cho việc phát triển các thuật toán hiệu quả.

II. Thách thức trong Phân bổ Tài nguyên Đa Tác nhân Ngẫu nhiên

Trong bất kỳ lĩnh vực thực tế nào, quy trình lập kế hoạch trở nên phức tạp do thực tế là một tác nhân phải đối mặt với nhiều mục tiêu phụ thuộc lẫn nhau, mà việc đạt được chúng đòi hỏi phải thực hiện các chuỗi hành động có kết quả không chắc chắn. Ví dụ: lợi nhuận của một doanh nghiệp phải chịu nhiều yếu tố bên ngoài (nhu cầu, cạnh tranh, luật pháp) mà hiếm khi có thể dự đoán chắc chắn. Trọng tâm của luận án này là các vấn đề liên kết với nhau về phân bổ tài nguyênra quyết định tuần tự trong điều kiện không chắc chắn về động lực của môi trường mà các tác nhân hoạt động. Khi được xem chủ yếu từ góc độ phân bổ tài nguyên, công trình này có thể được mô tả như một nghiên cứu về các thuật toán phân bổ tài nguyên, trong đó giá trị của tài nguyên đối với các tác nhân được xác định bởi các bài toán lập kế hoạch ngẫu nhiên của tác nhân. Ngoài ra, nếu bài toán lập kế hoạch được đặt lên hàng đầu, công trình có thể được mô tả như một nghiên cứu về lập kế hoạch đa tác nhân trong điều kiện không chắc chắn, trong đó các tương tác giữa các tác nhân được xác định bởi các tài nguyên đang được phân phối giữa chúng. Chúng tôi tập trung vào các vấn đề trong đó việc phân bổ tài nguyên được thực hiện trong một bước duy nhất: tài nguyên được phân phối giữa các tác nhân và không cho phép phân bổ lại tài nguyên trong giai đoạn thực hiện kế hoạch.

2.1. Độ phức tạp của Môi trường Đa Tác nhân và Tính Ngẫu nhiên

Môi trường đa tác nhân với tính ngẫu nhiên tạo ra những thách thức đáng kể cho việc phân bổ tài nguyên. Sự tương tác giữa các tác nhân, sự không chắc chắn về kết quả của các hành động và sự phức tạp của không gian trạng thái làm cho việc tìm kiếm các giải pháp tối ưu trở nên khó khăn. Các thuật toán phải có khả năng xử lý sự không chắc chắn, thích ứng với hành vi của các tác nhân khác và mở rộng quy mô để xử lý các hệ thống lớn.

2.2. Vấn đề về Quyền riêng tư Thông tin trong Phân bổ Tài nguyên

Trong các hệ thống đa tác nhân, các tác nhân có thể không muốn tiết lộ thông tin riêng tư của họ cho các tác nhân khác. Điều này tạo ra một thách thức cho việc phân bổ tài nguyên, vì các thuật toán có thể cần thông tin về sở thích và khả năng của các tác nhân để đưa ra các quyết định hiệu quả. Các cơ chế bảo vệ quyền riêng tư thông tin có thể được sử dụng để giải quyết vấn đề này, cho phép các tác nhân chia sẻ thông tin cần thiết mà không tiết lộ thông tin nhạy cảm.

2.3. Khó khăn trong Tối ưu hóa Tài nguyên với Ràng buộc

Việc tối ưu hóa tài nguyên thường đi kèm với các ràng buộc, chẳng hạn như giới hạn về số lượng tài nguyên có sẵn hoặc các yêu cầu về hiệu suất. Các ràng buộc này làm cho bài toán trở nên khó giải quyết hơn, vì các thuật toán phải tìm kiếm các giải pháp đáp ứng tất cả các ràng buộc đồng thời tối ưu hóa một số mục tiêu. Các kỹ thuật lập trình tuyến tính và lập trình số nguyên có thể được sử dụng để giải quyết các bài toán tối ưu hóa có ràng buộc.

III. Phương pháp Phân bổ Tài nguyên Tích hợp Dựa trên MDP

Đóng góp chính của luận án này là một lớp các phương pháp phân bổ tài nguyên mới cho các bài toán trong đó các hàm tiện ích của tác nhân được tạo ra bởi các tiến trình quyết định Markov. Kết quả chính của công trình này là nó nhận ra rằng có rất nhiều cấu trúc trong các sở thích do MDP tạo ra, có thể được khai thác để mang lại sự giảm đáng kể (thường là theo cấp số nhân) về độ phức tạp tính toán của thuật toán phân bổ tài nguyên. Cụ thể hơn, những đóng góp chính của công trình được trình bày trong luận án này như sau (được mô tả sơ đồ trong Hình 1.1 với các nhãn trong hình tương ứng với số trong danh sách bên dưới).

3.1. Mô hình hóa MDP với Tài nguyên và Ràng buộc Dung lượng

Trình bày các mô hình mới dựa trên khuôn khổ của các tiến trình quyết định Markov (MDP) về các bài toán lập kế hoạch ngẫu nhiên cho các tác nhân có khả năng được tham số hóa bởi các tài nguyên có sẵn cho họ. Hơn nữa, các mô hình nắm bắt các tình huống trong đó các tác nhân có dung lượng hạn chế, hạn chế những tập hợp tài nguyên mà họ có thể sử dụng. Lợi ích của việc làm cho khái niệm tài nguyên và dung lượng trở nên rõ ràng trong các mô hình lập kế hoạch ngẫu nhiên là nó cho phép tham số hóa bài toán lập kế hoạch hỗ trợ việc phát triển đa tác nhân hiệu quả.

3.2. Thuật toán Phân bổ Tài nguyên Hiệu quả về Mặt Tính toán

Phát triển và đánh giá một bộ các phương pháp phân bổ tài nguyên hiệu quả về mặt tính toán cho các tác nhân có sở thích do MDP tạo ra. Hiệu quả tính toán đạt được thông qua việc sử dụng các kỹ thuật sau. Các thuật toán khai thác cấu trúc bắt nguồn từ các mô hình sở thích dựa trên MDP của tác nhân. Như chúng tôi trình bày trong luận án này, việc sử dụng cấu trúc đó và đồng thời giải quyết các bài toán phân bổ tài nguyên và lập kế hoạch dẫn đến sự giảm đáng kể về độ phức tạp tính toán. Chúng tôi trình bày các cơ chế phân bổ tài nguyên có thể áp dụng rộng rãi cho cả tác nhân hợp tác và tác nhân tư lợi.

IV. Ứng dụng Thực tiễn của Phân bổ Tài nguyên Tích hợp

Các phương pháp phân bổ tài nguyên tích hợp có thể được áp dụng cho nhiều lĩnh vực khác nhau, bao gồm quản lý chuỗi cung ứng, lập kế hoạch sản xuất, điều phối robot và quản lý tài nguyên máy tính. Trong mỗi lĩnh vực này, các tác nhân phải đưa ra quyết định về cách sử dụng tài nguyên để đạt được mục tiêu của họ, đồng thời phải đối mặt với sự không chắc chắn về môi trường. Các phương pháp phân bổ tài nguyên tích hợp có thể giúp các tác nhân đưa ra các quyết định tốt hơn bằng cách xem xét cả hai khía cạnh của vấn đề.

4.1. Ứng dụng trong Quản lý Chuỗi Cung ứng

Trong quản lý chuỗi cung ứng, các tác nhân (ví dụ: nhà cung cấp, nhà sản xuất, nhà phân phối) phải phối hợp các hoạt động của họ để đáp ứng nhu cầu của khách hàng. Các phương pháp phân bổ tài nguyên tích hợp có thể được sử dụng để phân bổ tài nguyên (ví dụ: hàng tồn kho, năng lực sản xuất, phương tiện vận chuyển) giữa các tác nhân, đồng thời xem xét sự không chắc chắn về nhu cầu và thời gian giao hàng.

4.2. Ứng dụng trong Lập kế hoạch Sản xuất

Trong lập kế hoạch sản xuất, các tác nhân (ví dụ: nhà máy, máy móc, công nhân) phải phối hợp các hoạt động của họ để sản xuất hàng hóa. Các phương pháp phân bổ tài nguyên tích hợp có thể được sử dụng để phân bổ tài nguyên (ví dụ: nguyên vật liệu, thời gian máy móc, lao động) giữa các tác nhân, đồng thời xem xét sự không chắc chắn về thời gian sản xuất và chất lượng sản phẩm.

4.3. Ứng dụng trong Điều phối Robot

Trong điều phối robot, các robot phải phối hợp các hoạt động của họ để hoàn thành một nhiệm vụ. Các phương pháp phân bổ tài nguyên tích hợp có thể được sử dụng để phân bổ tài nguyên (ví dụ: năng lượng, thời gian, không gian) giữa các robot, đồng thời xem xét sự không chắc chắn về môi trường và khả năng của robot.

V. Kết luận và Hướng Nghiên cứu Tương lai về Phân bổ Tài nguyên

Luận án này đã trình bày một khuôn khổ chính thức về các bài toán phân bổ tài nguyênlập kế hoạch ngẫu nhiên, phân tích các thuộc tính của chúng và phát triển các thuật toán giải quyết có thể xử lý được về mặt tính toán. Các kết quả cho thấy rằng việc tích hợp hai bài toán và nghiên cứu chúng song song có thể khai thác hiệu quả cấu trúc bị mất nếu các bài toán được xem xét riêng biệt. Các phương pháp được phát triển trong luận án này có thể được áp dụng thành công cho các bài toán phân bổ tài nguyên rất lớn, trong đó sở thích của các tác nhân được xác định bởi các bài toán lập kế hoạch ngẫu nhiên cơ bản.

5.1. Tóm tắt Đóng góp Chính của Nghiên cứu

Nghiên cứu này đã đóng góp vào lĩnh vực phân bổ tài nguyên bằng cách phát triển các phương pháp mới có thể xử lý các bài toán phức tạp trong môi trường ngẫu nhiên. Các phương pháp này dựa trên việc tích hợp phân bổ tài nguyênlập kế hoạch ngẫu nhiên, cho phép khai thác cấu trúc vấn đề và giảm độ phức tạp tính toán.

5.2. Các Vấn đề Mở và Hướng Nghiên cứu Tương lai

Mặc dù nghiên cứu này đã đạt được những tiến bộ đáng kể, nhưng vẫn còn nhiều vấn đề mở và hướng nghiên cứu tương lai. Một trong những vấn đề quan trọng là phát triển các thuật toán có thể xử lý các bài toán phân bổ tài nguyên với số lượng lớn các tác nhân và tài nguyên. Một hướng nghiên cứu khác là phát triển các cơ chế phân bổ tài nguyên có thể khuyến khích các tác nhân hợp tác và chia sẻ thông tin.

27/05/2025

Trích đoạn nội dung tài liệu

INTEGRATED RESOURCE ALLOCATION AND PLANNING IN STOCHASTIC MULTIAGENT ENVIRONMENTS by Dmitri A. Dolgov A dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy (Computer Science and Engineering) in The University of Michigan 2006 Doctoral Committee: Professor Edmund H. Durfee, Chair Professor Kang G. Shin Professor Demosthenis Teneketzis Professor Michael P.

Wellman Associate Professor Satinder Singh Baveja UMI Number: 3224868 INFORMATION TO USERS The quality of this reproduction is dependent upon the quality of the copy submitted. Broken or indistinct print, colored or poor quality illustrations and photographs, print bleed-through, substandard margins, and improper alignment can adversely affect reproduction. In the unlikely event that the author did not send a complete manuscript and there are missing pages, these will be noted. Also, if unauthorized copyright material had to be removed, a note will indicate the deletion.

® UMI UMI Microform 3224868 Copyright 2006 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P.

Box 1346 Ann Arbor, MI 48106-1346 © Dmitri A. Dolgov All rights reserved 2006 To my parents and Anya. ii ACKNOWLEDGEMENTS First and foremost, I owe a lot of gratitude to my advisor, Ed Durfee. Without his support, patience, academic guidance, and technical advice, this dissertation would not have been possible.

I especially want to thank Ed for giving me the freedom to explore and supporting me when I got excited about problems, even at times when he didn’t quite share my enthusiasm. I truly believe Ed’s top work priority is the growth of his students, and for that I offer my deepest thanks! I’m very grateful to the members of my committee, Kang Shin, Satinder Singh, Demos Teneketsis, and Michael Wellman for their valuable advice and insightful comments on my work. Michael Wellman deserves special credit for doing a very thorough job reviewing my thesis. I’m very thankful to my teachers at the University of Michigan, especially professors Martha Pollack and Kevin Compton.

The administrators of the Michigan AI Lab deserve many thanks for their help in navigating various financial and administrative jungles. The support of Kelly Cormier, Colleen Neilson, and Wendy Anderson was truly indispensable. My friends in the AI Lab contributed significantly to making my life there fun, productive, and sometimes both. Thanks to all of you, and especially Jeff C.! Among my non-AI friends, I thank Tami & Mike U., and Lisa & Derek C.

for making my life in Ann Arbor much more enjoyable. ABC deserves a mention for continued and consistent support. Also, to all the people with whom I played soccer and went skiing, thanks. I would have long withered without those games and trips! To my parents I owe so much more than can be expressed on paper or in words.

Mom, Dad, thanks for everything! Finally, I thank my fiance, friend, colleague, and editor, Anya, for her love and encouragement. iv TABLE OF CONTENTS DEDICATION. và va ii ACKNOWLEDGEMENTS .0000 pee eee iii LIST OF FIGURES. ee viii ABSTRACT ©.ga và va xi CHAPTER 1.1 Resource Allocation and Stochastic Planning .3 Overview of the Thesis.

Non-Consumable Resources: Single-Agent Model .1 Planning Under Uncertainty: Markov Decision Processes.2 Agent Model: MDPs with Resources and Capacity Constraints 19 2.3 Properties of the Single-Agent Constrained MDP .5 Binary Resource Costs. Allocation of Non-Consumable Resources .1 Multiagent Resource Allocation.2 Avoiding Bundle Enumeration .3 Distributing the Winner-Determination Problem .4 Preserving Information Privacy. cv gà và và và 72 4. Constrained MDPs with Multiple Discount Factors.1 Justification for Costs and Multiple Discounts.

75 4,2 Stationary Deterministic Policies for Constrained MDPs .3 Stationary Deterministic Policies for MDPs with Multiple Discounts 2. ng ng kg kg kia 84 43.5 Discussion and Generalization.1 Single-Agent Problem Formulation .2 Problem Properties and Complexity .3 Solution for MDPs with Constraints on the Expected Resource CostS oe 110 5.4 Probabilistic Constraints: Linear Approximation .5 Probabilistic Constraints: Polynomial Approximation.1 Calculating the Probability of Exceeding Cost Bounds125 5.2 Computing the Moments .4 Restricting to Stationary Deterministic Policies.6 Multiagent Resource Allocation. cv KT va 147 6. Multiagent MDPs with Local and Asymmetric Dependencies 150 6.1 Graphical Multiagent MDPs .2 Properties of Graphical Multiagent MDPs.3 Maximizing Social Welfare .4 Maximizing Own Welfare .1 Acyclic Dependency Graphs .2 Cyclic Dependency Graphs.00 ee eee ee ee 173 6.

Approximate Planning and Resource Allocation with Fac- tored MDP.1 Factored MDPs and Approximate Linear Programming .2 Approximation of the DualLP.2 Resource Allocation with Factored MDPs .4 Discussion: Folding Resources into MDPs .1 Summary of Contributions .2 Open Questions and Future Directions. Quà kg v kk sa 223 vii LIST OF FIGURES Figure 1. Q vn ng va 5 2.1 Unconstrained MDP example, delivery domain.2 Mapping general utility functions to constrained MDPs.3 Reduction for NP-completeness proof of constrained MDP.1 Preserving information privacy example.2 Running time for a MDP-based WDP MILP for different constraint levels, 2 .3 Comparison of the running time of MDP-based and flat combinato- rial auetÏlONS. c Q Q LH HQ ng nu gà gà xa ko 67 3.4 Scaling the MDP-based winner-determination MILP to more agents.5 Scaling of the MDP-based winner-determination MILP with the number of resource typeéS.6 Complexity of MDP-based winner-determination MILP as a function of complexity of actions’ resource requirements.7 Complexity of MDP-based winner-determination MILP when re- source requirements scale with the number of resource types.1 Example: MDP with constraint on expected cost.2 Example: MDP with two discount factors.3 Value of deterministic and randomized policies for constrained MDPs.4 Complexity profile for constrained MDPs as a function of constraint level.

20 cu gà kg NV k va 4.5 Performance profile for finding optimal deterministic policies for constrained MDPs.6 Solution time for MDP with two discount factors.1 Optimal policies for problems with constraints on consumable resources require randomization and are not uniformly optimal.2 Reduction of HC to MDP with consumable resources and probabilis- tic constraints. HQ ky và va 5.3 MDPs with probabilistic constraints are non-linear and non-convex.4 Sub-optimality of linear Markov approximation for the delivery example.9 Iterative Markov approximation for the delivery example.6 Probability of exceeding cost bounds for the linear Markov approx- imationnN ©. nà à v kg kg KV v V k Ka 5.7 Quality of single-shot Markov approximation.8 Effect of iteratively adjusting the Markov bound.9 Distribution of total cost, comparison to normal.10 Simple problem with two states and two actions.11 Quality of third-degree Legendre approximation of acdf.12 Polynomial approximation of a pdf for several policies.13 Scaling with the number of agents: consumable and non-consumable YESOUICES.14 Scaling with the number of resource types: consumable and non- consumable reSOUTC@S.15 Scaling with the number of resource types and action resource requirements. ix Agent dependency graph.

QC 153 Illustration for Theorem 6. so 164 Assembly line example. eee ee 166 Additive rewards. Two-agent problems.

175 Multiagent problems, additive rewards: existence of equilibrium strategies. ng hà k v kg k kg kia 179 Example of a simple cluster graph that forms a junction tree. 196 Efficiency of resource allocation with factored MDPs. 202 Comparison of ALP methods.

209 ABSTRACT Resource allocation is a ubiquitous problem that arises whenever scarce resources have to be distributed among multiple autonomous entities (e., people, companies, robots). Stochastic planning is also a very common problem that focuses on developing models and algorithms for behaving optimally in uncertain environments. The motivation for this dissertation is that the problems of resource allocation and stochastic planning are often very strongly intertwined: the utility for acquiring some resources is commonly determined by what goals can be achieved using these resources, while devising the best course of action for achieving these goals can involve solving a complex stochastic planning problem. An integrated approach to modeling and solving the problems of resource allocation and stochastic planning allows us to exploit problem structure that would otherwise be lost if the problems were considered separately.

The overarching goal of this dissertation is to develop computationally efficient mechanisms for allocating consumable and non-consumable resources among agents whose preferences for these resources are induced by stochastic planning problems. Towards this end, we develop new models of planning problems, based on the framework of Markov decision processes (MDPs), where the action sets are explicitly parameterized by the available resources. Given these models, we design algorithms based on linear and integer programming that simultaneously solve for optimal allocations of resources and strategies for acting in the stochastic environments. These algorithms then form the core of our mechanisms for allocating resources xi in cooperative as well as competitive multiagent settings.

We show analytically and empirically that the integrated approach leads to drastic (in many cases, exponential) improvements in computational efficiency over methods that consider the problems separately. To complement the above, we develop mechanisms that, in addition to exploiting structure in agents’ preferences arising from regularities in the underlying planning problems, also exploit structure within the agents’ MDPs. By utilizing and extending techniques based on approximate linear programming, we adapt our resource- allocation mechanisms to well-structured planning problems, represented as factored MDPs. This leads to algorithms that scale up to even larger resource-allocation problems, where the agents’ preferences are induced by MDPs with extremely large state spaces.

xI CHAPTER 1 Introduction The problem of resource allocation among multiple autonomous entities (agents) is ubiquitous in the modern world. A business manager has to distribute a limited budget among the departments of the company. A computing center faces the problem of allocating its limited resources among computational tasks. A government is in charge of distributing the scarce resources of its country (e., wireless spectrum) among its people and businesses.

Making the right allocation decisions in these and other similar scenarios can be of critical importance. However, what does it mean to allocate the resources in the “right” way? A good manager wants to maximize the long-term profitability of her business. A process that allocates resources to tasks in a computing environment should aim to get as much useful work done as possible. The goal of a professionally run and honest government is to do what is best for its people.

In all the above, the goal of the resource-allocation process is to maximize a measure of global utility that can be obtained by the agents in the system by using these resources. This, in turn, raises the question of what determines the value of a particular set of resources to an agent. Resources are used by the agents to pursue their goals and to obtain rewards on achieving the latter. However, in order to be able to achieve those goals, the agents often need to solve a nontrivial planning problem.

For example, when making decisions regarding budget allocation, a manager needs to consider how the money will be used and what will be accomplished as a result. Ina computing center, it is important to understand what sequence of steps is required to complete a task before resources can be allocated to it. Similarly, before a government can make an informed decision about how to allocate the wireless spectrum in the best possible way, someone has to evaluate the possible uses of the frequencies and the resulting benefits. Further, in any realistic domain, such a planning process is complicated by the fact that an agent faces multiple interdependent objectives, whose achievement requires executing sequences of actions whose outcomes are uncertain.

For instance, profitability of a business is subject to many external factors (demand, competition, legislation) that can seldom be predicted with certainty. The focus of this dissertation is on the interconnected problems of resource allocation and sequential decision making under uncertainty about the dynamics of the environments the agents operate in. When viewed primarily from the resource allocation perspective, this work can be characterized as a study of algorithms for resource allocation where the values of the resources to the agents are defined by the agents’ stochastic planning problems.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ