Thống kê đa biến: Lý thuyết và ứng dụng - Kỷ yếu Hội nghị Tartu 2011

Trường đại học

University of Tartu

Chuyên ngành

Thống kê đa biến

Người đăng

Ẩn danh

2013

178
0
0

Phí lưu trữ

45 Point

Tóm tắt

I. Tổng quan về thống kê đa biến lý thuyết và ứng dụng

Thống kê đa biến là một nhánh của thống kê học tập trung vào việc phân tích đồng thời nhiều biến số ngẫu nhiên. Lĩnh vực này bao gồm lý thuyết phân phối, phương pháp ước lượng, và các mô hình phân tích đa biến phức tạp. Hội nghị Tartu về Thống kê Đa biến lần thứ IX, tổ chức tại Estonia năm 2011, đã quy tụ hơn 100 nhà nghiên cứu từ 30 quốc gia. Các nghiên cứu trình bày tại hội nghị涵盖了 nhiều chủ đề then chốt: lý thuyết phân phối, các mô hình phân tích đa biến, thiết kế thí nghiệm, thống kê chiều cao, phương pháp khảo sát mẫu, và mô hình đồ họa. Giáo sư N. Balakrishnan đã trình bày bài giảng chính về các mô hình phân tán mũ đa biến. Thống kê đa biến đóng vai trò nền tảng trong nhiều lĩnh vực khoa học hiện đại, từ y học đến khoa học xã hội, giúp rút ra kết luận có ý nghĩa từ dữ liệu phức tạp nhiều chiều.

1.1. Định nghĩa và phạm vi của thống kê đa biến

Thống kê đa biến nghiên cứu mối quan hệ giữa nhiều biến số cùng lúc trong một tập dữ liệu. Khác với thống kê đơn biến, phương pháp này xử lý dữ liệu nhiều chiều nhằm khám phá cấu trúc ẩn và mẫu tương quan. Phạm vi của thống kê đa biến bao gồm phân tích nhân tố, phân tích cụm, phân tích hồi quy đa biến, và phân tích thành phần chính. Các kỹ thuật này cho phép nhà nghiên cứu giảm chiều dữ liệu, phát hiện nhóm tự nhiên, và dự đoán kết quả dựa trên nhiều biến đầu vào đồng thời.

1.2. Lịch sử phát triển và vai trò hội nghị Tartu

Hội nghị Tartu về Thống kê Đa biến là diễn đàn học thuật quốc tế quan trọng, được tổ chức định kỳ tại Estonia. Hội nghị lần thứ IX kết hợp với Hội nghị Quốc tế lần thứ XX về Ma trận và Thống kê đã tạo ra không gian trao đổi học thuật sâu rộng. Các ấn phẩm proceedings từ hội nghị này được xuất bản bởi World Scientific Publishing, phản ánh chất lượng nghiên cứu đỉnh cao. Hội nghị đã thúc đẩy sự hợp tác quốc tế và đẩy mạnh phát triển lý thuyết thống kê đa biến trong nhiều thập kỷ.

II. Các vấn đề trong phân tích thống kê đa biến hiện đại

Phân tích thống kê đa biến đối mặt với nhiều thách thức phức tạp trong thời đại dữ liệu lớn. Một vấn đề cốt lõi là ước lượng tham số cho các quá trình Markov cộng tính, đặc biệt khi dữ liệu thực nghiệm bị tổng hợp hóa. Theo nghiên cứu của Andronov, chỉ có tổng số lần xuất hiện của các lớp khác nhau được quan sát trong khoảng thời gian dài, gây khó khăn cho việc ước lượng chính xác. Bài toán kiểm duyệt Type-II cũng đặt ra vấn đề nghiêm trọng trong phân tích dữ liệu sinh tồn đa biến. Nghiên cứu về phân phối Farley-Gumbel-Morgenstern tổng quát hóa, được giới thiệu bởi Cuadras, mở ra hướng tiếp cận mới cho mô hình hóa phụ thuộc. Thống kê chiều cao và hiệu chỉnh trước kiểm tra (pre-test) cũng là lĩnh vực đòi hỏi sự phát triển lý thuyết liên tục.

2.1. Bài toán ước lượng tham số với dữ liệu kiểm duyệt

Dữ liệu kiểm duyệt Type-II đặt ra thách thức lớn trong ước lượng tham số đa biến. Trong mô hình lưỡng biến, chỉ k thống kê thứ tự đầu tiên trên biến Y và các biến đồng hành tương ứng trên biến X được quan sát. Nghiên cứu chỉ ra rằng độ chính xác của ước lượng không phụ thuộc nhiều vào giá trị hệ số tương quan ρ. Giá trị độ chệch rất nhỏ ngay cả với kích thước mẫu nhỏ bằng 20, cho thấy phương pháp ước lượng đề xuất gần như không thiên lệch.

2.2. Thách thức với dữ liệu chiều cao và quy mô lớn

Thống kê chiều cao (high-dimensional statistics) đối mặt với vấn đề curse of dimensionality khi số biến vượt quá số mẫu quan sát. Các phương pháp truyền thống như phân tích hồi quy thông thường trở nên không ổn định trong tình huống này. Kỹ thuật regularization như LASSO và elastic net được phát triển để giải quyết vấn đề này. Tuy nhiên, việc lựa chọn tham số điều chỉnh phù hợp vẫn là thách thức nghiên cứu mở, đòi hỏi phương pháp cross-validation và tiêu chuẩn thông tin cải tiến.

III. Phương pháp và kỹ thuật trong lý thuyết thống kê đa biến

Phương pháp hợp lý cực đại (MLE) là kỹ thuật ước lượng cốt lõi trong thống kê đa biến. Andronov đã áp dụng MLE cho quá trình Markov cộng tính bằng cách suy ra hàm điểm số (score function) và sử dụng phương pháp gradient để tối ưu hóa. Ma trận Kronecker đóng vai trò quan trọng trong việc tính toán các phép toán ma trận quy mô lớn. Các mô hình phân tán mũ đa biến, được trình bày bởi Giáo sư B. trong bài giảng chính, cung cấp khuôn khổ lý thuyết tổng quát. Phương pháp quy hoạch Lancelot và các gói phần mềm R như glmnet hỗ trợ triển khai tính toán thực tiễn. Stein-rule estimator và phương pháp kiểm định trước (pre-test) cũng được nghiên cứu sâu trong bối cảnh kinh tế lượng, mở rộng khả năng ước lượng trong điều kiện bất định.

3.1. Phương pháp hợp lý cực đại và gradient tối ưu

Phương pháp hợp lý cực đại xây dựng hàm likelihood dựa trên dữ liệu quan sát, sau đó tìm tham số tối ưu hóa hàm này. Trong bài toán quá trình Markov cộng tính, hàm điểm số được suy đạo giải tích để phục vụ tối ưu hóa gradient. Kỹ thuật này đặc biệt hiệu quả khi dữ liệu bị tổng hợp hóa, tức chỉ có thông tin tổng hợp thay vì dữ liệu thô chi tiết. Quá trình lặp gradient đảm bảo hội tụ về nghiệm tối ưu toàn cục trong điều kiện quy nạp.

3.2. Mô hình phân tán mũ đa biến và kỹ thuật regularization

Mô hình phân tán mũ đa biến tổng quát hóa các phân phối chuẩn và Poisson trong khuôn khổ thống nhất. Nhóm mô hình này bao gồm phân phối chuẩn đa biến, phân phối Gamma nghịch đảo, và nhiều phân phối khác có tính chất tuyến tính tự nhiên. Kỹ thuật regularization như LASSO, ridge regression, và elastic net giúp kiểm soát overfitting khi mô hình có nhiều tham số. Các phương pháp này được triển khai hiệu quả thông qua gói R glmnet, cho phép xử lý dữ liệu quy mô lớn.

IV. Ứng dụng thực tiễn và kết luận thống kê đa biến

Thống kê đa biến có ứng dụng rộng rãi trong nhiều lĩnh vực khoa học và kỹ thuật. Trong y học, phân tích mật độ khoáng xương (BMD) lưỡng biến là ví dụ điển hình. Nghiên cứu của Kundu, Balakrishnan và Jamalizadeh sử dụng dữ liệu BMD của 24 cá nhân, đo tại xương bán kính trội trước và sau một năm thí nghiệm. Dữ liệu vận tải được mô hình hóa bằng quá trình Markov cộng tính, mô tả sự phụ thuộc giữa các thời gian giữa các lần đến. Trong khoa học đời sống và xã hội, các mô hình đồ họa giúp trực quan hóa mối quan hệ phức tạp giữa nhiều biến. Thiết kế thí nghiệm đa biến tối ưu hóa việc thu thập dữ liệu với nguồn lực hạn chế. Tương lai của thống kê đa biến hướng đến tích hợp học máy và xử lý dữ liệu thời gian thực quy mô lớn.

4.1. Ứng dụng trong y học và khoa học đời sống

Phân tích mật độ khoáng xương lưỡng biến minh họa sức mạnh của thống kê đa biến trong nghiên cứu y khoa. Dữ liệu từ 24 cá nhân cho phép đánh giá sự thay đổi BMD theo thời gian, kiểm soát biến nhiễu cá nhân. Mô hình hóa quá trình Markov cộng tính áp dụng trong lĩnh vực vận tải mô tả mẫu luồng khách hàng và sự phụ thuộc giữa các sự kiện. Các nghiên cứu sinh học sử dụng mô hình đồ họa để phát hiện mạng lưới gen và protein phức tạp.

4.2. Hướng phát triển tương lai của thống kê đa biến

Tương lai thống kê đa biến tập trung vào ba hướng chính. Thứ nhất, tích hợp kỹ thuật học máy sâu với phương pháp thống kê truyền thống để cải thiện khả năng dự đoán. Thứ hai, phát triển lý thuyết mới cho dữ liệu siêu chiều cao với số biến lớn hơn nhiều so với số mẫu. Thứ ba, xây dựng hệ thống phân tích thời gian thực cho dữ liệu streaming quy mô lớn. Sự hợp tác liên ngành giữa toán học, khoa học máy tính, và các ngành ứng dụng sẽ thúc đẩy đổi mới trong thập kỷ tới.

21/04/2026

Trích đoạn nội dung tài liệu

Multivariate Statistics THEORY AND APPLICATIONS 8705hc_9789814449397_tp.indd 1 22/2/13 8:46 AM This page intentionally left blank Proceedings of IX Tartu Conference on Multivariate Statistics and XX International Workshop on Matrices and Statistics Multivariate Statistics THEORY AND APPLICATIONS Tartu, Estonia, 26 June – 1 July 2011 Editor Tõnu Kollo University of Tartu, Estonia World Scientific NEW JERSEY • LONDON • S I N G A P O R E • B E I J I N G • S H A N G H A I • H O N G K O N G • TA I P E I • C H E N N A I 8705hc_9789814449397_tp.indd 2 22/2/13 8:46 AM Published by World Scientific Publishing Co. 5 Toh Tuck Link, Singapore 596224 USA office: 27 Warren Street, Suite 401-402, Hackensack, NJ 07601 UK office: 57 Shelton Street, Covent Garden, London WC2H 9HE British Library Cataloguing-in-Publication Data A catalogue record for this book is available from the British Library. MULTIVARIATE STATISTICS: THEORY AND APPLICATIONS Proceedings of IX Tartu Conference on Multivariate Statistics and XX International Workshop on Matrices and Statistics Copyright © 2013 by World Scientific Publishing Co. All rights reserved. This book, or parts thereof, may not be reproduced in any form or by any means, electronic or mechanical, including photocopying, recording or any information storage and retrieval system now known or to be invented, without written permission from the Publisher. For photocopying of material in this volume, please pay a copying fee through the Copyright Clearance Center, Inc., 222 Rosewood Drive, Danvers, MA 01923, USA. In this case permission to photocopy is not required from the publisher. ISBN 978-981-4449-39-7 Printed in Singapore. HeYue - Multivariate Statistics.pmd 1 2/21/2013, 2:12 PM February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 v PREFACE This volume consists of selected papers presented at the IX Tartu Confer- ence on Multivariate Statistics organized jointly with the XX International Workshop on Matrices and Statistics. The conference was held in Tartu, Estonia from 26 June to 1 July 2011. More than 100 participants from 30 countries presented in four days recent devolopments on various topics of multivariate statistics. The papers cover wide range of problems in modern multivariate statistics including distribution theory and estimation, different models of multivariate analysis, design of experiments, new developments in high- dimensional statistics, sample survey methods, graphical models and appli- cations in different areas: medicine, transport, life and social sciences. The Keynote Lecture by Professor N. Balakrishnan was delivered as the Samuel Kotz Memorial Lecture. Thorough treatment of multivariate exponential dispersion models is given by Professor B. A new general approach to sampling plans is suggested by Professor Y. Ahmed compares different strategies of estimating regression parameters. Cuadras introduces a generalization of Farley-Gumbel- Morgenstern distributions. As Editor I am thankful to the authors who have presented interest- ing and valuable results for publishing in the current issue. The book will be useful for researchers and graduate students who work in multivariate statistics. The same time numerous applications can give useful ideas to scientists in different areas of research. My special thanks go to the anony- mous Referees who have done great job and spent lot of time with reading the papers. Due to their comments and suggestions the presentation of the material has been improved and the quality of the papers has risen. I am extremely thankful to the technical secretary of the volume Dr. Ants Kaasik who has efficiently organised correspondence with the authors and Referees. Tõnu Kollo Tartu, Estonia Editor October 2012 February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 This page intentionally left blank February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 vii ORGANIZING COMMITTEES PROGRAMME COMMITTEE of The 9th Tartu Conference on Multivariate Statistics and The 20th International Workshop on Matrices & Statistics D. von Rosen (Chairman) – Swedish University of Agricultural Sciences, Linköping University, Sweden G. Styan – McGill University, Canada (Honorary Chairman of IWMS) T. Kollo (Vice-Chairman) – University of Tartu, Estonia S. Ahmed – University of Windsor, Canada J. Hunter – Auckland University of Technology, New Zealand S. Puntanen – University of Tampere, Finland G. Trenkler – Technical University of Dortmund, Germany H. Werner – University of Bonn, Germany ORGANIZING COMMITTEE of The 9th Tartu Conference on Multivariate Statistics and The 20th International Workshop on Matrices & Statistics K. Pärna (Chairman) – University of Tartu, Estonia A. Kaasik (Conference Secretary) – University of Tartu, Estonia February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 This page intentionally left blank February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 ix CONTENTS Preface v Organizing Committees vii Variable Selection and Post-Estimation of Regression Parameters Using Quasi-Likelihood Approach 1 S. Ahmed Maximum Likelihood Estimates for Markov-Additive Processes of Arrivals by Aggregated Data 17 A. Andronov A Simple and Efficient Method of Estimation of the Parameters of a Bivariate Birnbaum-Saunders Distribution Based on Type-II Censored Samples 34 N. Zhu Analysis of Contingent Valuation Data with Self-Selected Rounded WTP-Intervals Collected by Two-Steps Sampling Plans 48 Yu. Kriström Optimal Classification of Multivariate GRF Observations 61 K. Dučinskas and L. Dreižienė Multivariate Exponential Dispersion Models 73 B. Martı́nez Statistical Inference with the Limited Expected Value Function 99 M. Käärik and H. Kadarik February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 x Shrinkage Estimation via Penalized Least Squares in Linear Regression with an Application to Hip Fracture Treatment Costs 112 A. Häkkinen K-Nearest Neighbors as Pricing Tool in Insurance: A Comparative Study 130 K. Möls Statistical Study of Factors Affecting Knee Joint Space and Osteophytes in the Population with Early Knee Osteoarthritis 141 T. Traat Simultaneous Confidence Region for ρ and σ 2 in a Multivariate Linear Model with Uniform Correlation Structure 157 I. Žežula and D. Klein Author Index 167 February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 1 VARIABLE SELECTION AND POST-ESTIMATION OF REGRESSION PARAMETERS USING QUASI-LIKELIHOOD APPROACH S. FALLAHPOUR Department of Mathematics and Statistics, University of Windsor, Windsor, ON N9B 3P4, Canada E-mail: fallahp@uwindsor. AHMED Department of Mathematics, Brock University, St. Catharines, ON L2S 3A1, Canada E-mail: sahmed5@brocku.ca In this paper, we suggest the pretest estimation strategy for variable selec- tion and estimating the regression parameters using quasi-likelihood method when uncertain prior information (UPI) exist. We also apply the lasso-type es- timation and variable selection strategy and compare the relative performance of lasso with the pretest and quasi-likelihood estimators. The performance of each estimator is evaluated in terms of the simulated mean square error. Fur- ther, we develop the asymptotic properties of pretest estimator (PTE) using the notion of asymptotical distributional risk, and compare it with the un- restricted quasi-likelihood estimator (UE) and restricted quasi-likelihood esti- mator (RE), respectively. The asymptotic result demonstrates the superiority of pretest strategy over the UE and RE in meaningful part of the parameter space. The simulation results show that when UPI is correctly specified the PTE outperforms lasso. Keywords: Pretest Estimator; Quasi-likelihood; Asymptotic Distributional Bias and Risk; Lasso. Introduction First, we present the quasi-likelihood (QL) function and describe its prop- erties. The term quasi-likelihood was introduced by Robert Wedderburn1 to describe a function which has similar properties to the log-likelihood function, except that a QL function is not the log-likelihood corresponding to any actual probability distribution. Instead of specifying a probability February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 2 distribution for the data, only a relationship between the mean and the variance is specified in the form of a variance function when given the vari- ance as a function of the mean. Thus, QL is based on the assumption of only the first two moments of the response variable. Consider the uncorrelated data yi with E(yi ) = µi and var(yi ) = ϕV (µi ), where µi is to be modeled in terms of a p-vector of parameters β, the variance function V (.) is assumed a known function of µi , and ϕ is a multiplicative factor known as the dispersion parameter or scale parameter that is estimated from the data. Suppose that for each observation yi , the QL function Q(yi ; µi ) is given by ∫ µi yi − t Q(yi ; µi ) = dt. ∂µi ϕV (µi ) Let us consider n independent observations y = (y1 , y2 , . , yn )′ with a set of predictor values xi = (xi1 , xi2 , . In the generalized linear form we have ∑p E(yi ) = µi , g(µi ) = βr xir i = 1, . , n, r=1 with the generalized form of variance var(yi ) = ϕV (µi ) i = 1, .) is the link function which connects the random component y to the systematic components x1 , x2 , . It is obvious that µi is a function of β since µi = g −1 (x′i β), so we can rewrite µ = µ(β). The statistical objective is to estimate the regression parameters β1 , β2 , . Since the observations are independent by assumption, the QL for the complete data is the sum of the individual quasi-likelihoods: ∑ n Q(y, µ) = Q(yi , µi ). i=1 The estimation of the regression parameters β is obtained by differen- tiating Q(y, µ) with respect to β, which may be written in the form of U(β̂) = 0, where U(β) = D′ V−1 (µ)(y − µ)/ϕ February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 3 is called the quasi-score function and β̂ is the unrestricted maximum quasi- likelihood estimator (UE) of β. Here, D is a n × p matrix and the compo- nents ∂µi Dir = i = 1, 2, . , p ∂βr are the derivatives of µ(β) with respect to the parameters. Since the data are independent, V(µ̂) can be considered in the form of a diagonal ma- trix V(µ) = diag{V1 (µ1 ), . , Vn (µn )}, where Vi (µi ) is a known function depending only on the ith component of the mean vector µ. Wedderburn1 and McCullagh2 show that quasi likelihoods and their corresponding max- imum quasi-likelihood estimates have many properties similar to those of likelihoods and their corresponding maximum likelihood estimates. McCullagh2 showed that, under certain regularity conditions, the UE (β̂) is consistent estimator of β, and √ n(β̂ − β) ∼ Np (0, ϕ Σ−1 ), ( ) where Σ = D′ V−1 (µ)D . The covariance matrix Σ and ϕ can be esti- mated using β̂ 1 ∑ Σ̂ = D̂′ V−1 (µ̂)D̂, ϕ̂ = (yi − µ̂i )2 /Vi (µ̂i ), n−p i where µ̂i = µi (β̂). The rest of this paper is organized as follows. In Section 2, we suggest pretest estimation strategy and lasso or absolute penalty estimator (APE). Section 3 provides and compares the asymptotic results of the estimators. In Section 4, we demonstrate via simulation that the suggested strategies have good finite sample properties. Section 5 offers concluding remarks. Improved Estimation and Variable Selection Strategies 2. Pretest Estimations In this section we consider the estimation problem for the QL models when some prior information (non-sample information (NSI) or uncertain prior information (UPI)) on parameters β is available. The prior information about the subset of β can be written in terms of a restriction and we are interested in establishing estimation strategy for the parameters when they are subject to constraint F′ β = d, February 15, 2013 11:7 8705 - Multivariate Statistics Tartu˙ws-procs9x6 4 where F is a p × q full rank matrix with rank q ≤ p and d is a given q × 1 vector of constants. Under the restriction, it is possible to obtain the estimators of the parameters of the the sub-model, commonly known as the restricted maximum quasi-likelihood estimator or simply restricted estimator (RE). Indeed, following Heyde,3 the RE can be written as β̃ = β̂ − Σ−1 F(F′ Σ−1 F)−1 (F′ β̂ − d). Generally speaking, β̃ performs better than β̂ when UPI is true.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ