The Fitting of Incomplete Bivariate Normal Data: A Numerical Approach

تاريخ النشر

2010

نوع المقالة

رسالة ماجستير

عنوان الرسالة

كلية العلوم - جامغة طرابلس

المؤلفـ(ون)

سميرة ميلود ارحومة

ملخص

نظرا للأهميه الكبيرة التى يلعبها التوزيع الطبيعي المتعدد في كثير من التطبيقات في حياتنا اليومية، وفي بعض الأحيان تواجهنا بيانات في الواقع العملي تكون غير كاملة لسبب او لآخر مثل عدم الدقة في تسجيل البيانات أو الإهمال والغياب أو الحرائق والتلف وغيرها، جاءت فكرة هدا البحث لتسليط بعض الضوء حول هدا الموضوع .ويهدف هدا البحث الى تقديم أسلوب الأرجحية العظمى لتقدير معالم التوزيع الطبيعي الثنائي وذلك في الحالات التى تكون فيها البيانات ناقصة، ونظرا لعدم تطبيق الطريقة المباشرة للتقدير في مثل هذه الحالات فإننا نلجأ الى بعض الطرق التجريبية والتى تعتمد على قيم إبتدائية إفتراضية للمعالم المجهولة والمراد تقديرها من واقع المعلومات المتاحة، وقد يكون من أهم هذه الطرق العددية طريقة نيوتن رافسون المعروفة والتى تعتمد على مصفوفة المعلومات لفيشر وكذلك طريقة تعظيم القيمه المتوقعه (EM) والتى صاغ ملامحها النهائية العالم ديمبستر وزملاءه في العام 1977، وتتميز هذه الطريقة بالسهولة في الإستخدام والدقة وقلة حساسيتها لإختيار القيم الأولية للمعالم المجهولة وجزء من إهتمام هذه الرسالة يتعلق بتطبيق هاتين الطريقتين على مجموعة من البيانات الطبيعية الثنائية المولدة إصطناعيا عن طريق المحاكاة بالحاسوب وهذه البيانات تعمدنا أن تكون ناقصة، الأمر الذي يمكننا من مقارنة أداء كل طريقة والوقوف على ميزاتها وعيوبها وذلك عند إستخدام نفس البيانات و نفس القيم الأاولية للمعالم، أي تهيئة نفس الظروف للطريقتين مما يجعل المقارنة عادلة بينهما تم في هده الدراسة توليد 10 مجموعات مختلفة من البيانات الطبيعية الثنائية حيث تم إستخدام معالم مختلفة في كل مرة، حيث إستخدمنا قيم مختلفة لمعامل الإرتباط الخطي بين المتغيرين، ولتفادي التكرار والإسهاب إقتصرت النتائج في هذا البحث على ثلاثة قيم لمعامل الارتباط الخطي هي 0، 0.5، 0.9 وفي كل مجموعة من البيانات إعتبرنا أن هناك قيما مفقودة حيث تراوح عددها من واحد الى عشرة قيم وذلك للوقوف على تأثير معامل الارتباط وكذلك عدد القيم المفقودة على عملية التقدير وذلك عند إستخدام الطريقتين في التقديرلكي تسهل عملية المفاضلة بينهما تحت نفس الظروف.وخلصت الدراسة الى أن أسلوب تعظيم القيمة المتوقعة (EM) لها الأفضلية المطلقة على طريقة نيوتن رافسون المعدلة حيث أنها أسهل تطبيقا وأكثر دقة ولا تتأثر بالقيم الأولية بنفس درجة طريقة نيوتن رافسون المعدلة. ومن أهم فوائد هذه الطريقة بالإضافة الى تقدير المعالم المجهولة بأفضل الطرق، إمكانية إسترجاع القيم المفقودة لتكوين بيانات كاملة و التى قد تستخدم فيما بعد لأي تحليل أو إستخدام مباشر أو غير مباشر.

Abstract

The object of this thesis is to introduce a statistical technique, namely, the maximum likelihood estimation procedure to fit an incomplete bivariate normal data using two widely known iterative techniques, the EM and Newton-Raphson iterative procedures. This enable us to investigate a general estimation procedure for the bivariate normal parameters, not for the typical case where all observations are considered to be known but in the case of a missing data, since in practice we often find ourselves confronted with a large number of data sets which are not complete.As an introductory chapter of this thesis, chapter one is designed to include a general introduction as well as a full literature review of previous related studies followed by a definition of the multivariate and the bivariate normal distributions, at the end of this chapter we focus on describing the problem of incomplete data where some items of the data are missing.Chapter two is devoted to review the theoretical background of the thesis which provide aspects and definition of the maximum likelihood methodology and to define the conditional multivariate normal distribution which then to be used when some data are given and some other data are to be considered missing, then to give a review of the iterative EM algorithm and Newton-Raphson method as a general numerical frameworks to provide the maximum likelihood estimation of the bivariate normal distribution in the case of incomplete data. As last chapter of this thesis, chapter three is devoted to the application part of the thesis. The demonstration of the two fitting procedures, the EM and the Modified Newton Raphson methods, is performed with ten different data sets to highlight the many advantages of the procedures when applied to many incomplete data sets each with different correlation value and varying number of missing observations. The final part of this study illustrated the most important conclusions and outlines of possible future work by which this study could be extended.