Abstract
يغطي تحليل البيانات غير المكتمل مجموعة واسعة من المشكلات التي غالبًا ما تُرى في الممارسة ، أحد الأمثلة على ذلك هو ملاءمة البيانات المجمعة حيث يُفترض أن كل ملاحظة قد أثيرت من واحدة من مجموعات k المختلفة. نظرًا لأن كل وحدة من وحدات البيانات ومصادرها (أو مصدر بعض الوحدات على الأقل) غير قابلة للرصد ، يمكن التعامل مع ذلك على أنه مشكلة بيانات مفقودة. عادةً ما تُستخدم توزيعات المزيج المحدودة لنمذجة هذا النوع من البيانات متعددة المصادر ، انظر (Little and Rubin ، 2002). يترك فقدان البيانات تقدير الاحتمالية المفضل بدون حل نموذج مغلق. أثبتت خوارزمية التعظيم والتوقع (EM) أنها واحدة من أكثر الأدوات ملاءمة ومرونة لتقديم تقديرات ML. تتناول هذه الورقة نوعين مختلفين من بيانات الخليط غير المكتملة ، البيانات المجمعة (المجمعة) والشرطية (المجمعة مع بعض الترددات الفرعية الإضافية) بيانات الخليط العادي ، من وجهة النظر النظرية والتطبيقية. قد تؤدي المعلومات الإضافية في شكل ترددات فرعية بشكل بديهي إلى مزيد من التحسين في أداء إجراء EM. تم تطبيق الإجراء على مجموعة بيانات محاكاة.