جانهی

جانهی، در آمار، فرایند جایگزین‌کردن داده‌های گم‌شده با مقدارهای جای‌گزین است. جایگزین کردن یک نقطه دادهٔ گم‌شده، به‌عنوان «جانهی یکه»، و یک مولفهٔ یک نقطه داده به‌عنوان «جانهی موردی» شناخته می‌شود. داده‌های گم‌شده منجر به سه مشکل اصلی می‌شوند: داده‌های گم‌شده می‌توانند منجر به سطح قابل توجهی از اریبی شوند، ساختن و مدیریت‌کردن داده‌ها را دشوار می‌کنند و منجر به کاهش کارایی می‌شوند.^[۱] چون داده‌های گم‌شده می‌تواند منجر به بروز مشکل برای تحلیل داده ایجاد کند، جانهی به‌عنوان راهی برای برای پیش‌گیری از اشتباهات مربوط به روش حذف لیستی در مواردی که داده‌های گم‌شده ایجاد شده شوند. به این دلیل که، وقتی یک یا چند مقدار، برای یک مورد گم‌شده‌اند، اکثر بسته‌های آماری، به‌طور پیش‌فرض هر موردی که دادهٔ گم‌شده دارد را حذف می‌کنند، که ممکن است منجر به اریبی یا تأثیر بر مناسب بودن داده‌های برای نمایندگی جامعه شوند. جانهی همهٔ موارد را با جایگزین‌کردن داده‌های گم‌شده با مقدار برآوردی بر اساس داده‌های موجود دیگر، حفظ می‌کند. وقتی که همهٔ داده‌های گم‌شده جانهی شدند، دادگان می‌توانند با استفاده از روش‌های استاندارد برای داده‌های کامل، تحلیل شوند.^[۲] نظریهٔ جانهی به‌طور مداوم در حال توسعه است و بنابراین به توجه مداوم به اطلاعات جدید به‌توجه به موضوع دارد. نظریه‌های زیادی در مورد داده‌های گم‌شده توسط دانش‌مندان ارائه شده‌است، اما عمدهٔ آن‌ها منجر به سطح زیادی از اریبی می‌شوند. تعداد کمی از تلاش‌های مشهور برای کار با داده‌های گم‌شده از این قرارند: جانهی هات‌دک (روش جانهی بی‌درنگ) و کُلددک (روش جانهی بادرنگ)، حذف لیستی و زوجی، جانهی با میانگین، جانهی رگرسیونی، جانهی تصادفی و جانهی چندگانه.

حذف لیستی (مورد کامل)

تاکنون، رایج‌ترین وسیلهٔ کنترل کردن داده‌های گم‌شده حذف لیستی (که با عنوان مورد کامل هم شناخته می‌شود) بوده‌است، که به حالتی گفته می‌شود که همهٔ موارد شامل دادهٔ گم‌شده حذف شوند. اگه دادها به‌شکلی کاملاً تصادفی گم‌شده باشند، آن‌گاه حذف لیستی هیچ اریبی‌ای ایجاد نمی‌کند، اما به‌دلیل کاستن از اندازهٔ نمونه آماری، توان تحلیل داده‌ها را کاهش می‌دهد. برای مثال اگر ۱۰۰۰ نمونه جمع‌آوری شده باشد، اما ۸۰ نمونه مقدارهای گم‌شده داشته باشند، مقدار حجم نمونهٔ مؤثر بعد از حذف، ۹۲۰ خواهد بود. در غیر این‌صورت اگر داده‌ها به شکل کاملاً تصادفی گم‌شده نباشند، آن‌گاه حذف لیستی منجر به بروز اریبی می‌شود، چون زیرنمونهٔ حاصل پس از حذف لیستی، نمایندهٔ خوبی برای نمونهٔ اصلی نیست (و اگر نمونهٔ اصلی خود نمایندهٔ مناسبی برای جمعیت باشد، موارد کامل نمایندهٔ خوبی برای جامعه نمی‌شوند). حالتی که داده‌ها کاملاً به‌تصادف از دست‌رفته باشند، در واقعیت به‌ندرت رخ می‌دهد.^[۳]

حذف زوجی (یا «تحلیل موردی در دسترس») شامل حذف‌کردن یک مورد، هنگام از دست دادن یک متغیر مورد نیاز برای یک تحلیل و همچنین افزودن آن مورد هنگام وجود همهٔ متغیرهای آن مورد برای آن تحلیل خاص می‌شود. هنگام استفاده از حذف زوجی، N کلی در طول برآورد پارامتر سازگار نخواهد بود. زیرا مقدار N ناقص در یک نقطه از زمان، برای پارامتر دیگر مقایسه کامل را حفظ می‌کند. حذف زوجی می‌توند منجر به شرایط ناممکن ریاضی، مانند همبستگی بیشتر از ۱۰۰درصد شود.^[۴]

یک مزیت روش مورد کامل نسبت به سایر روش‌ها، پیاده‌سازی راحت و سرراست آن است. این دلیل اصلی این موضوع است که روش مورد کامل علی‌رغم معایب زیاد آن محبوب‌ترین روش در مدیریت داده‌های گم‌شده‌است.

جانهی منفرد

بی‌درنگ (هات‌دک)

یک روش رایج جانهی روش بی‌درنگ است که پر آن یک مقدار از یک رکورد تصادفی انتخاب‌شدهٔ مشابه انتخاب می‌شود. عبارت «بی‌درنگ» به ذخیره‌سازی داده‌ها روی کارت‌پانچ‌ها بازمی‌گردد و مشخص می‌کند که اهداکنندگان اطلاعات از یک همون دادگانی می‌آینده که دریافت‌کنندگان داده از آن می‌آیند. عبارت انگلیسی «هات» به معنی داغ از داغ بودن کارت‌پانچ‌ها، هنگام استفاده می‌آید.

یک حالت از جانهی بی‌درنگ «آخرین مشاهدهٔ به‌جلو (یا LOCF)» نامیده می‌شود؛ که شامل مرتب‌سازی مجموعه داده براساس هر تعداد متغیر و بنابراین ساخت دادگان مرتب‌شده‌است. این روش سپس اولین دادهٔ گم‌شده را پیدا می‌کند و اولین سلول پیشین دادهٔ گم‌شده را با دادهٔ گم‌شده جایگزین (جانهی) می‌کند. این فرایند برای سلول‌های بعدی دارای دادهٔ گم‌شده به‌همین شکل تکرار می‌شود تا تمام سلول‌های دارای دادهٔ گم‌شده جانهی شوند. در سناریوی رایج که موردها اندازهٔ تکرارشده از متغیرهای مربوط به شخص یا موجود دیگری هستند، این نشان‌دهندهٔ این باور است که اگر یک مقدار گم‌شده باشد، بهترین حدس این است که از آخرین باری که اندازه‌گیری شده‌است متفاوت نباشد. این روش به افزایش خطر اریبی فزاینده و نتیجه‌گیری بالقوه غلط شناخته شده‌است. برای این هدف LOCF در عمل توصیه نمی‌شود.^[۵]

بادرنگ (کُلد-دک)

جانهی بادرنگ، برعکس، اهداکنندگان اطلاعات را از دادگان دیگر انتخاب می‌کند. به‌دلیل پیشرفت‌ها در قدرت کامپیوتر، روش‌های پیچیده‌تری، جایگزین روش‌های جانهی تصادفی و مرتب‌شدهٔ بی‌درنگ شده‌اند.

جانشینی با میانگین

روش دیگر جانهی شامل جای‌گزین کردن هر مقدار گم‌شده با میانگین آن متغیر در سایر موارد همان متغیر است، که این مزیت را دارد که میانگین نمونه‌ای را برای آن متغیر عوض نمی‌کند. به‌هرحال، جانهی میانگین هر همبستگی‌ای در متغیرهای جانهی شده را نادیده می‌گیرد. این به‌این‌خاطر است که در موارد جانهی شده عملاً فرض می‌شود که ارتباطی بین متغیر جانهی شده و سایر متغیرهای اندازه‌گیری‌شده نیست؛ بنابراین، جانشینی با میانگین برخی خاصیت‌های جذاب برای تحلیل تک‌متغیره دارد، اما برای تحلیل چندمتغیره مشکل‌زا می‌شود.

رگرسیون

جانهی رگرسیونی، مسالهٔ مقابل جانهی با میانگین است. یک مدل رگرسیونی برای پیش‌بینی مقدار مشاهده‌شدهٔ یک متغیر بر اساس یک متغیر دیگر برآورد می‌شود و سپس آن مدل برای جانهی مقدارها در موارد که مقدارها گم‌شده باشند استفاده می‌شود. به‌عبارت دیگر اطلاعات دردسترس برای موارد کامل و ناقص برای پیش‌بینی مقدار یک متغیر به‌خصوص استفاده می‌شوند. مقدارهای برازش‌شده از مدل رگرسیونی سپس برای جانهی مقدارهای گم‌شده استفاده می‌شود. مشکل این روش این است که مقدارهای جانهی‌شده در خود عبارت خطایی در برآورد خود ندارند و بنابراین برآوردها به‌طور بی‌نقص در راستای خط رگرسیونی بدون هیچ ماندهٔ واریانس برازش می‌شوند. این باعث می‌شود که روابط بیش‌اندازه تشخیص داده شوند و دقت بالاتری نسبت به آنچه تضمین شده‌است پیش‌نهاد دهد. مدل رگرسیونی محتمل‌ترین مقدار برای داده‌های گم‌شده را پیش‌بینی می‌کند، اما میزان عدم قطعیت را بیان نمی‌دارد.

رگرسیون تصادفی تلاشی نسبتاً موفق برای حل مشکل نبود عبارت خطا در روش جانهی رگرسیونی با افزودن متوسط واریانس رگرسیونی به جانهی رگرسیونی، برای معرفی خطا بود. رگرسیونی تصادفی مقدار کمتری اریبی نسبت به روش‌های مطرح‌شده در بالا دارد، اما همچنان چیزی را از دست می‌دهد: هنگامی که داده‌ها جانهی شده و کسی نیاز به افزودن خطای بیشتر از ماندهٔ واریانس داشته باشد.

جانهی چندگانه

به‌منظور مدیریت مشکل افزایش نوفه حاصل از جانهی، روبین (۱۹۸۷) روشی را برای متوسط کردن نتایج در امتداد چندین مجموعه‌دادهٔ جانهی‌شده توسعه داد. همهٔ روش‌های جانهی چندگانه از سه گام زیر پیروی می‌کنند.

جانهی - مشابه با جانهی تکی، مقدارهای گم‌شده جانهی می‌شوند. به‌هرحال، مقدارهای جانهی‌شده به‌جای یک بار، m بار از یک توزیع آماری به دست می‌آیند. در پایان این گام، باید m مجموعه‌دادهٔ کامل وجود داشته باشد.
تحلیل - هرکدام از m مجموعه‌داده تحلیل می‌شود، در پایان این گام بایستی m تحلیل وجود داشته باشد.
تجمیع - در این گام، m نتیجه با محاسبهٔ میانگین، واریانس و بازهٔ اطمینان متغیر مورد نظر در یک نتیجه تلفیق می‌شوند.^[۶]^[۷]الگو:Not in source given

تنها به‌این خاطر که روش‌های متعددی برای جانهی تکی‌وجود دارد، به‌همین ترتیب روش‌های متعددی نیز برای جانهی چندگانه وجود دارد. یکی از مزیت‌های جانهی چندگانه به نسبت جانهی تکی و روش‌های مورد کامل این است که، جانهی چندگانه انعطاف‌پذیر است و می‌تواند در سناریوهای متفاوتی استفاده شود. جانهی چندگانه می‌تواند در مواردی که داده‌ها به کلی یا به تصادف گم‌شده‌اند یا حتی مواردی که به تصادف گم‌نشده‌اند، استفاده شود. درهرصورت، روش اصلی جانهی چندگانه، جانهی چندگانه بوسیلهٔ معادلات زنجیری (MICE) است. این روش همچنین به عنوان «تعیین کاملاً شرطی» و «جانهی چندگانهٔ رگرسیون ترتیبی» شناخته شده‌است.^[۸] نکتهٔ مهم لازم به‌ذکر این است که MICE تنها زمانی می‌تواند پیاده‌سازی شود که داده‌های گم‌شده از سازوکاری تصادفی پیروی کند.

همان‌طور که در بخش قبلی اشاره شد، جانهی تکی در شرایط عدم قطعیت در جانهی‌ها به‌کار نمی‌آید. پس از جانهی، با داده‌ها مشابه حالتی که داده‌های واقعی در جانهی تکی باشند رفتار می‌شود. غفلت از عدم قطعیت در جانهی منجر به خطا در نتیجه‌گیری شود.^[۹] با چند مرتبه جانهی، جانهی چندگاه مطمئناً شامل عدم قطعیت و به‌وجود آمدی بازه‌ای از مقدارهایی که مقدار واقعی شامل آن است می‌شوند.

علاوه بر این‌ها، در شرایطی که جانهی تکی، و مورد کامل برای پیاده‌سازی راحت‌تر هستند، جانهی چندگانه نیز پیاده‌سازی چندان دشواری ندارد. تعداد زیادی از بسته‌های آماری در نرم‌افزارهای آماری وجود دارند که به راحتی امکان اجرای جانهی چندگانه را امکان‌پذیر می‌سازند. برای مثال بستهٔ MICE به کاربران امکان جانهی به‌روش MICE را در R می‌دهد.^[۱۰]

جستارهای وابسته

منابع

↑ Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. ISSN 0962-2802. PMID 10347858.
↑ Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
↑ Kenward, Michael G (2013-02-26). "The handling of missing data in clinical trials". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.^{^{[پیوند مرده]}}
↑ Enders, C. K. (2010). Applied Missing Data Analysis. New York: Guilford Press. ISBN 978-1-60623-639-0.
↑ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal (به انگلیسی). 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
↑ Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc. , Rockville, MD. 49: 1–11. Archived from the original (PDF) on 3 November 2018. Retrieved 2 November 2018.
↑ Van Buuren, Stef (2012-03-29). "2. Multiple Imputation" (PDF). Flexible Imputation of Missing Data. Chapman & Hall/CRC Interdisciplinary Statistics Series. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 978-1-4398-6824-9.
↑ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research (به انگلیسی). 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
↑ Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
↑ Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.

پیوند به بیرون

Missing Data: Instrument-Level Heffalumps and Item-Level Woozles
Multiple-imputation.com
Multiple imputation FAQs, Penn State U
A description of hot deck imputation from Statistics Finland.
Paper extending Rao-Shao approach and discussing problems with multiple imputation.
Paper Fuzzy Unordered Rules Induction Algorithm Used as Missing Value Imputation Methods for K-Mean Clustering on Real Cardiovascular Data.
[۱] Real world application of Imputation by the UK Office of National Statistics

[1] Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. ISSN 0962-2802. PMID 10347858.

[2] Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25

[3] Kenward, Michael G (2013-02-26). "The handling of missing data in clinical trials". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.^{^{[پیوند مرده]}}

[enders2010-4] Enders, C. K. (2010). Applied Missing Data Analysis. New York: Guilford Press. ISBN 978-1-60623-639-0.

[5] Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal (به انگلیسی). 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.

[6] Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc. , Rockville, MD. 49: 1–11. Archived from the original (PDF) on 3 November 2018. Retrieved 2 November 2018.

[7] Van Buuren, Stef (2012-03-29). "2. Multiple Imputation" (PDF). Flexible Imputation of Missing Data. Chapman & Hall/CRC Interdisciplinary Statistics Series. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 978-1-4398-6824-9.

[8] Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research (به انگلیسی). 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.

[9] Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.

[10] Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]