تفاوت بین آلودگی جینی و آنتروپی در درخت تصمیم گیری چیست؟


پاسخ 1:

آلودگی جینی و آنتروپی به اصطلاح معیارهای انتخاب درختان تصمیم گیری هستند. در اصل ، آنها به شما در تعیین نقطه توزیع مناسب برای گره های والدین / تصمیم گیری در درختان طبقه بندی / رگرسیون کمک می کنند (مثال های زیر به درخت طبقه بندی مراجعه می کنند). درختان تصمیم گیری توسط نقطه توزیع مشخصه و مربوطه شکسته می شوند ، که منجر به بیشترین افزایش اطلاعات (IG) برای یک معیار خاص (در این مثال جینی یا آنتروپی) می شود. سست می توانیم اطلاعات را به عنوان تعریف کنیم

IG = اطلاعات قبل از اشتراک گذاری (والدین) - اطلاعات پس از اشتراک گذاری (فرزندان)

برای درک واضح تر والدین و فرزندان ، به درخت تصمیم گیری در زیر مراجعه کنید.

فرمول مفصل تر برای فرمول به دست آوردن اطلاعات را می توان در زیر مشاهده کرد.

از آنجا که درختان طبقه بندی تقسیمات باینری دارند ، فرمول را می توان به فرمول زیر ساده کرد.

دو معیار رایج که برای اندازه گیری آلودگی گره استفاده می شود شاخص جینی و آنتروپی است.

برای درک بهتر این فرمول ها ، شکل زیر نشان می دهد که چگونه سود حاصل از یک درخت تصمیم گیری با استفاده از معیار جینی محاسبه شده است.

شکل زیر نشان می دهد که چگونه سود حاصل از یک درخت تصمیم گیری با آنتروپی محاسبه می شود.

من با جزئیات بیشتر به این موضوع نمی پردازم زیرا باید توجه داشت که سطوح مختلف آلودگی (شاخص جینی و آنتروپی) معمولاً به نتایج مشابه منجر می شوند. نمودار زیر نشان می دهد که شاخص جینی و آنتروپی معیارهای آلودگی بسیار مشابه دارند. من شک دارم یکی از دلایل پیش فرض جینی در scikit-Learn (کتابخانه پایتون) این است که محاسبه آنتروپی ممکن است کمی کندتر باشد (زیرا از لگاریتم استفاده می کند).

سطوح مختلف آلودگی (شاخص جینی و آنتروپی) معمولاً منجر به نتایج مشابه می شوند. با تشکر فراوان از Data Science StackExchange و Sebastian Raschka بخاطر الهام گرفتن از این نمودار.

برای کسب اطلاعات بیشتر در مورد نحوه کار درختان تصمیم گیری ، برای اطلاعات بیشتر اینجا را کلیک کنید.


پاسخ 2:

دو متر برای انتخاب نحوه تقسیم یک درخت. اندازه گیری جینی این احتمال وجود دارد که اگر به طور تصادفی برچسب را بر اساس توزیع در یک صنعت انتخاب کنیم ، یک نمونه تصادفی طبقه بندی نمی شود.

آنتروپی یک معیار اطلاعاتی است (یا به عبارتی فقدان آن). شما می توانید با ایجاد تقسیم ، سود اطلاعات را محاسبه کنید. تفاوت مداخلات چیست. این روش چگونگی کاهش عدم قطعیت در مورد برچسب را اندازه گیری می کند.

مشاهده کنید:

https: //en.m.wikipedia.org/wiki / ...