پژوهش های انجام شده در مورد خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن۹۴- فایل ۱۶ |
(۲۸) end for
در الگوریتم ۳-۲ فاصلههایی که بین هر دو خوشه محاسبه میگردد در یک لیست مرتب (به صورت صعودی) قرار داده میشوند (خطوط ۶ تا ۱۰) تا مرحلهی انتخاب کمترین فاصلهها، به آسانی انجام گیرد. هر یک از عناصر این لیست مرتب به ازاء هر دو خوشه، شامل فاصلهی همینگ بین دو خوشه از خوشهبندی مرجع (با تعداد Kbc خوشه) و خوشهبندی m (با تعداد Km خوشه)، شمارهی خوشه در خوشهبندی مرجع و شمارهی خوشه در خوشهبندی m میباشد (خط ۸). در مرحلهی انتخاب خوشههای متناظر به این صورت عمل میگردد که ابتدا توسط تابع SelectNext یکی از عناصر لیست مرتب (عنصر بعد از آخرین عنصر انتخاب شده) انتخاب میگردد (خط ۱۲)، اگر پیش از این برای آن خوشه از خوشهبندی مرجع متناظری در نظر گرفته شده باشد (خط ۱۳) به دنبال انتخاب عنصر بعدی میرود. در غیر اینصورت چنانچه در خوشهبندی m نیز متناسبی برای آن پیدا نشده باشد، عنصر انتخاب شده به عنوان خوشههای متناسب ثبت میشوند (خط ۲۳).
اما در شرایطی که تعداد خوشههای خوشهبندی m کمتر از تعداد خوشههای خوشهبندی مرجع باشد نظیر به نظیر بودن به صورت یک به یک نخواهد بود و ممکن است یک خوشه در خوشهبندی m با چند خوشه در خوشهبندی مرجع متناسب گردد. از اینرو در الگوریتم ۳-۲ چنین شرایطی در خطوط ۱۳ تا ۲۰ بررسی میگردد. نحوهی بررسی به این شکل است که اگر پیش از آن برای خوشهی مورد نظر در خوشهبندی m نظیر به نظیری در خوشهبندی مرجع پیدا شده باشد، در صورتی متناسب جدید قابل ثبت خواهد بود که مقدار شمارندهی Count کوچکتر از تفاضل تعداد خوشههای خوشهبندی مرجع و خوشهبندی m گردد. به عنوان مثال اگر خوشهبندی مرجع دارای ۱۰ خوشه و خوشهبندی m دارای ۴ خوشه باشد، تنها ۶خوشه نظیر به نظیر تکراری در خوشههای خوشهبندی m میتواند رخ دهد. فرایند تشریح شده تا زمانی تکرار میگردد که برای هر یک از خوشههای خوشهبندی مرجع یک خوشهی متناسب پیدا شود که با هم نظیر به نظیر باشند (خط ۲۵).
الگوریتم ۳-۲ به ازاء هر خوشهبندی فرایند یافتن فاصلهها و انتخاب کمترینها را انجام میدهد. پیچیدگی زمانی این الگوریتم O(MK3) و پیچیدگی مکانی آن نیز O(MK) میباشد که M تعداد خوشهبندیها و K حداکثر تعداد خوشهها میباشد. با اینکه مرتبه زمانی آن از درجهی ۳ میباشد اما از آنجا که به طور معمول تعداد خوشهها عدد بزرگی نمیباشد، الگوریتم پیشنهادی میتواند زمان اجرای مناسبی را ارائه دهد.
۳-۲-۲- خوشهبندیهای دارای وزن
همانطور که تاکنون به آن اشاره گردید، الگوریتم پیشنهادی در این پایان نامه رأی محور است که خوشهبندی توافقی را بر اساس وزن هر یک از خوشهبندی انجام میدهد. در این بخش قصد داریم روشی را جهت وزندار نمودن هر یک از خوشهبندیهای اولیه ارائه دهیم. در روش پیشنهادی یکی از معیارهای ارزیابی خوشهبندی[۱۴۵]، جهت وزندهی به خوشهبندیها استفاده میگردد. این معیار شاخص Davies-Bouldin نام دارد که از این پس در پایان نامه به اختصار از DB[146] به جای این نام استفاده خواهیم نمود. قبل از ارائه راهحلی جهت وزن دادن به خوشهها، به طور مختصر و تا آنجا که به بحث ما مربوط میگردد در مورد معیارهای ارزیابی خوشهبندی در ادامه مطالبی بیان خواهد شد.
جهت ارزیابی کیفیت خوشهبندی و مقایسهی آن با خوشهبندیهایی دیگر، معیارهای ارزیابی مختلفی وجود دارد. معیارهای در [۶۴،۴] معرفی شده و مورد بررسی قرار گرفتهاند. به طور کلی میتوان این معیارها را به دو گروه معیارهای خارجی[۱۴۷] و معیارهای داخلی[۱۴۸] تقسیمبندی نمود. در اندازهگیری معیارهای خارجی، درجهی توافق بین دو خوشهبندی محاسبه میگردد. شاخص Rand، ضریب Jaccard، شاخص Fowlkes-Mallows و NMI از نوع معیارهای خارجی میباشند. معیارهای داخلی نیز بر اساس اطلاعات موجود در مجموعه دادهای بررسی میکنند آیا ساختار خوشهبندی تولید شده بوسیلهی یک الگوریتم خوشهبندی، مطابق با دادهها میباشد یا خیر. اندازهگیری دقت[۱۴۹]، فشردگی[۱۵۰]، شاخص Davies-Bouldin (DB)، شاخص Dunn نیز از نوع معیارهای داخلی بشمار میآیند.
برخی از معیارهای داخلی در محاسبات خود از برچسب کلاس استفاده میکنند. به عبارت دیگر پس از انجام خوشهبندی، میزان مطابقت ساختار کشف شده بوسیله الگوریتم خوشهبندی با ساختار واقعی دادهها با بهره گرفتن از برچسب کلاس هر داده محاسبه میشود. لازم به ذکر است که از برچسبهای کلاس در زمان انجام خوشهبندی هیچ استفادهای نمیشود و تنها در ارزیابی کیفیت خوشهبندی بدست آمده و کارایی الگوریتم استفاده شده، مورد استفاده قرار میگیرند. معیارهایی که از برچسبهای کلاس جهت ارزیابی استفاده میکنند شامل معیارهای دقت، دقت معکوس[۱۵۱] و اندازهگیری F میباشند. برخی از معیارهای مطرح شده، جهت ارزیابی نتایج بدست آمده توسط الگوریتم پیشنهادی در این پایان نامه مورد استفاده قرار میگیرند که در فصل ۴ با جزئیات بیشتری به آنها اشاره خواهد شد.
همانطور که در ابتدای این بخش اشاره گردید، ما جهت وزندار نمودن هر یک از خوشهبندیهای اولیه از معیاری با نام شاخص DB استفاده مینماییم. این معیار یک معیار داخلی محسوب میگردد و جهت محاسبهی آن به برچسب کلاس دادهها نیازی نمیباشد. لازم به ذکر است که معیارهایی نظیر معیار دقت میتوانند به خوبی کیفیت خوشهبندی را نشان دهند. اما از آنجا که محاسبهی این معیارها نیاز به برچسب کلاس دادهها دارد و در عمل این برچسبها در انجام خوشهبندی وجود ندارند، امکان استفاده از چنین معیارهایی برای کاربرد مورد نظر ما (وزندار نمودن خوشهها) وجود ندارد. در ادامه نحوهی محاسبهی شاخص DB را بررسی خواهیم نمود.
فرض کنید si میزان پراکندگی خوشهی Ci و d(Ci, Cj)=dij عدم تشابه بین دو خوشهی Ci و Cj باشد. شاخص شباهت Rij بین دو خوشهی Ci و Cj دارای شرایط زیر است [۱۳،۲۹]:
Rij ≥ ۰
Rij = Rji
اگر si = ۰ و sj = ۰ آنگاه Rij = ۰
اگر sj > sk و dij = dik آنگاه Rij > Rik
اگر sj = sk و dij < dik آنگاه Rij > Rik
این شرایط نشان میدهند که Rij غیر منفی و متقارن است. یک انتخاب برای Rij که شرایط فوق را بر آورده سازد در رابطه (۳-۴) آورده شده است:
(۳-۴)
شاخص DB نیز به صورت رابطه (۳-۵) تعریف میگردد:
(۳-۵)
که در آن K تعداد خوشهها و میباشد.
عدم تشابه بین خوشهی Ci و Cj در یک فضای l بعدی (l صفت خاصه) به صورت رابطه (۳-۶) تعریف میگردد:
(۳-۶)
پراکندگی خوشهی Ci نیز به صورت رابطه (۳-۷) تعریف میگردد:
فرم در حال بارگذاری ...
[یکشنبه 1400-08-09] [ 01:11:00 ق.ظ ]
|