منبع پایان نامه ارشد با موضوع روشهای ارزیابی و اعتبار سنجی


Widget not in any sidebars
خوشههای بهخوبی جدا شده: مجموعه نقاط داخل این خوشه نسبت به نقاط خارج آن به یکدیگر شباهت بیشتری دارند.
خوشههای مبتنی به مرکز: مجموعه نقاط داخل این خوشه به مرکز خوشه نسبت به مراکز خوشههای دیگر بسیار نزدیکترهستند.
خوشههای مبتنی بر مجاورت و نزدیکی: مجموعه نقاط داخل این خوشه به یک یا تعداد بیشتری از نقاط داخل خوشه نسبت به نقاط خارج آن شبیه میباشند.
2-2-4- مراحل خوشهبندی
خوشهبندی دارای چهارمرحلهی اساسی به شرح زیر است :
انتخاب یا استخراج ویژگی: ویژگیها باید به طور مناسبی انتخاب شوند تا اکثر دادهها کدگذاری گردند. در صورتی که در این مرحله، ویژگیهای انتخابی به طور نامناسب در نظر گرفته شوند، جواب نهایی هدف مورد نظر را نتیجه نخواهد داد. لذا، این بخش نقش اساسی را در روند خوشهبندی ایفا خواهد کرد [19]. برای بهدست آوردن مجموعهی مناسبی از ویژگیها در امر کلاسترینگ، از دو تکنیک استفاده می شود: گزینش ویژگی و استخراج ویژگی. گزینش ویژگی فرآیندی است که برای شناسائی مؤثرترین زیر مجموعه از ویژگیهای اولیه برای کلاسترینگ استفاده میشود و استخراج ویژگی استفاده از یک یا چند مرحله تبدیل ویژگیهای ورودی به منظور به دست آوردن ویژگیهای برجسته جدید میباشد .
مقیاس نزدیکی: معیاری است که میزان شباهت و یا عدم شباهت دو بردار خصوصیت را مشخص میکند. تمام خصوصیات انتخاب شده باید در محاسبه این معیار شرکت کنند و هیچ خصوصیتی نباید بر بقیه غلبه کند. سادهترین معیار برای مسافت، فاصله اقلیدسی است که بیانگر افتراق بین دو نمونه میباشد . این در حالی است که معیارهای تشابه هم میتوانند برای تشخیص تشابهات معنائی در میان نمونهها استفاده شوند. همین که، یک مقیاس نزدیکی تعیین میشود، خوشهبندی میتواند به عنوان یک مسألهی بهینه سازی با یک تابع معیار خاص استنباط گردد. پس خوشههای به دست آمده وابسته به انتخاب تابع معیار میباشند.
الگوریتم خوشهبندی: پس از اینکه مقیاس نزدیکی انتخاب شدند، یک الگوریتم خاص جهت روشن کردن ساختار دستهبندی مجموعه دادهها انتخاب میگردد. بهعنوان نمونه خروجی خوشهبندی میتواند گروههای سخت و یا نرم باشد که هر روش دارای درجه عضویت متفاوتی بوده و درجه عضویت، میزان تعلق هر داده به خوشه است.
اعتبار سنجی نتایج: شاخص های اعتبار سنجی برای سنجش میزان صحت نتایج خوشهبندی به منظور مقایسه بین روشهای مختلف یا مقایسهی نتایج حاصل از یک روش با پارامترهای مختلف مورد استفاده قرار می گیرد؛ زیرا نتایج حاصل از اعمال الگوریتمهای خوشهبندی روی یک مجموعه داده با توجه به مقادیر انتخابی برای پارامترهای هر الگوریتم میتواند بسیار متفاوت از یکدیگر باشد. هدف از اعتبارسنجی، یافتن خوشههایی است که بهترین تناسب را با دادههای مورد نظر داشته باشند.
دو معیار پایه اندازهگیری برای ارزیابی و انتخاب خوشههای بهینه عبارتند از:
تراکم : دادههای متعلق به یک خوشه بایستی تا حد ممکن به یکدیگر نزدیک باشند. معیار رایج برای تعیین میزان تراکم دادهها واریانس دادهها است.
جدایی : خوشهها خود بایستی به اندازه کافی از هم جدا باشند. سه راه برای سنجش میزان جدایی خوشه ها مورد استفاده قرار می گیرد:
فاصله بین نزدیکترین دادهها از دو خوشه
فاصله بین دورترین دادهها از دو خوشه
فاصله بین مراکز خوشهها
همچنین، روشهای ارزیابی خوشههای حاصل از خوشهبندی را به سه دسته تقسیم می کنند: شاخصهای خارجی، شاخصهای داخلی و شاخصهای نسبی.
شاخصهای خارجی: شاخصهای خارجی مبتنی بر بعضی ساختارهای از پیش تعیین شده اند که بازیاب اطلاعات قبلی درمورد داده ها بوده و به عنوان استانداردی برای اعتبار راهحلهای خوشهبندی استفاده میشوند.
شاخصهای داخلی: تست داخلی به اطلاعات خارجی(دانش پیشین) وابستگی ندارد. آنها مستقیماً ساختار خوشهبندی را از روی دادههای اصلی، آزمایش مینمایند. از روشهای ساده و معروف در این زمینه T-test میباشد.
شاخصهای نسبی: معیارهای نسبی بر تفاوت ساختـــارهای خوشهبندی تأکید مینماید، بهطوری که به عنوان مرجعی میتواند شایستگی خوشهها را آشکار نماید.
Cluster
Pattern
Feature selection
Interpattern similarity
Grouping