دانلود پایان نامه درمورد استاندارد و اطمینان


Widget not in any sidebars

Class 2
شکل ‏43: نمایشی از طبقهبندی دادهها به دو دسته و حاشیهی اطمینانی که دادههای دو دسته با هم دارند
برای حل این مسألهی بهینهسازی، تابع لاگرانژی زیر را تشکیل میدهیم و ضرایب لاگرانژ را خواهیم یافت:
(‏412)
برای اینکه جواب را پیدا کنیم، باید این جواب در شرایط KKT صدق کند که در ذیل مشاهده میشود. شرایط KKT روش لاگرانژ را برای حالت هایی که قیود به صورت نامساوی باشند، تعمیم میدهد.
(‏413)
با قرار دادن مقدار w از رابطه قبل در تابع لاگرانژ، به مسالهی دوگان برای بهینهسازی مقید خواهیم رسید:
(‏414)
که:
(‏415)
حل این مسأله بهینهسازی دوگان، با بهینهسازی درجه دوم میسر است و ضرایب لاگرانژ با استفاده از این روش بدست میآیند.
هر الگویی ضریب لاگرانژ مربوط به خود را دارد. الگوهایی که ضریب لاگرانژ آنها بزرگتر از صفر است، همان بردار پشتیبان میباشند.
(‏416)
که xsv(+1) و xsv(-1) به ترتیب، بردارهای پشتیبان قرار گرفته در دسته با برچسب 1+ و 1- هستند. پس از تعیین بردارهای پشتیبان و مقدار پیشقدر، تابعِ ممیّز که دو کلاس را از هم جدا میکند میتواند به صورت زیر نوشته شود:
(‏417)
پس با استفاده از بردارهای پشتیبان میتوان تابع ممیّز را ساخت و با استفاده از بردارهای پشتیبان و تابع ممیّز میتوان فهمید که دادههای آزمایشی در کدام دستهبندی قرار میگیرند. پس دیگر آن دسته از دادههای آموزشی که بردار پشتیبان نیستند، به دردی نمیخورند و میتوان آنها را حذف کرد.
دستهبندی خطی دادههای دارای نویز
در اکثر مسائل دنیای واقعی دو کلاس با یکدیگر هم پوشانی ندارند و نمیتوان دادهها را به خوبی با ابرصفحه طبقهبندی کرد. بنابراین، مسأله (4-9) نشدنی میشود. در سال 1995 کورتس و واپنیک این شکل را با یک ترفند که در مورد مسائل بهینهسازی نشدنی استفاده میشود، حل کردند و نسخه نهایی و استاندارد SVM را ارائه کردند. آنها به هر قید ، یک متغیر اضافی نامنفی به هر قید اضافه کرده و مجموع این متغیرها در تابع هدف جهت کمینه‌سازی آورده میشود. بنابراین، اگر تعداد دادههای جداناپذیر کم باشد مسأله بهینهسازی به صورت ذیل در میآید:
(‏418)
C مقداری فرضی است که میتواند میزان را برای دادههای غیر قابل دستهبندی افزایش یا کاهش دهد. اگر مقدار بزرگتری برای C در نظر بگیریم، بزرگتری را به دادههای غیر قابل دستهبندی نسبت میدهد. از سوی دیگر کوچک بودن C، حاشیه را ماکزیمم میکند. به طوری که ابرصفحه جداگر بهینه نسبت به دادههای دارای خطا در مجموعه آموزشی، حساسیت کمتری از خود نشان میدهد. شکل پایین نمونهای از خطای دستهبندی دادهها را نشان میدهد.
شکل ‏44: نمونهای از خطای طبقهبندی
برای جداسازی دادههایی که به صورت خطی جدا نمیشوند، ما باید کاری کنیم که حاشیه ماکزیمم شود (Minimize ) تا عملکرد پیشبینی را برای ما تضمین کند. از سوی دیگر ابرصفحه بهینه باید تعداد خطاهای طبقهبندی را مینیمم کند. هم چنین میزان خطای دادههای جداناپذیر را نیز مینیمم کند. به عبارتی، باید مقدار و تعداد متغیرهای کمبود مثبت را مینیمم کند. شرط دومی باعث کاهش حاشیه ابرصفحه میگردد. یعنی شرط اولی در تناقض با شرط دوم است. برای همین، راهی ساده برای غلبه بر این مشکل ترکیب این دو شرط است.
(‏419)
برای حلِ این مسأله از تکنیک بهینهسازی دوگان استفاده میشود که تقریباً با تکنیک استفاده شده در حالت جداپذیر مشابه بوده و رابطه (4-13) به صورت زیر تغییر مییابد.
(‏420)
حال ما باید پارامترهای را بیابیم طوری که فرمِ دوگان را ماکزیمم کند. دقیقاً شبیه آنچه که در حالت جداپذیر انجام شد: