دانلود پایان نامه درمورد ماشین بردار پشتیبان و بر مبنای

اگر فرض کنیم که x و از یک تابع توزیع احتمال توأم P(x,y) تولید شدهاند، میتوان ریسک مورد انتظار تابع (4-2) را برای نمونههایی که در فرایند یادگیری استفاده نشدهاند را با استفاده از رابطه (4-4) محاسبه کرد.
Widget not in any sidebars

(‏44)
به جز در مواردی محدود، معمولاً P(x,y) را نداریم و مجبوریم از خطای تجربی (4-5) به عنوان برآوردی از ریسک مورد انتظار استفاده کنیم.
(‏45)
قضیه VC؛ اگر h بعد VC تابع f باشد، آنگاه با احتمال برای ریسک مورد انتظار داریم:
(‏46)
اگرچه معمولاً محکم نیست و در کاربرد به طور مستقیم استفاده نمیشود، ولی از لحاظ مفهومی بسیار مفید است. این حد منجر به پیدایش اصل کمینه سازی ریسک ساختاری شد.
کمینهسازی خطای ساختاری به جست و جوی تابعی میپردازد که کران بالای (4-6) را کمینه کند. حد (4-6) دو مؤلفه دارد که بایستی کمینه شوند. به این ترتیب برای کمینه کردن مؤلفه VC Confidence، در میان خانواده توابع بایستی خانوادههایی با کمترین بعد VC و برای کمینه کردن ریسک تجربی، از میان این خانواده تابعی که ریسک تجربی خانواده مربوطه را کمینه میکند بایستی انتخاب کرد. یک رهیافت ساده برای کمینه کردن ریسک ساختاری این است که همیشه از خانواده توابع خطی که دارای کمترین VC Confidence در بین تمام توابع میباشند، استفاده کرد. بنابراین طبقهبندی، که ریسک ساختاری را کمینه میکند، تابعی خطی است که ریسک تجربی را کمینه کند. SVM از این رهیافت استفاده میکند و همواره در خانواده توابع خطی در جستوجوی تابعی با کمترین ریسک تجربی است.
ماشینهای بردار پشتیبان (SVM)
SVM یک نوع سیستم یادگیری است که هم برای دستهبندی دادههای ورودی و هم برای تخمین و برآورد تابع برازش دادهها به کار میرود، به طوری که کمترین خطا در دستهبندی دادهها و تابع برازش رخ دهد. دادهها کلاً به سه دسته آموزشی، صحتسنجی و آزمون تقسیم میکنیم به طوری که دادههای آموزشی باعث آموزش ماشین بردار پشتیبان میشوند، دادههای صحتسنجی به واسنجی پارامترهای ماشین میپردازد و در نهایت از این ماشین برای طبقهبندی یا برآورد دادههای آزمون استفاده میشود. این روش بر مبنای تئوری بهینهسازی مقید است که از اصل کمینهسازی خطای ساختاری استفاده کرده و منجر به یک جواب بهینه کلی میگردد (Vapnik, 1998). که این اصل در بالا به طور خلاصه توضیح داده شده است و برای توضیحات بیشتر به منابع رجوع شود.
طبقهبندی ماشین بردار پشتیبان
در آغاز دستهبندی دادهها را برای حالتی که به صورت خطی جداپذیر باشند بررسی میکنیم. اگر نمونهها به صورت خطی جداپذیر باشند، باید دنبال بهترین خط یا ابرصفحهای بود که بتواند دو دسته را از هم تفکیک کند.
قضیه ابرصفحه جداساز؛ اگر C و D دو مجموعه محدب باشند که با هم هیچ اشتراکی ندارند آنگاه وجود دارد که و . ابرصفحه را ابرصفحه جداساز برای مجموعههای C و D مینامند.
در عبارت w.x+b=0، بردار w را بردار وزن مینامند که بر ابرصفحه جداکننده، عمود بوده و b مقدار پیشقدر میباشد. صفحات مرزی به صورت زیر تعریف میشوند:
(‏47)
الگوهایی که بر روی این صفحات قرار دارند، نزدیکترین فاصله را با ابرصفحه بهینه دارند که به این الگوها بردار پشتیبان میگویند. ناحیهی بین دو ابرصفحه H+ و H- را حاشیه یا ناحیه مرزی میگویند.
تابع طبقهبندی در روش SVM به شکل زیر است:
(‏48)
که برای یافتن ابرصفحه بهینه میبایستی مسأله بهینهسازی محدب زیر را حل کرد:
(‏49)
هدف ابرصفحه بهینه این است که از بین تمام ابرصفحههایی که قشر محدب دو کلاس را از هم جدا میکنند، بهترین آنها ابرصفحهای است که با بیشترین حاشیه، قشرهای محدب دو کلاس را جدا کند. برای جلوگیری از مقیاس شدن w و b، به طور قراردادی اندازه تابع تصمیم را به ازای نزدیکترین نمونه با آن برابر 1 در نظر میگیریم:
(‏410)
از طرفی فاصله هر نمونه تا ابرصفحه برابر است با:
(‏411)
به این ترتیب میتوان مشاهده کرد که فاصله نزدیکترین نمونهها از هر کلاس برابر و عرض حاشیه برابر با است. پس میتوان با بیشینه کردن حاشیه، مقدار را کمینه کرد و با قرار دادن ||w||2 به جای ||w||، مسأله معادلی حاصل میشود که تابع هدفش هم مشتقپذیر و هم هموار است. قید نیز به نمونهها اجازه ورود به حاشیه را نمیدهد. بنابراین به راحتی میتوان برای تمام مسائل بهینهسازی مقید، تابع لاگرانژ را تعریف کرد. شکل ذیل حاشیه و طبقهبندی دو دسته را با هم نشان میدهد.
Class 1