الگوریتم­های موجود در گروه فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه نسبت به الگوریتم­های موجود در فیلترینگ اشتراکی مبتنی بر مدل رایج­تر می­باشند اما قابل ذکر است که این الگوریتم­ها نیازمند حافظه­ بیشتری هستند. از نظر کارایی الگوریتم­های موجود در گروه مدل محور نتایج قابل توجهی را ارائه می­ دهند. اما از نظر دقت به جز تحقیقات اخیر[۲۱] نتایج خوبی به دست نیاورده­اند. الگوریتم­های حافظه محور به طور عمده بر الگوریتم KNN استوار می­باشند.
از تلفیق دو دسته مدل محور و حافظه محور مدل تلفیقی به وجود می ­آید که هدف آن تلفیق مزیت هر دو دسته است . [۲۲]هم اکنون تحقیقات در راه پیشروی به سمت مدل تلفیقی می­باشد .[۲۳]
در راهکار مبتنی بر حافظه پیش ­بینی به دو صورت براساس کاربران و براساس اقلام انجام می­پذیرد .[۲۴]اختلاف­ نظر­هایی در مورد اینکه پیش ­بینی بر اساس اقلام مبتنی بر حافظه و یا مبتنی بر مدل است وجود دارد ؛ در [۲۵] اعلام شده است که الگوریتم­های بر اساس اقلام همیشه مبتنی بر حافظه هستند و در [۲۶] این الگوریتم­ها بر اساس مدل کلاس بندی شده ­اند.
۲-۵-۱- فیلترینگ اشتراکی مبتنی بر حافظه
در فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه سرتاسر ماتریس کاربران - اقلام بررسی می­ شود (شکل شماره­ ۶). در این ماتریس که در حافظه ذخیره شده است امتیازهایی که کاربران به اقلام مختلف داده­اند وجود دارد. این ماتریس به صورت مستقیم برای پیش ­بینی نمره اقلامی که تا کنون هیچ امتیازی دریافت نکرده ­اند به کار می­رود [۱۹]. یعنی این محاسبات به صورت برون خط[۴۲] انجام نمی­پذیرد و همه چیز به صورت بر خط انجام می­ شود و همواره کل داده ­ها مورد نیاز می­باشد. مزیت این روش این است که در هر زمان کل اطلاعات در دسترس می­باشد اما با بزرگ شدن ماتریس یعنی تعداد کاربران و اقلام، فضای جستجو، حافظه­ مورد نیاز و زمان محاسبه افزایش می­یابد.
پایان نامه - مقاله - پروژه
همانطور که گفته شد در راهکار مبتنی بر حافظه پیش ­بینی به دو صورت پیش ­بینی بر اساس کاربران[۴۳] و پیش ­بینی براساس اقلام[۴۴] انجام می­ شود.
۲-۵-۱-۱- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس کاربران
در سیستم­های مبتنی برکاربر پیش ­بینی بر اساس ارزیابی امتیازهایی که توسط کاربران مشابه با کاربر فعال به اقلام مورد نظر تخصیص یافته انجام می­پذیرد [۲۷]. کاربران شبیه آنهایی هستند که الگوی امتیازدهی­شان شبیه به کاربر فعال با­­شد (شکل شماره­ ۶(.
یکی از چالش­های اصلی در این مدل نحوه­ پیدا کردن میزان شباهت بین کاربران می­باشد. زیرا با بهره گرفتن از معیار شباهت شبیه­ترین همسایگان به کاربر فعال انتخاب و در پیش ­بینی استفاده می­شوند.
۲-۵-۱-۲- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس اقلام
سیستم­های مبتنی بر اقلام امتیاز یک قلم خاص را بر اساس امتیازهایی که کاربر به اقلام مشابه داده است پیش ­بینی می­ کنند [۲۸] . دو قلم در صورتی به هم شبیه هستند که چند کاربر به طور مشابه به آنها رای داده باشند (شکل شماره­ ۷).
شکل شماره­ ۶: فیلترینگ اشتراکی مبتنی بر قلم شکل شماره­ ۷ : فیلترینگ اشتراکی مبتنی بر کاربر
۲-۵-۱- ۳- تفاوت فیلترینگ اشتراکی بر اساس کاربران و بر اساس اقلام
فیلترینگ اشتراکی بر اساس اقلام زمانی به کار می­رود که روند افزایش اقلام کندتر از روند افزایش کاربران باشد [۲۸]. ولی در زمانی که روند افزایش اقلام سریع­تر از روند افزایش کاربران باشد فیلترینگ اشتراکی بر اساس کاربران به کار می رود .[۲۹] به عنوان مثال اگر اقلامی مانند اخبار، مورد پژوهش باشد استفاده از روش قلم مبنا نامناسب خواهد بود و در صورتی که از این روش به عنوان مدل محور استفاده گردد به علت افزایش بسیار سریع اقلام مشکل سربار زیاد محاسباتی برای به روز رسانی مدل به وجود خواهد آمد. بر عکس اگر اقلامی مانند فیلم یا کتاب مورد پژوهش باشد استفاده از این روش مناسب خواهد بود.
۲-۵-۲- فیلترینگ اشتراکی مبتنی بر مدل
برخلاف سیستم­های مبتنی بر حافظه که امتیازهای ذخیره شده را به طور مستقیم درپیش­بینی به کار می­برند، سیستم­های مبتنی بر مدل از این امتیازها برای یادگیری یک مدل پیش ­بینی استفاده می­ کنند. یعنی پارامترهای مدل به صورت برون خطی یاد گرفته می­شوند و دیگر نیازی نیست که هر بار ماتریس امتیازدهی کاربران- اقلام بررسی شود. این مدل بر اساس داده ­های موجود آموزش[۴۵] داده می­ شود و در آینده برای پیش ­بینی امتیازهایی که کاربران به اقلام جدید خواهند داد به صورت روی خط به کار می­رود [۴]. به همین دلیل نسبت به فیلترینگ اشتراکی مبتنی بر حافظه از سرعت بیشتری برخوردار است. این مدل می ­تواند یک الگوریتم یادگیری ماشین[۴۶] یا داده کاوی[۴۷] باشد [۳۰]. در گذشته الگوریتم­های موجود در حوزه­ یادگیری ماشین مانند شبکه ­های بیز[۴۸] [۸] و خوشه بندی[۴۹] [۳۱,۳۲] بسیار مورد توجه بوده ­اند .[۲۸] اگر چه امروزه الگوریتم­های فاکتورسازی ماتریس بسیار مورد توجه واقع شده ­اند اما همچنان الگوریتم­های خوشه بندی جایگاه خود را حفظ کرده ­اند.
۲-۶- نحوه­ تشخیص علائق کاربران
تشخیص میزان علائق کاربران نسبت به اقلام متفاوت یکی از مهم­ترین وظایف فیلترینگ اشتراکی می­باشد. هر بار که کاربری در مورد قلمی خاص ابراز علاقه می­ کند مقدار جدیدی در نمایه­ او اضافه می­ شود. به دو صورت صریح و ضمنی می­توان علائق کاربر را استخراج نمود.
۲-۶-۱- تشخیص علائق به صورت صریح
برای این منظور سیستم­های پیشنهادگر تمایلی که کاربر به صورت واضح و آشکار نسبت به محصولات نشان می­دهد مثل نمره­هایی که به اقلام نسبت داده است را در یک پایگاه داده جمع آوری می­ کند. کاربر می ­تواند علائق خود را به طور صریح در غالب تک بیتی باینری یک و صفر به معنای خوب و بد و یا به صورت بازه­ای از اعداد که نشان دهنده­ میزان تمایل کاربر به قلم است نشان دهد. .به عنوان مثال اگر بازه­ امتیازدهی، اعداد ۱ تا ۵ باشد نسبت دادن امتیاز ۱ از سوی کاربر به معنای عدم علاقه و اختصاص دادن امتیاز­ ۵ به معنای علاقه کاربر به قلمی خاص می­باشد [۷,۹].
۲-۶-۲- تشخیص علائق به صورت ضمنی
برای این منظور سیستم به صورت ضمنی بعضی رویدادها مثل حرکت اشاره­گر به سمت محصولی خاص را در نظر می­گیرد [۲۴]. در این روش کاربر تمایلاتش را به طور صریح و در قالب امتیاز نشان نمی­دهد بلکه از رفتارش علائق­او محاسبه می­ شود .[۳۳,۳۴,۳۵,۳۶]
این پایان­ نامه فقط بر استنباط علائق به طور صریح متمرکز شده است. یعنی تمایلات کاربران باید به صورت نسبت دادن امتیاز به اقلام مشخص شده باشد.
۲-۷- محاسبه شباهت
برای پیش ­بینی یا ارائه­ پیشنهاد توسط فیلترینگ اشتراکی می­بایست شبیه­ترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه­ همسایگی کاربر فعال در نظر گرفت. برای اندازه ­گیری میزان شباهت بین دو کاربر راهکارهای متفاوتی ارائه شده است که در اینجا دو مورد از معیارهای شباهت رایج که در فیلترینگ اشتراکی استغاده می­شوند را معرفی می­کنیم.
۲-۷-۱- معیار همبستگی پیرسون
این معیار میزان وابستگی بین الگوهای امتیازدهی دو کاربر (دو قلم) را می­سنجد (فرمول شماره ۴). نتیجه­ حاصل از این فرمول عددی بین ۱ و ۱- می­باشد. عدد ۱ نشان­ دهنده­ بیشترین شباهت، ۱- نمایانگر کمترین شباهت می­باشد و اگر نتیجه عدد ۰ باشد یعنی دو موجودیت مورد مقایسه با هم هیچ ارتباطی ندارند.
(۴)
از فرمول فوق برای اندازه ­گیری میزان شباهت دو کاربر u و v استفاده می­ شود. نشان دهنده­ امتیازی که کاربر u به قلم j ام اختصاص داده می­باشد. میانگین کل امتیازهایی که کاربر u به اقلام نسبت داده است می­باشد.
فرمول زیر با کمی تغییر شباهت بین دو قلم i و j را اندازه ­گیری می­ کند.
(۵)
۲-۷-۲- معیار اندازه ­گیری کسینوس
معیار شباهت کسینوسی در حوزه­ بازیابی اطلاعات بسیار رایج است و برای اندازه­ گیری شباهت بین دو سند به کار می­رود [۳۷]. این معیار میزان شباهت دو کاربر (دو قلم) را با بهره گرفتن از کسینوس زاویه­ بین بردارهای امتیازدهی آنها مشخص می­ کند (فرمول شماره ۶). نتیجه­ حاصل عددی بین ۱- و ۱ می­باشد. هر چه عدد حاصل شده بزرگ­تر باشد یعنی دو موجودیت مورد مقایسه بیشتر به هم شبیه هستند و هر چه این عدد کوچک­تر باشد یعنی دو موجودیت کمتر به هم شبیه هستند.
(۶)
اگرچه این معیار در حوزه بازیابی اطلاعات به خوبی کار می­ کند [۳۷,۳۸]اما برای محاسبه­ شباهت در فیلترینگ اشتراکی کاربر مبنا به خوبی معیار همبستگی پیرسون عمل نمی­کند [۱۲].
در این پایان نامه با کمی تغییر از معیار همبستگی پیرسون برای اندازه گیری میزان شباهت­ها استفاده شده که در فصل ۴ به تفصیل توضیح داده شده است.
۲-۸- انتخاب همسایه
وقتی میزان شباهت تمام کاربران با کاربر فعال به­ دست آمد هم از نظر صحت و هم از نظر کارایی بهتر است زیر مجموعه ­ای از شبیه­ترین آنها را انتخاب و با بهره گرفتن از آنها امتیاز قلم دیده نشده را پیش ­بینی کرد [۱۸,۳۴]. برای این کار دو راه استفاده از حد آستانه و انتخاب تعداد ثابتی از همسایگان وجود دارد.
۲-۸-۱- استفاده از حد آستانه
در این روش یک حد آستانه تعیین می­ شود. کاربرانی که میزان شباهتشان بیشتر یا مساوی با این حد آستانه باشد به عنوان بهترین همسایه­ها انتخاب می­شوند .[۹]تعیین این حد آستانه مقداری مشکل می­باشد چون در یک مسئله با توجه به کاربران فعال مختلف این حد آستانه باید مدام تغییر کند.
۲-۸-۲- انتخاب تعداد ثابتی از همسایگان
در این روش کاربران با توجه به میزان شباهتشان به کاربر فعال مرتب شده سپستا از شبیه­ترین آنها به عنوان بهترین همسایه­ها انتخاب می­شوند [۷] در [۱۶] بیان شده است که انتخاب تعداد ثابتی از همسایگان (معمولا بین ۲۰ تا ۶۰) نسبت به استفاده از حد آستانه منجر به نتیجه­ بهتری خواهد شد.
در این پایان نامه فقط از روش دوم یعنی انتخاب تعداد ثابتی از همسایگان استفاده شده است.
۲-۹- پیش ­بینی و تخمین رتبه
پس از انتخاب همسایه­ها نوبت به پیش ­بینی امتیاز قلم دیده نشده می­رسد. روش­های متفاوتی برای تخمین رتبه وجود دارد که در اینجا به اختصار به بررسی دو مورد از آنها می­پردازیم.
۲-۹-۱- استفاده از امتیازهای خام
(۷)
با بهره گرفتن از فرمول بالا میانگین وزن دارk تا از نزدیک­ترین همسایه­ها به کاربر فعال را به دست می ­آید. وزن هر همسایه معادل با میزان شباهت به دست آمده با بهره گرفتن از معیار همبستگی پیرسون می­باشد. در نهایت نتیجه­ به دست آمده امتیاز پیش ­بینی شده می­باشد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...