تحقیقات انجام شده در رابطه با استفاده ازکاربرانی با دقت پیشگویی بالا در سیستم های فیلترینگ اشتراکی- ... |
الگوریتمهای موجود در گروه فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه نسبت به الگوریتمهای موجود در فیلترینگ اشتراکی مبتنی بر مدل رایجتر میباشند اما قابل ذکر است که این الگوریتمها نیازمند حافظه بیشتری هستند. از نظر کارایی الگوریتمهای موجود در گروه مدل محور نتایج قابل توجهی را ارائه می دهند. اما از نظر دقت به جز تحقیقات اخیر[۲۱] نتایج خوبی به دست نیاوردهاند. الگوریتمهای حافظه محور به طور عمده بر الگوریتم KNN استوار میباشند.
از تلفیق دو دسته مدل محور و حافظه محور مدل تلفیقی به وجود می آید که هدف آن تلفیق مزیت هر دو دسته است . [۲۲]هم اکنون تحقیقات در راه پیشروی به سمت مدل تلفیقی میباشد .[۲۳]
در راهکار مبتنی بر حافظه پیش بینی به دو صورت براساس کاربران و براساس اقلام انجام میپذیرد .[۲۴]اختلاف نظرهایی در مورد اینکه پیش بینی بر اساس اقلام مبتنی بر حافظه و یا مبتنی بر مدل است وجود دارد ؛ در [۲۵] اعلام شده است که الگوریتمهای بر اساس اقلام همیشه مبتنی بر حافظه هستند و در [۲۶] این الگوریتمها بر اساس مدل کلاس بندی شده اند.
۲-۵-۱- فیلترینگ اشتراکی مبتنی بر حافظه
در فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه سرتاسر ماتریس کاربران - اقلام بررسی می شود (شکل شماره ۶). در این ماتریس که در حافظه ذخیره شده است امتیازهایی که کاربران به اقلام مختلف دادهاند وجود دارد. این ماتریس به صورت مستقیم برای پیش بینی نمره اقلامی که تا کنون هیچ امتیازی دریافت نکرده اند به کار میرود [۱۹]. یعنی این محاسبات به صورت برون خط[۴۲] انجام نمیپذیرد و همه چیز به صورت بر خط انجام می شود و همواره کل داده ها مورد نیاز میباشد. مزیت این روش این است که در هر زمان کل اطلاعات در دسترس میباشد اما با بزرگ شدن ماتریس یعنی تعداد کاربران و اقلام، فضای جستجو، حافظه مورد نیاز و زمان محاسبه افزایش مییابد.
همانطور که گفته شد در راهکار مبتنی بر حافظه پیش بینی به دو صورت پیش بینی بر اساس کاربران[۴۳] و پیش بینی براساس اقلام[۴۴] انجام می شود.
۲-۵-۱-۱- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس کاربران
در سیستمهای مبتنی برکاربر پیش بینی بر اساس ارزیابی امتیازهایی که توسط کاربران مشابه با کاربر فعال به اقلام مورد نظر تخصیص یافته انجام میپذیرد [۲۷]. کاربران شبیه آنهایی هستند که الگوی امتیازدهیشان شبیه به کاربر فعال باشد (شکل شماره ۶(.
یکی از چالشهای اصلی در این مدل نحوه پیدا کردن میزان شباهت بین کاربران میباشد. زیرا با بهره گرفتن از معیار شباهت شبیهترین همسایگان به کاربر فعال انتخاب و در پیش بینی استفاده میشوند.
۲-۵-۱-۲- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس اقلام
سیستمهای مبتنی بر اقلام امتیاز یک قلم خاص را بر اساس امتیازهایی که کاربر به اقلام مشابه داده است پیش بینی می کنند [۲۸] . دو قلم در صورتی به هم شبیه هستند که چند کاربر به طور مشابه به آنها رای داده باشند (شکل شماره ۷).
شکل شماره ۶: فیلترینگ اشتراکی مبتنی بر قلم شکل شماره ۷ : فیلترینگ اشتراکی مبتنی بر کاربر
۲-۵-۱- ۳- تفاوت فیلترینگ اشتراکی بر اساس کاربران و بر اساس اقلام
فیلترینگ اشتراکی بر اساس اقلام زمانی به کار میرود که روند افزایش اقلام کندتر از روند افزایش کاربران باشد [۲۸]. ولی در زمانی که روند افزایش اقلام سریعتر از روند افزایش کاربران باشد فیلترینگ اشتراکی بر اساس کاربران به کار می رود .[۲۹] به عنوان مثال اگر اقلامی مانند اخبار، مورد پژوهش باشد استفاده از روش قلم مبنا نامناسب خواهد بود و در صورتی که از این روش به عنوان مدل محور استفاده گردد به علت افزایش بسیار سریع اقلام مشکل سربار زیاد محاسباتی برای به روز رسانی مدل به وجود خواهد آمد. بر عکس اگر اقلامی مانند فیلم یا کتاب مورد پژوهش باشد استفاده از این روش مناسب خواهد بود.
۲-۵-۲- فیلترینگ اشتراکی مبتنی بر مدل
برخلاف سیستمهای مبتنی بر حافظه که امتیازهای ذخیره شده را به طور مستقیم درپیشبینی به کار میبرند، سیستمهای مبتنی بر مدل از این امتیازها برای یادگیری یک مدل پیش بینی استفاده می کنند. یعنی پارامترهای مدل به صورت برون خطی یاد گرفته میشوند و دیگر نیازی نیست که هر بار ماتریس امتیازدهی کاربران- اقلام بررسی شود. این مدل بر اساس داده های موجود آموزش[۴۵] داده می شود و در آینده برای پیش بینی امتیازهایی که کاربران به اقلام جدید خواهند داد به صورت روی خط به کار میرود [۴]. به همین دلیل نسبت به فیلترینگ اشتراکی مبتنی بر حافظه از سرعت بیشتری برخوردار است. این مدل می تواند یک الگوریتم یادگیری ماشین[۴۶] یا داده کاوی[۴۷] باشد [۳۰]. در گذشته الگوریتمهای موجود در حوزه یادگیری ماشین مانند شبکه های بیز[۴۸] [۸] و خوشه بندی[۴۹] [۳۱,۳۲] بسیار مورد توجه بوده اند .[۲۸] اگر چه امروزه الگوریتمهای فاکتورسازی ماتریس بسیار مورد توجه واقع شده اند اما همچنان الگوریتمهای خوشه بندی جایگاه خود را حفظ کرده اند.
۲-۶- نحوه تشخیص علائق کاربران
تشخیص میزان علائق کاربران نسبت به اقلام متفاوت یکی از مهمترین وظایف فیلترینگ اشتراکی میباشد. هر بار که کاربری در مورد قلمی خاص ابراز علاقه می کند مقدار جدیدی در نمایه او اضافه می شود. به دو صورت صریح و ضمنی میتوان علائق کاربر را استخراج نمود.
۲-۶-۱- تشخیص علائق به صورت صریح
برای این منظور سیستمهای پیشنهادگر تمایلی که کاربر به صورت واضح و آشکار نسبت به محصولات نشان میدهد مثل نمرههایی که به اقلام نسبت داده است را در یک پایگاه داده جمع آوری می کند. کاربر می تواند علائق خود را به طور صریح در غالب تک بیتی باینری یک و صفر به معنای خوب و بد و یا به صورت بازهای از اعداد که نشان دهنده میزان تمایل کاربر به قلم است نشان دهد. .به عنوان مثال اگر بازه امتیازدهی، اعداد ۱ تا ۵ باشد نسبت دادن امتیاز ۱ از سوی کاربر به معنای عدم علاقه و اختصاص دادن امتیاز ۵ به معنای علاقه کاربر به قلمی خاص میباشد [۷,۹].
۲-۶-۲- تشخیص علائق به صورت ضمنی
برای این منظور سیستم به صورت ضمنی بعضی رویدادها مثل حرکت اشارهگر به سمت محصولی خاص را در نظر میگیرد [۲۴]. در این روش کاربر تمایلاتش را به طور صریح و در قالب امتیاز نشان نمیدهد بلکه از رفتارش علائقاو محاسبه می شود .[۳۳,۳۴,۳۵,۳۶]
این پایان نامه فقط بر استنباط علائق به طور صریح متمرکز شده است. یعنی تمایلات کاربران باید به صورت نسبت دادن امتیاز به اقلام مشخص شده باشد.
۲-۷- محاسبه شباهت
برای پیش بینی یا ارائه پیشنهاد توسط فیلترینگ اشتراکی میبایست شبیهترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه همسایگی کاربر فعال در نظر گرفت. برای اندازه گیری میزان شباهت بین دو کاربر راهکارهای متفاوتی ارائه شده است که در اینجا دو مورد از معیارهای شباهت رایج که در فیلترینگ اشتراکی استغاده میشوند را معرفی میکنیم.
۲-۷-۱- معیار همبستگی پیرسون
این معیار میزان وابستگی بین الگوهای امتیازدهی دو کاربر (دو قلم) را میسنجد (فرمول شماره ۴). نتیجه حاصل از این فرمول عددی بین ۱ و ۱- میباشد. عدد ۱ نشان دهنده بیشترین شباهت، ۱- نمایانگر کمترین شباهت میباشد و اگر نتیجه عدد ۰ باشد یعنی دو موجودیت مورد مقایسه با هم هیچ ارتباطی ندارند.
(۴)
از فرمول فوق برای اندازه گیری میزان شباهت دو کاربر u و v استفاده می شود. نشان دهنده امتیازی که کاربر u به قلم j ام اختصاص داده میباشد. میانگین کل امتیازهایی که کاربر u به اقلام نسبت داده است میباشد.
فرمول زیر با کمی تغییر شباهت بین دو قلم i و j را اندازه گیری می کند.
(۵)
۲-۷-۲- معیار اندازه گیری کسینوس
معیار شباهت کسینوسی در حوزه بازیابی اطلاعات بسیار رایج است و برای اندازه گیری شباهت بین دو سند به کار میرود [۳۷]. این معیار میزان شباهت دو کاربر (دو قلم) را با بهره گرفتن از کسینوس زاویه بین بردارهای امتیازدهی آنها مشخص می کند (فرمول شماره ۶). نتیجه حاصل عددی بین ۱- و ۱ میباشد. هر چه عدد حاصل شده بزرگتر باشد یعنی دو موجودیت مورد مقایسه بیشتر به هم شبیه هستند و هر چه این عدد کوچکتر باشد یعنی دو موجودیت کمتر به هم شبیه هستند.
(۶)
اگرچه این معیار در حوزه بازیابی اطلاعات به خوبی کار می کند [۳۷,۳۸]اما برای محاسبه شباهت در فیلترینگ اشتراکی کاربر مبنا به خوبی معیار همبستگی پیرسون عمل نمیکند [۱۲].
در این پایان نامه با کمی تغییر از معیار همبستگی پیرسون برای اندازه گیری میزان شباهتها استفاده شده که در فصل ۴ به تفصیل توضیح داده شده است.
۲-۸- انتخاب همسایه
وقتی میزان شباهت تمام کاربران با کاربر فعال به دست آمد هم از نظر صحت و هم از نظر کارایی بهتر است زیر مجموعه ای از شبیهترین آنها را انتخاب و با بهره گرفتن از آنها امتیاز قلم دیده نشده را پیش بینی کرد [۱۸,۳۴]. برای این کار دو راه استفاده از حد آستانه و انتخاب تعداد ثابتی از همسایگان وجود دارد.
۲-۸-۱- استفاده از حد آستانه
در این روش یک حد آستانه تعیین می شود. کاربرانی که میزان شباهتشان بیشتر یا مساوی با این حد آستانه باشد به عنوان بهترین همسایهها انتخاب میشوند .[۹]تعیین این حد آستانه مقداری مشکل میباشد چون در یک مسئله با توجه به کاربران فعال مختلف این حد آستانه باید مدام تغییر کند.
۲-۸-۲- انتخاب تعداد ثابتی از همسایگان
در این روش کاربران با توجه به میزان شباهتشان به کاربر فعال مرتب شده سپسN تا از شبیهترین آنها به عنوان بهترین همسایهها انتخاب میشوند [۷] در [۱۶] بیان شده است که انتخاب تعداد ثابتی از همسایگان (معمولا بین ۲۰ تا ۶۰) نسبت به استفاده از حد آستانه منجر به نتیجه بهتری خواهد شد.
در این پایان نامه فقط از روش دوم یعنی انتخاب تعداد ثابتی از همسایگان استفاده شده است.
۲-۹- پیش بینی و تخمین رتبه
پس از انتخاب همسایهها نوبت به پیش بینی امتیاز قلم دیده نشده میرسد. روشهای متفاوتی برای تخمین رتبه وجود دارد که در اینجا به اختصار به بررسی دو مورد از آنها میپردازیم.
۲-۹-۱- استفاده از امتیازهای خام
(۷)
با بهره گرفتن از فرمول بالا میانگین وزن دارk تا از نزدیکترین همسایهها به کاربر فعال را به دست می آید. وزن هر همسایه معادل با میزان شباهت به دست آمده با بهره گرفتن از معیار همبستگی پیرسون میباشد. در نهایت نتیجه به دست آمده امتیاز پیش بینی شده میباشد.
فرم در حال بارگذاری ...
[شنبه 1400-08-08] [ 10:28:00 ب.ظ ]
|