طرح های پژوهشی دانشگاه ها با موضوع اراﺋﻪی ﻣﺪﻟﻲ ﺑﺮای ﭘﻴﺶﺑﻴﻨﻲ ﮔﺮاﻳﺶ ﻋﻤﻮﻣﻲ در ﺑﻼﮔﺴﺘﺎن ﺑﺎ اﺳﺘﻔﺎده از روشﻫﺎی ﻫﻮش ...

جدول۴‑۳- کارایی الگوریتم PSO و کای با تعداد CPUها ی متفاوت ۶۳
جدول ۴‑۴- نتایج میانگین سرعت و گرایش در الگوریتم PSO 65
فصل اول
کلیات طرح
مقدمه
با رشد سریع رسانه‌های جمعی و فردی در وب که سرویس‌هایی در قالب شبکه‌های اجتماعی^[۱]، وبلاگ^[۲]،میکروبلاگ^[۳] ، اشتراک علاقه‌مندی‌ها و غیره ارائه می‌دهند، امروزه این امکان برای کاربران وب فراهم شده که از نظرات دیگران پیرامون مباحث گوناگون، سریعتر آگاه شوند، رفتارهای جمعی کاربران را دنبال کنند و «پربیننده‌ترین» مطالبی که در این قالبها ارائه می‌شود را تشخیص دهند، دنبال کنند و از گرایش جمعی کاربران^[۴] در یک محیط مجازی اطلاع یابند.

سوالات اساسی این پژوهش این است که آیا در یک بستر پردازشی توزیع‌شده با اعمال روش‌های هوش جمعی^[۵] بر پیام‌های رد و بدل شده در محیط بلاگستان می‌توان در زمان قابل قبول گرایش عمومی‌محتوای انتشاریافته در بلاگستان را تشخیص داد به نحوی که الگوریتم و سیستم توسعه یافته مقیاس‌پذیری را نقض یا تهدید نکند؟ (با توجه به اینکه اطلاعات مربوط به گرایش عمومی‌بلاگستان یکی از اطلاعاتی است که در اختیار کاربران قرار می‌گیرد، منظور از زمان قابل قبول فاصله زمانی بین دو تغییر در مهم‌ترین گرایش بلاگستان است که در صورت تشخیص گرایش با زمانی طولانی‌تر از این بازه، کاربران بلاگستان اطلاعات مربوط به محتوای مهم‌ترین گرایش را حداقل یک‌بار از دست خواهند داد.)
در صورت تشخیص گرایش در زمان قابل قبول آیا با آموزش یک سیستم مبتنی بر الگوریتم‌های یادگیری ماشین و با بهره‌برداری از داده‌های مربوط به پیشنه‌ی تغییرات در روند گرایش عمومی‌در بلاگستان و کشف الگوهای تغییرات، تحلیلی از گرایشات آتی بلاگستان حاصل می‌شود؟
فرضیه
روش‌های هوش جمعی مبتنی بر عامل‌های^[۶] مستقل از هم هستند که هرکدام مسیر مخصوص خود را در فضای حالت مسئله پیمایش می‌کند و به دنبال جواب مسئله هستند. این عامل‌ها علاوه بر ایجاد قابلیت حل مسئله به صورت موازی، به دلیل پراکندگی در فضای مسئله، احتمال افتادن در دام کمینه‌ی محلی^[۷] را کاهش می‌دهند. علاوه بر این ویژگی‌ها می‌توان به موارد زیر درباره اهمیت و دلیل توجه پژوهشگران به این الگوریتم‌‌ها اشاره کرد [۱]:

- همگن بودن: رفتار هر عامل با دیگر عامل‌ها یکسان است و این تضمین می‌کند که اگرچه فرایند حل مسئله موازی انجام می‌شود اما فرضیات مسئله و نحوه استدلال در این اجراهای موازی متفاوت نیست.

- محلی بودن: اطلاعاتی که هر عامل از دیگر اجزاء مجموعه دریافت می‌کند از درجه‌ی دوم اولویت هنگام تصمیم‌گیری برخوردارند و مهمترین عامل هنگام تصمیم‌گیری اطلاعات حسگرها و مشاهدات خود عامل است که محلی بودن جستجو برای هر عامل را تضمین می‌کند.

- اجتناب از برخورد: باعث می‌شود که تداخل در مسیرهای حل مسئله و عبور مکرر از جواب‌های مختلف به حداقل برسد.

شکل۱‑۱ تعداد مقالات در حوزه‌‌های مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]
این خصوصیات و همچنین ذات توزیع‌شد‌ه‌ی عامل‌های حل مسئله در الگوریتمهای هوش جمعی کمک می‌کنند تا با استقرار این عامل‌ها در یک محیط پردازشی توزیع‌ شده به طور موازی فضای حالت مسئله را بررسی کرده و پاسخ‌های بهینه‌ را یافت. زمانی ‌که فضای حالت مسئله به طور موازی مورد پردازش قرار گیرد و در صورت شکسته شدن فضای حالت ^[۸]، طوری که واحد‌های پردازش مختلف متناسب با توانشان حجمی‌از فضای حالت را پردازش کند، انتظار می‌رود که عملیات در زمان قابل قبول‌تری نسبت به حالتی که کل فضای حالت به وسیله‌ی یک الگوریتم غیرموازی بررسی می‌شود به نتیجه برسد.
تا کنون بررسی‌های مختلفی در زمینه‌ی پیش‌بینی حالات فردی و جمعی کاربران انجام‌ شده. برای مثال می‌توان به [۲] که سایت‌‌های LiveJournal و WeFeelFine.org بررسی شده و در این سایت‌ها افراد حالات روحی و روزانه‌ی خود را ثبت می‌کنند و برای هرکدام برچسب‌هایی مانند sad، happy و غیره قرار می‌دهند. در [۲] این برچسب‌ها بررسی شده‌اند و حالات آتی کاربران با درصد خطای قابل قبولی پیش‌بینی شده‌اند و این پیش‌بینی‌ها در قالب نمودارهای جذابی ارائه گردیده است. در کارهای دیگری (مانند [۳] و [۴]) به وسیله‌ی نوعی تحلیل دیگر به نام تمایل‌کاوی یا گرایش‌کاوی^[۹]، که بر اساس مدلی مبتنی بر زمان^[۱۰] از واکنش‌های کاربران نسبت به کالاهای مختلف است، تلاش شده که بازار آن کالا کمک کنند.
با توجه به نتایجی که از این بررسی‌ها به دست آمده انتظار داریم که روند مشابهی در رفتار جمعی کاربران در محیط بلاگستان مشاهده کرده و بتوان با تحلیل این روند به پیش‌بینی رفتار آتی آنان پرداخت. برای ساخت پیشنه‌ای از روند تغییرات گرایشات کاربران از یک الگوریتم یادگیری ماشین مثل Temporal learning، Q-Learning یا Reinforcement Learning بهره خواهیم برد و در فاز ابتدایی تغییرات گرایشات کاربران در یک بازه‌ی زمانی مشخص را با استفاده‌ از خصوصیات یک پیام در وبلاگ، به عنوان مجموعه داده‌ی آموزش در نظر می‌گیریم و انتظار داریم پس از آموزش بتوان گرایش بعدی کاربران را تشخیص داد، خطای محاسبه را به دست آورد و نتیجه کار را از نظر کارایی و دقت بررسی کرده با آزمون‌های مناسب ارزیابی کرد.
اهمیت و ضرورت
استخراج بینش^[۱۱] از انبوه زیادی از داده، کشف روابط پیچیده بین این داده‌ها و قابلیت‌های مشابه بدون انجام عملیات داده‌کاوی^[۱۲] و تحلیل داده‌ها^[۱۳] در این مجموعه‌های بزرگ داده امکان‌پذیر نیست و طیف گسترده‌ای از سرویس‌ها و پایگاه‌های اطلاعاتی از شبکه‌های اجتماعی بزرگ مثل توییتر^[۱۴] و فیسبوک^[۱۵] ، تا موتورهای جستجو و انتشارات، از داده‌کاوی برای بهره‌برداری از سلایق کاربران، دقیق‌تر کردن نتایج جستجو و یافتن گرایشات جمعی کاربران استفاده می‌کنند. این قابلیت‌ها علاوه بر بالا بردن دقت جستجو و کمک به کاربران برای دستیابی هرچه سریعتر به داده‌های مورد نیازشان، تاثیر وسیعی بر رفتارهای اجتماعی کاربران نیز گذاشته است. برای مثال[۵,۶]:

- ۸۱% درصد کاربران اینترنت هنگام خرید کالا حداقل یکبار از اینترنت برای تحقیق درباره کالا استفاده می‌کنند.

- ۲۰% کاربران این جستجو‌ها را به طور معمول هر روز انجام می‌دهند.

- بین ۷۳% تا ۸۷% کاربرانی که نقدکالاها را در اینترنت مطالعه می‌کنند تاثیر این نقد‌ها را در ارائه اطلاعات مفید برای خرید کالا مثبت ارزیابی کرده‌اند. (رسانه‌های بزرگ بهترین نقدها را به وسیله‌ی داده‌کاوی در اختیار کاربران قرار می‌دهند)

این آمار نشان می‌دهد که کشف گرایش عمومی‌کاربران علاوه بر رفتار آنها در دنیای مجازی بازتابی از رفتار آنها حقیقی آنهاست که و این تحلیل در حوزه‌ی تجارت، تبلیغات و علوم اجتماعی بسیار حائز اهمیت است.
البته گرچه مبحث داده‌کاوی در حوزه‌ی فن‌آوری اطلاعات حوزه‌ی جدید و نوپایی نیست اما تمایلات و نیازهای امروزی در این حوزه که با حجم‌های عظیم داده و پیچیدگی‌های بیشتر روبرو است. برای مثال توییتر با ۵۰۰ میلیون کاربر فعال و ۳۴۰ میلیون توییت در روز باید روزانه بیش از ۱٫۶ میلیارد تراکنش را در داده‌های خود اعمال کند و همزمان گرایشات کاربران را نیز استخراج کند[۷,۸]. این حجم‌های عظیم داده و پردازش نیازهایی جدی در این حوزه ایجاب کرده‌اند که از آن جمله می‌توان به پردازش‌های دقیق‌تر و هوشمندانه‌تر در زمانی قابل قبول برای کاربر اشاره کرد. این نیاز مقدمه‌ی ورود هوش مصنوعی^[۱۶] و بهینه‌سازی ^[۱۷] به این حوزه به‌ منظور دست‌یابی به نتایج صحیح‌تر در داده‌کاوی، ارائه‌ تحلیل‌های هوشمندانه‌تر و کشف الگوهای رفتاری درجریان داده‌های^[۱۸] منتشره در وب است.
اهداف
طرح ما برای این پ‍‍ژوهش بررسی یک مجموعه از پست‌های وبلاگهاست که این مجموعه‌ی داده از میان وبلاگ‌های فن‌آوری انتخاب می‌شود. در بخش اول پژوهش عامل‌های مختلف تشکیل‌دهنده‌ی یک الگوریتم هوش جمعی که منابع کافی پردازشی به آنها اختصاص داده‌شده است به صورت موازی به جستجو در فضای حالت مسئله خواهند پرداخت و گرایش عمومی‌کاربران را در بازه‌های زمانی مختلف کشف خواهند کرد. با توجه به اینکه پارامترهایی مربوط به زمان انتشار و مدت فعال بودن پیام‌های مختلف یک وبلاگ به همراه پیام در دسترس است، می‌توان روند انتشار پیام‌های وبلاگ را از این برچسب‌های زمانی استخراج کرد و با مقایسه‌ی آن با زمان اجرای الگوریتم و تولید خروجی آن کارایی الگوریتم را در یافتن گرایشات کاربران در زمان قابل قبول (ارزیابی کرد. همچنین با توجه به اینکه در حال حاضر نیازهای پردازشی مدام در حال افزایش است مقیاس‌پذیر بودن سیستم و الگوریتم مدنظر است.
در بخش دوم پژوهش با توجه به اینکه تشخیص گرایش در زمان قابل قبول در بخش اول محقق شده است، طی یک فاز آموزش قصد داریم پست‌های مربوطه را در این وبلاگ‌ها بررسی کرده و پرگرایش‌ترین^[۱۹] عناوین را مشخص ‌کنیم و سپس در فاز آزمایش پرگرایش‌ترین عنوان در این اجتماع را برای دوره‌های زمانی بعدی پیش‌بینی کنیم. در این راه تاکید ما بر نحوه‌ی تاثیر الگوریتم بر حل مسئله ( و در عین حال مشاهده‌ی رفتار گروهی یک اجتماع در یک دوره‌ی زمانی کوتاه) است و ابنکه دقت الگوریتم انتخاب شده به چه میزانی است و ‌در این پیش‌بینی به چه عواملی وابسته است. همچنین اینکه چگونه این الگوریتم یک مدل مناسب از انتخاب‌های فردی و تصمیمات جمعی ارائه می‌دهد و چطور می‌توان نگاشتی بین الگو‌های رفتاری کشف شده با تفسیر‌ها واقعی کشف کرد.
پیشینه‌ تحقیق و کارهای مرتبط
بلاگستان^[۲۰] عموما به عنوان شبکه‌ی اجتماعی وبلاگها شناخته شده است و شامل اجتماعی از کاربران است که با هم تعامل دارند و پیوندها و اجتماعات کوچک و بزرگی را شکل می‌دهند. در این شبکه‌ی اجتماعی، یک عضو برجسته‌ی خاص، یک گفتگوی مهم را شروع می‌کند و عکس‌العمل دیگران ممکن است به صورت گره‌های ارجاعی^[۲۱] یا گره‌های جمع‌کننده^[۲۲] نمایان شود. در حالت واقعی ممکن است چند عضو خاص برجسته وجود داشته باشد که گفتگو‌های بزرگ و وسیع را به راه می‌اندازند و چندین عضو دیگر وجود داشته باشد که محتوا را از گفتگوهای مختلف جمع‌ آوری می‌کنند [۱۷].
اغلب کارهای انجام شده در زمینه مدلسازی رفتار، در داده‌های online و در ابعاد بزرگ، در حوزه‌ی وبلاگ‌ها انجام شده است [۱۸,۱۹,۲۰]. در این مقالات اشاره شده، زمانی که اطلاعات بین وبلاگ‌ها منتشر می‌شود، نمونه‌هایی از رفتار آبشارگونه‌ی^[۲۳] عینی و خالص (بدون تغییر داده یا نرمال‌سازی آن)، با تعداد تکرار کم، ظاهر می‌شود. مشاهده‌ی اینگونه رفتار به یافتن الگوهای مشابه و بررسی و پیش‌بینی آنها کمک می‌کند.
در [۹] دیدن محتوای تولید‌شده در طول زمان و در محیط بلاگستان را به عنوان یک نوع ضربان روحی^[۲۴] از سوی کل اجتماع وبلاگ‌نویسان در نظر می‌گیرند. به این وسیله ادراک و مدلی از گفتگوهای جاری به دست‌ می‌آورند و از این مدل در جستجوی وبلاگ‌ها استفاده می‌کنند. در همین زمینه می‌توان به پروژه TREC نیز اشاره کرد که از تشخیص پست‌هایی که نظریه‌ای را مطرح می‌کنند (در واقع همان پست‌های تاثیر گذار از سوی افراد برجسته) برای جستجو در وبلاگ‌ها استفاده می‌کنند و در مراحل بعدی این نظریه‌ها را دسته‌‌بندی می‌کند[۱۰].
در زمینه‌ی درک گفتگو‌های انجام شده در وبلاگها پژوهش‌هایی کاربردی ارائه شده است. برای مثال در [۱۱] احساسات و عواطف جمعی استخراج شده از وبلاگ‌ها در خوشه‌های^[۲۵] معنی‌داری طبقه‌بندی شده و در آن ادعا شده که از این خوشه‌ها می‌توان به عنوان خط مشی‌‌هایی^[۲۶] برای پی‌بردن به احساسات نهفته در وبلاگ‌ها استفاده کرد و با بهره گرفتن از این احساسات تبلیغات مناسب گفتگو‌های در حال جریان در وبلاگ‌ها قرار داد. در همین زمینه می‌توان به چارچوبی اشاره کرد که در [۱۲] معرفی شده به نام SOCA (Sentiment-oriented contextual advertising) و به وسیله‌ی آن می‌توان تصمیم‌گیری کرد که تبلیغات منتشره در وبلاگ‌ها، مرتبط با محتوای وبلاگ باشند یا نزدیک به نیازهای بازار و کسانی که تبلیغات را منتشر می‌کنند. در واقع به وسیله‌ی تمایل‌کاوی این trade-off را پاسخ می‌دهد.
پاره‌ای دیگر از تحقیقات از اطلاعات تعاملی و رابطه‌ای استفاده می‌کنند تا روند تغییر حال و هوا و جو^[۲۷] در اجتماعی مثل یک ستاد انتخاباتی، یا دیدگاه کاربران نسبت یک اتفاق مثل اخبار حوادث (مخصوصا حوادث جنایی) را دنبال کنند. مثلا در [۱۳] روابط تعاملی وبلاگ‌ها تحلیل می‌شود تا الگو‌های رابطه‌ای محلی از آنها کشف شود و از سوی دیگر با تطابق این الگوهای محلی و مفاهیم کلی و عمومی‌بتوان تغییرات حال و هوای اجتماع مورد بررسی را کشف و خلاصه‌سازی کرده و در قالب گزارش ارائه داد.
هوش جمعی همانطور که در [۱۴] و [۱۵] بیان شده، تاثیر گسترده‌ای در مدیریت توزیع‌شده‌ی اطلاعات دارد. در [۱] به چالش‌های مرتبط با زمان پاسخ‌دهی^[۲۸] که پایگاه‌داده‌های توزیع‌شده هنگام تخصیص داده^[۲۹]، replication و fragmentation با آن روبرو هستند اشاره شده و اهمیت آنها بیان شده است. سپس با بیان پیچیدگی محاسباتی بسیار زیاد هنگام مواجه با vertical fragmentation در مسئله‌های با ابعاد بزرگ، یک الگوریتم مبتنی بر هوش جمعی معرفی شده که با کمک محلی کردن پردازشِ تراکنش‌ها، هزینه‌ی Vertical fragmentation را کاهش می‌دهد. در پژوهش دیگری [۱۵] یک الگوریتم Meta-heuristic بر مبنای بهینه‌سازی کلونی مورچه ارائه شده است که با توجه به استراتژی‌های بهینه‌سازی پرس‌وجو^[۳۰]، اعمال تمامیت^[۳۱] داده‌ها و وجود محدودیت در حافظه‌ی اصلی سیستم‌های مورد آزمایش، زمان پاسخ‌دهی کلی تراکنش را کاهش می‌دهد. به طور کلی مسائل مربوط به مدلسازی رفتاری و آماری را می‌توان با راهکارهای meta-heuristic بررسی کرد [۱۶] و این خاصیت به خوبی در این پژوهش مورد استفاده قرار گرفته است. از همین جهت، به صورت تئوری، استفاده از هوش جمعی برای تحلیل وبلاگ‌ها راهکار مناسبی است.
فصل دوم
ادبیات و پیشینه‌ تحقیق
مقدمه
در این بخش از فصل دوم یک معرفی کلی خواهیم داشت بر مفاهیم اصلی که در این پژوهش به آنها پرداخته شده است. پیش از ورود به بحث‌های اصلی نیاز است مقدمه‌ای درباره کلید‌واژه‌های استفاده شده در این پژوهش بیان شود تا سیر منطقی مطلب رعایت شود. همچنین این قسمت به نحوی مرجع تعریف این کلیدواژه‌هاست که در ادامه‌ی کار در صورت لزوم ارجاعاتی به آن شده است.
هوش جمعی
هوش جمعی یا هوش ازدحامی‌یا هوش گروهی^[۳۲] نوعی روش هوش مصنوعی است که استوار بر رفتارهای گروهی در سامانه‌های نامتمرکز و خودسامانده بنیان شده است. این سامانه‌ها معمولاً از جمعیتی از کنشگران ساده تشکیل شده است که بطور محلی با یکدیگر و با پیرامون خود در همکنشی هستند. با وجود اینکه معمولاً هیچ کنترل تمرکزیافته‌ای، چگونگی رفتار کنش‌گران را به آنها تحمیل نمی‌کند، همکنشیهای محلی آنها به پیدایش رفتاری عمومی‌می‌ انجامد. نمونه‌هایی از چنین سامانه‌ها را می‌توان در طبیعت مشاهده کرد؛ گروه‌های مورچه‌ها، دسته‌ی پرندگان، گله‌های حیوانات، انبوه باکتری‌ها و دسته‌ه ای ماهی. روباتیک گروهی، کاربردی از اصول هوش مصنوعی گروهی در شمار زیادی از روبات‌های ارزان قیمت است.
شکل۲‑۱ نمایی از یک گروه پرنده[۴۰]
فرض کنید شما و گروهی از دوستانتان به دنبال گنج می‌گردید. هر یک از اعضای گروه یک فلزیاب و یک بی‌سیم دارد که می‌تواند مکان و وضعیت کار خود را به همسایگان نزدیک خود اطلاع بدهد. بنابراین شما می‌دانید آیا همسایگانتان از شما به گنج نزدیکترند یا نه؟ پس اگر همسایه‌ای به گنج نزدیکتر بود شما می‌توانید به طرف او حرکت کنید. با چنین کاری شانس شما برای رسیدن به گنج بیشتر می‌شود و همچنین گنج زودتر از زمانی که شما تنها باشید، پیدا می‌شود.

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب