طرح های پژوهشی دانشگاه ها با موضوع اراﺋﻪی ﻣﺪﻟﻲ ﺑﺮای ﭘﻴﺶﺑﻴﻨﻲ ﮔﺮاﻳﺶ ﻋﻤﻮﻣﻲ در ﺑﻼﮔﺴﺘﺎن ﺑﺎ اﺳﺘﻔﺎده از روشﻫﺎی ﻫﻮش ... |
جدول۴‑۳- کارایی الگوریتم PSO و کای با تعداد CPUها ی متفاوت ۶۳
جدول ۴‑۴- نتایج میانگین سرعت و گرایش در الگوریتم PSO 65
فصل اول
کلیات طرح
مقدمه
با رشد سریع رسانههای جمعی و فردی در وب که سرویسهایی در قالب شبکههای اجتماعی[۱]، وبلاگ[۲]، میکروبلاگ[۳] ، اشتراک علاقهمندیها و غیره ارائه میدهند، امروزه این امکان برای کاربران وب فراهم شده که از نظرات دیگران پیرامون مباحث گوناگون، سریعتر آگاه شوند، رفتارهای جمعی کاربران را دنبال کنند و «پربینندهترین» مطالبی که در این قالبها ارائه میشود را تشخیص دهند، دنبال کنند و از گرایش جمعی کاربران[۴] در یک محیط مجازی اطلاع یابند.
سوالات اساسی این پژوهش این است که آیا در یک بستر پردازشی توزیعشده با اعمال روشهای هوش جمعی[۵] بر پیامهای رد و بدل شده در محیط بلاگستان میتوان در زمان قابل قبول گرایش عمومیمحتوای انتشاریافته در بلاگستان را تشخیص داد به نحوی که الگوریتم و سیستم توسعه یافته مقیاسپذیری را نقض یا تهدید نکند؟ (با توجه به اینکه اطلاعات مربوط به گرایش عمومیبلاگستان یکی از اطلاعاتی است که در اختیار کاربران قرار میگیرد، منظور از زمان قابل قبول فاصله زمانی بین دو تغییر در مهمترین گرایش بلاگستان است که در صورت تشخیص گرایش با زمانی طولانیتر از این بازه، کاربران بلاگستان اطلاعات مربوط به محتوای مهمترین گرایش را حداقل یکبار از دست خواهند داد.)
در صورت تشخیص گرایش در زمان قابل قبول آیا با آموزش یک سیستم مبتنی بر الگوریتمهای یادگیری ماشین و با بهرهبرداری از دادههای مربوط به پیشنهی تغییرات در روند گرایش عمومیدر بلاگستان و کشف الگوهای تغییرات، تحلیلی از گرایشات آتی بلاگستان حاصل میشود؟
فرضیه
روشهای هوش جمعی مبتنی بر عاملهای[۶] مستقل از هم هستند که هرکدام مسیر مخصوص خود را در فضای حالت مسئله پیمایش میکند و به دنبال جواب مسئله هستند. این عاملها علاوه بر ایجاد قابلیت حل مسئله به صورت موازی، به دلیل پراکندگی در فضای مسئله، احتمال افتادن در دام کمینهی محلی[۷] را کاهش میدهند. علاوه بر این ویژگیها میتوان به موارد زیر درباره اهمیت و دلیل توجه پژوهشگران به این الگوریتمها اشاره کرد [۱]:
-
- همگن بودن: رفتار هر عامل با دیگر عاملها یکسان است و این تضمین میکند که اگرچه فرایند حل مسئله موازی انجام میشود اما فرضیات مسئله و نحوه استدلال در این اجراهای موازی متفاوت نیست.
-
- محلی بودن: اطلاعاتی که هر عامل از دیگر اجزاء مجموعه دریافت میکند از درجهی دوم اولویت هنگام تصمیمگیری برخوردارند و مهمترین عامل هنگام تصمیمگیری اطلاعات حسگرها و مشاهدات خود عامل است که محلی بودن جستجو برای هر عامل را تضمین میکند.
-
- اجتناب از برخورد: باعث میشود که تداخل در مسیرهای حل مسئله و عبور مکرر از جوابهای مختلف به حداقل برسد.
شکل۱‑۱ تعداد مقالات در حوزههای مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]
این خصوصیات و همچنین ذات توزیعشدهی عاملهای حل مسئله در الگوریتمهای هوش جمعی کمک میکنند تا با استقرار این عاملها در یک محیط پردازشی توزیع شده به طور موازی فضای حالت مسئله را بررسی کرده و پاسخهای بهینه را یافت. زمانی که فضای حالت مسئله به طور موازی مورد پردازش قرار گیرد و در صورت شکسته شدن فضای حالت [۸]، طوری که واحدهای پردازش مختلف متناسب با توانشان حجمیاز فضای حالت را پردازش کند، انتظار میرود که عملیات در زمان قابل قبولتری نسبت به حالتی که کل فضای حالت به وسیلهی یک الگوریتم غیرموازی بررسی میشود به نتیجه برسد.
تا کنون بررسیهای مختلفی در زمینهی پیشبینی حالات فردی و جمعی کاربران انجام شده. برای مثال میتوان به [۲] که سایتهای LiveJournal و WeFeelFine.org بررسی شده و در این سایتها افراد حالات روحی و روزانهی خود را ثبت میکنند و برای هرکدام برچسبهایی مانند sad، happy و غیره قرار میدهند. در [۲] این برچسبها بررسی شدهاند و حالات آتی کاربران با درصد خطای قابل قبولی پیشبینی شدهاند و این پیشبینیها در قالب نمودارهای جذابی ارائه گردیده است. در کارهای دیگری (مانند [۳] و [۴]) به وسیلهی نوعی تحلیل دیگر به نام تمایلکاوی یا گرایشکاوی[۹]، که بر اساس مدلی مبتنی بر زمان[۱۰] از واکنشهای کاربران نسبت به کالاهای مختلف است، تلاش شده که بازار آن کالا کمک کنند.
با توجه به نتایجی که از این بررسیها به دست آمده انتظار داریم که روند مشابهی در رفتار جمعی کاربران در محیط بلاگستان مشاهده کرده و بتوان با تحلیل این روند به پیشبینی رفتار آتی آنان پرداخت. برای ساخت پیشنهای از روند تغییرات گرایشات کاربران از یک الگوریتم یادگیری ماشین مثل Temporal learning، Q-Learning یا Reinforcement Learning بهره خواهیم برد و در فاز ابتدایی تغییرات گرایشات کاربران در یک بازهی زمانی مشخص را با استفاده از خصوصیات یک پیام در وبلاگ، به عنوان مجموعه دادهی آموزش در نظر میگیریم و انتظار داریم پس از آموزش بتوان گرایش بعدی کاربران را تشخیص داد، خطای محاسبه را به دست آورد و نتیجه کار را از نظر کارایی و دقت بررسی کرده با آزمونهای مناسب ارزیابی کرد.
اهمیت و ضرورت
استخراج بینش[۱۱] از انبوه زیادی از داده، کشف روابط پیچیده بین این دادهها و قابلیتهای مشابه بدون انجام عملیات دادهکاوی[۱۲] و تحلیل دادهها[۱۳] در این مجموعههای بزرگ داده امکانپذیر نیست و طیف گستردهای از سرویسها و پایگاههای اطلاعاتی از شبکههای اجتماعی بزرگ مثل توییتر[۱۴] و فیسبوک[۱۵] ، تا موتورهای جستجو و انتشارات، از دادهکاوی برای بهرهبرداری از سلایق کاربران، دقیقتر کردن نتایج جستجو و یافتن گرایشات جمعی کاربران استفاده میکنند. این قابلیتها علاوه بر بالا بردن دقت جستجو و کمک به کاربران برای دستیابی هرچه سریعتر به دادههای مورد نیازشان، تاثیر وسیعی بر رفتارهای اجتماعی کاربران نیز گذاشته است. برای مثال[۵,۶]:
-
- ۸۱% درصد کاربران اینترنت هنگام خرید کالا حداقل یکبار از اینترنت برای تحقیق درباره کالا استفاده میکنند.
-
- ۲۰% کاربران این جستجوها را به طور معمول هر روز انجام میدهند.
-
- بین ۷۳% تا ۸۷% کاربرانی که نقدکالاها را در اینترنت مطالعه میکنند تاثیر این نقدها را در ارائه اطلاعات مفید برای خرید کالا مثبت ارزیابی کردهاند. (رسانههای بزرگ بهترین نقدها را به وسیلهی دادهکاوی در اختیار کاربران قرار میدهند)
این آمار نشان میدهد که کشف گرایش عمومیکاربران علاوه بر رفتار آنها در دنیای مجازی بازتابی از رفتار آنها حقیقی آنهاست که و این تحلیل در حوزهی تجارت، تبلیغات و علوم اجتماعی بسیار حائز اهمیت است.
البته گرچه مبحث دادهکاوی در حوزهی فنآوری اطلاعات حوزهی جدید و نوپایی نیست اما تمایلات و نیازهای امروزی در این حوزه که با حجمهای عظیم داده و پیچیدگیهای بیشتر روبرو است. برای مثال توییتر با ۵۰۰ میلیون کاربر فعال و ۳۴۰ میلیون توییت در روز باید روزانه بیش از ۱٫۶ میلیارد تراکنش را در دادههای خود اعمال کند و همزمان گرایشات کاربران را نیز استخراج کند[۷,۸]. این حجمهای عظیم داده و پردازش نیازهایی جدی در این حوزه ایجاب کردهاند که از آن جمله میتوان به پردازشهای دقیقتر و هوشمندانهتر در زمانی قابل قبول برای کاربر اشاره کرد. این نیاز مقدمهی ورود هوش مصنوعی[۱۶] و بهینهسازی [۱۷] به این حوزه به منظور دستیابی به نتایج صحیحتر در دادهکاوی، ارائه تحلیلهای هوشمندانهتر و کشف الگوهای رفتاری درجریان دادههای[۱۸] منتشره در وب است.
اهداف
طرح ما برای این پژوهش بررسی یک مجموعه از پستهای وبلاگهاست که این مجموعهی داده از میان وبلاگهای فنآوری انتخاب میشود. در بخش اول پژوهش عاملهای مختلف تشکیلدهندهی یک الگوریتم هوش جمعی که منابع کافی پردازشی به آنها اختصاص دادهشده است به صورت موازی به جستجو در فضای حالت مسئله خواهند پرداخت و گرایش عمومیکاربران را در بازههای زمانی مختلف کشف خواهند کرد. با توجه به اینکه پارامترهایی مربوط به زمان انتشار و مدت فعال بودن پیامهای مختلف یک وبلاگ به همراه پیام در دسترس است، میتوان روند انتشار پیامهای وبلاگ را از این برچسبهای زمانی استخراج کرد و با مقایسهی آن با زمان اجرای الگوریتم و تولید خروجی آن کارایی الگوریتم را در یافتن گرایشات کاربران در زمان قابل قبول (ارزیابی کرد. همچنین با توجه به اینکه در حال حاضر نیازهای پردازشی مدام در حال افزایش است مقیاسپذیر بودن سیستم و الگوریتم مدنظر است.
در بخش دوم پژوهش با توجه به اینکه تشخیص گرایش در زمان قابل قبول در بخش اول محقق شده است، طی یک فاز آموزش قصد داریم پستهای مربوطه را در این وبلاگها بررسی کرده و پرگرایشترین[۱۹] عناوین را مشخص کنیم و سپس در فاز آزمایش پرگرایشترین عنوان در این اجتماع را برای دورههای زمانی بعدی پیشبینی کنیم. در این راه تاکید ما بر نحوهی تاثیر الگوریتم بر حل مسئله ( و در عین حال مشاهدهی رفتار گروهی یک اجتماع در یک دورهی زمانی کوتاه) است و ابنکه دقت الگوریتم انتخاب شده به چه میزانی است و در این پیشبینی به چه عواملی وابسته است. همچنین اینکه چگونه این الگوریتم یک مدل مناسب از انتخابهای فردی و تصمیمات جمعی ارائه میدهد و چطور میتوان نگاشتی بین الگوهای رفتاری کشف شده با تفسیرها واقعی کشف کرد.
پیشینه تحقیق و کارهای مرتبط
بلاگستان[۲۰] عموما به عنوان شبکهی اجتماعی وبلاگها شناخته شده است و شامل اجتماعی از کاربران است که با هم تعامل دارند و پیوندها و اجتماعات کوچک و بزرگی را شکل میدهند. در این شبکهی اجتماعی، یک عضو برجستهی خاص، یک گفتگوی مهم را شروع میکند و عکسالعمل دیگران ممکن است به صورت گرههای ارجاعی[۲۱] یا گرههای جمعکننده[۲۲] نمایان شود. در حالت واقعی ممکن است چند عضو خاص برجسته وجود داشته باشد که گفتگوهای بزرگ و وسیع را به راه میاندازند و چندین عضو دیگر وجود داشته باشد که محتوا را از گفتگوهای مختلف جمع آوری میکنند [۱۷].
اغلب کارهای انجام شده در زمینه مدلسازی رفتار، در دادههای online و در ابعاد بزرگ، در حوزهی وبلاگها انجام شده است [۱۸,۱۹,۲۰]. در این مقالات اشاره شده، زمانی که اطلاعات بین وبلاگها منتشر میشود، نمونههایی از رفتار آبشارگونهی[۲۳] عینی و خالص (بدون تغییر داده یا نرمالسازی آن)، با تعداد تکرار کم، ظاهر میشود. مشاهدهی اینگونه رفتار به یافتن الگوهای مشابه و بررسی و پیشبینی آنها کمک میکند.
در [۹] دیدن محتوای تولیدشده در طول زمان و در محیط بلاگستان را به عنوان یک نوع ضربان روحی[۲۴] از سوی کل اجتماع وبلاگنویسان در نظر میگیرند. به این وسیله ادراک و مدلی از گفتگوهای جاری به دست میآورند و از این مدل در جستجوی وبلاگها استفاده میکنند. در همین زمینه میتوان به پروژه TREC نیز اشاره کرد که از تشخیص پستهایی که نظریهای را مطرح میکنند (در واقع همان پستهای تاثیر گذار از سوی افراد برجسته) برای جستجو در وبلاگها استفاده میکنند و در مراحل بعدی این نظریهها را دستهبندی میکند[۱۰].
در زمینهی درک گفتگوهای انجام شده در وبلاگها پژوهشهایی کاربردی ارائه شده است. برای مثال در [۱۱] احساسات و عواطف جمعی استخراج شده از وبلاگها در خوشههای[۲۵] معنیداری طبقهبندی شده و در آن ادعا شده که از این خوشهها میتوان به عنوان خط مشیهایی[۲۶] برای پیبردن به احساسات نهفته در وبلاگها استفاده کرد و با بهره گرفتن از این احساسات تبلیغات مناسب گفتگوهای در حال جریان در وبلاگها قرار داد. در همین زمینه میتوان به چارچوبی اشاره کرد که در [۱۲] معرفی شده به نام SOCA (Sentiment-oriented contextual advertising) و به وسیلهی آن میتوان تصمیمگیری کرد که تبلیغات منتشره در وبلاگها، مرتبط با محتوای وبلاگ باشند یا نزدیک به نیازهای بازار و کسانی که تبلیغات را منتشر میکنند. در واقع به وسیلهی تمایلکاوی این trade-off را پاسخ میدهد.
پارهای دیگر از تحقیقات از اطلاعات تعاملی و رابطهای استفاده میکنند تا روند تغییر حال و هوا و جو[۲۷] در اجتماعی مثل یک ستاد انتخاباتی، یا دیدگاه کاربران نسبت یک اتفاق مثل اخبار حوادث (مخصوصا حوادث جنایی) را دنبال کنند. مثلا در [۱۳] روابط تعاملی وبلاگها تحلیل میشود تا الگوهای رابطهای محلی از آنها کشف شود و از سوی دیگر با تطابق این الگوهای محلی و مفاهیم کلی و عمومیبتوان تغییرات حال و هوای اجتماع مورد بررسی را کشف و خلاصهسازی کرده و در قالب گزارش ارائه داد.
هوش جمعی همانطور که در [۱۴] و [۱۵] بیان شده، تاثیر گستردهای در مدیریت توزیعشدهی اطلاعات دارد. در [۱] به چالشهای مرتبط با زمان پاسخدهی[۲۸] که پایگاهدادههای توزیعشده هنگام تخصیص داده[۲۹]، replication و fragmentation با آن روبرو هستند اشاره شده و اهمیت آنها بیان شده است. سپس با بیان پیچیدگی محاسباتی بسیار زیاد هنگام مواجه با vertical fragmentation در مسئلههای با ابعاد بزرگ، یک الگوریتم مبتنی بر هوش جمعی معرفی شده که با کمک محلی کردن پردازشِ تراکنشها، هزینهی Vertical fragmentation را کاهش میدهد. در پژوهش دیگری [۱۵] یک الگوریتم Meta-heuristic بر مبنای بهینهسازی کلونی مورچه ارائه شده است که با توجه به استراتژیهای بهینهسازی پرسوجو[۳۰]، اعمال تمامیت[۳۱] دادهها و وجود محدودیت در حافظهی اصلی سیستمهای مورد آزمایش، زمان پاسخدهی کلی تراکنش را کاهش میدهد. به طور کلی مسائل مربوط به مدلسازی رفتاری و آماری را میتوان با راهکارهای meta-heuristic بررسی کرد [۱۶] و این خاصیت به خوبی در این پژوهش مورد استفاده قرار گرفته است. از همین جهت، به صورت تئوری، استفاده از هوش جمعی برای تحلیل وبلاگها راهکار مناسبی است.
فصل دوم
ادبیات و پیشینه تحقیق
مقدمه
در این بخش از فصل دوم یک معرفی کلی خواهیم داشت بر مفاهیم اصلی که در این پژوهش به آنها پرداخته شده است. پیش از ورود به بحثهای اصلی نیاز است مقدمهای درباره کلیدواژههای استفاده شده در این پژوهش بیان شود تا سیر منطقی مطلب رعایت شود. همچنین این قسمت به نحوی مرجع تعریف این کلیدواژههاست که در ادامهی کار در صورت لزوم ارجاعاتی به آن شده است.
هوش جمعی
هوش جمعی یا هوش ازدحامییا هوش گروهی[۳۲] نوعی روش هوش مصنوعی است که استوار بر رفتارهای گروهی در سامانههای نامتمرکز و خودسامانده بنیان شده است. این سامانهها معمولاً از جمعیتی از کنشگران ساده تشکیل شده است که بطور محلی با یکدیگر و با پیرامون خود در همکنشی هستند. با وجود اینکه معمولاً هیچ کنترل تمرکزیافتهای، چگونگی رفتار کنشگران را به آنها تحمیل نمیکند، همکنشیهای محلی آنها به پیدایش رفتاری عمومیمی انجامد. نمونههایی از چنین سامانهها را میتوان در طبیعت مشاهده کرد؛ گروههای مورچهها، دستهی پرندگان، گلههای حیوانات، انبوه باکتریها و دستهه ای ماهی. روباتیک گروهی، کاربردی از اصول هوش مصنوعی گروهی در شمار زیادی از روباتهای ارزان قیمت است.
شکل۲‑۱ نمایی از یک گروه پرنده[۴۰]
فرض کنید شما و گروهی از دوستانتان به دنبال گنج میگردید. هر یک از اعضای گروه یک فلزیاب و یک بیسیم دارد که میتواند مکان و وضعیت کار خود را به همسایگان نزدیک خود اطلاع بدهد. بنابراین شما میدانید آیا همسایگانتان از شما به گنج نزدیکترند یا نه؟ پس اگر همسایهای به گنج نزدیکتر بود شما میتوانید به طرف او حرکت کنید. با چنین کاری شانس شما برای رسیدن به گنج بیشتر میشود و همچنین گنج زودتر از زمانی که شما تنها باشید، پیدا میشود.
فرم در حال بارگذاری ...
[یکشنبه 1400-08-09] [ 12:41:00 ق.ظ ]
|