خوشهبندی[۲۲]
فرایند گروه بندی اشیاء فیزیکی یا مجازی در کلاس هایی از اشیاء مشابه است. و یکی از روشهای یادگیری بدون نظارت به شمار می آید. یعنیدر ا بندا هیچ گونه اطلاع قبلی از کلاس ها در دسترس نیست و این وظیفه سیستم است که با بررسی دادهها، خوشه ها و ویژگیهای هر یک را تشخیص دهد.
پیش بینی و تخمین[۲۳]
مثلامیزان درآمد افراد را می توان با توجه به الگوهای پرداخت و سن آنها تخمین زد. در پیش بینی نیز، مثلا با توجه به الگوهای مشاهده شده در یک روزنامه، می توان وقوع برخی رخدادها در آینده را پیش بینی کرد.
تعیین وابستگی[۲۴] و همبستگی[۲۵]
با بهره گرفتن از این نوع کاوش می توان تعیین کرد، چه اجناسی با یکدیگر خریداری می شوند. در حالی که پیش بینی و تخمین راجع به مقادیر آینده تصمیم می گیرند، این نوع کاوش بین مقادیر جاری ارتباط برقرار می کند.
تحلیل انحراف
این نوع کاوش برای تشخیص بیماری ها مورد استفاده قرار می گیرد.
و…
۲-۷-۲ ساختارکاوی وب
ساختارکاوی وب، فرایند کشف اطلاعات ساختاری از وب می باشد.می توان ساختارکاوی وب را به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای بین اسناد است، بازنمایی کرد. ساختار کاوی وب، فرایند استخراج اطلاعات ساختاری از وب می باشد..صفحات وب ارائه ای از گره ها و هایپرلینک های ارائه شده به عنوان لبه است. در واقع ارتباط بین کاربر و وب را نشان میدهد. انگیزه ساختارکاوی وب به وسیله خلاصه ساختار یافته در مورد اطلاعات روی pages/webs تولید شدهاست. آن لینک یک صفحه وب را به دیگرصفحه وب نشان میدهد[۱۴,۲۵].
۲-۷-۲-۱ دسته های ساختار کاوی وب بر اساس نوع داده ساختاری
این نوع کاوش بر اساس آن که از چه نوع داده ساختاری استفاده می کند، به دو دسته تقسیم می شود که در شکل ۲-۵ نشان داده شدهاست.
۲-۵. دسته های ساختار کاوی وب بر اساس نوع داده ساختاری[۴۱]
یک پیوند، یک واحد ساختاری است که یک صفحه وب را به صفحه دیگر یا به بخش دیگری از همان صفحه متصل می کند. به پیوند نوع اول، پیوند بین سند[۲۶] و به پیوند نوع دوم، پیوند درون سند[۲۷] گفته می شود. به این نوع ساختارکاوی وب که از پیوندها استفاده می کند، تحلیل پیوند[۲۸] گفته می شود.
وساختار سند محتوای یک صفحه وب می تواند بر اساس تگ های XML و HTML موجود در آن به صورت یک درخت بازنمایی شود. کاوش در این جا بر استخراج مدل شیئ سند[۲۹] متمرکز می شود. به این نوع از ساختارکاوی وب، تحلیل ساختار سند[۳۰] گفته می شود[۴۱].
۲-۷-۲-۲ مدل های بازنمایی ساختار وب
برای به کارگیری الگوریتم های ساختارکاوی وب و محاسبه معیارهای مربوطه، ابتدا لازم است، ساختار وب با بهره گرفتن از مدلی بازنمایی شود. برخی از مدل های رایج، در شکل ۲-۶ نشان داده شدهاست[۴۱].
شکل۲-۶.مدل های بازنمایی ساختار کاوی وب[۴۱]
مدلهای مبتنی بر گراف، میتوانند از یک یا چند گره تشکیل شوند و یا کل گرههای گراف وب را شامل شوند. مدلهای تک گرهای ، از یک گره و چندین یال تشکیل شده اند که در شکل ۲-۷ نشان داده شدهاست.
(a) (b) ©
شکل۲-۷مدل های گراف تک گره ای[۴۱]
مدل (a) یک نوع صفحه وب را بازنمایی می کند که به آن Authorithy گفته می شود. یک صفحه Authorithy، صفحهای است که صفحات زیاد دیگری به آن اشاره کرده اند. مدل (b) نوع دیگری از صفحات وب را بازنمایی می کند که به آن Hub گفته می شود. یک صفحه Hub، صفحهای است که به صفحات زیاد دیگری اشاره می کند. مدل © نیز ترکیبی از دو مدل قبل میباشد[۴۱].
مدل های چند گره ای که نمونه های آن در شکل۲-۸ دیده می شود، شامل چندین گره و یال های متصل کننده آنها می باشند. در مدل (a) که ارجاع مستقیم خوانده می شود، یک صفحه به صفحه دیگر اشاره می کند که نشان می دهد، دو صفحه راجع به یک موضوع هستند. مدل (b) ارجاع متقابل است، که نشان دهنده ارتباطی قوی بین دو صفحه می باشد. مدل © یک ارجاع غیرمستقیم میان صفحه اول و سوم را نشان می دهد. مدل (d)، Co-citation است که در آن یک صفحه به دو صفحه دیگر اشاره می کند و احتمالا این دو صفحه مشابه یکدیگر هستند. مدل (e)، Co-referenceاست که دو صفحه به یک صفحه اشاره کرده و می توان نتیجه گرفت این دو صفحه با یکدیگر در ارتباطند[۴۱].
(a) (b) ©
(d) (e)
شکل۲-۸. مدل های گراف چند گره ای[۴۱]
در مدل های زنجیره مارکوف یک زنجیره مارکوف از مرتبه m، نشان می دهد که تغییر حالت یک سیستم، به حالت فعلی و m-1 حالت گذشته آن بستگی دارد. مدل های زنجیره مارکوف مرتبه اول برای مدلسازی رفتار پیمایشی کاربر در وب به کار رفته اند. الگوریتم رتبهبندی صفحه[۳۱] که یکی از الگوریتم های ساختارکاوی وب به شمار می آید، از فرایند قدم زدن تصادفی[۳۲] مبتنی بر مدل های زنجیره مارکوف استفاده می کند. در این الگوریتم فرض بر آن است که کاربر در طی پیمایش یا به یک صفحه جدید مراجعه می کند و یا یکی از پیوندهای موجود در صفحه جاری را طی می نماید. همچنین زنجیرهای مارکوف در طراحی سایت های تطبیقی[۳۳] نیز استفاده می شوند[۴۱].
۲-۷-۲-۳ کاربردهای ساختارکاوی وب
ساختارکاوی وب در کاربردهای وسیعی مورد استفاده قرار گرفتهاست.که در شکل۲-۹ نشان داده شدهاست. در ادامه برخی از این کاربردها مورد بررسی قرار می گیرند[۶۱,۴۱].
شکل۲-۹.کاربردهای ساختارکاوی وب[۶۱,۴۱]
در تشخیص اجتماعات وب یک اجتماع وب، مجموعه ای از صفحات وب است که راجع به موضوعات مشابه هستند و یا علایق مشترک ایجاد کنندگان این صفحات را منعکس می کنند. علاوه بر اجتماعاتی که صریحا در وب تعریف شدهاند (مانند گروه های خبری)، اجتماعات دیگری نیز به طور ضمنی در وب وجود دارند که حتی اعضای آن ممکن است از وجود آن بی اطلاع باشند. برای تشخیص اجتماعات وب محققین بسیاری از ساختار پیوندها استفاده کرده اند. برخی یک اجتماع را هسته ای از صفحات Authority دانسته اند که از طریق صفحات hub به یکدیگر متصل شدهاند. با این تعریف، برای تشخیص یک اجتماع می توان از الگوریتم HITS استفاده کرد. گروهی دیگر اجتماعات وب را در هنگام پیمایش وب تشخیص می دهند. در این روش، اجتماعات وب طی با بهره گرفتن از تکنیکی به نام Trawling که نوعی Sub-graph enumeration می باشد، بهدستمی آیند. برخی دیگر اجتماع وب را مجموعه ای از صفحات وب می دانند که تعداد اتصالاتشان با صفحات اجتماع بیش از تعداد اتصالاتشان با سایر صفحات وب است. این گروه برای تعیین اجتماعات، از الگوریتم جریان بیشینه استفاده می کنند[۶۱,۴۱,].
درپیمایش وب با توجه به افزایش حجم وب، پیمایش و جستجوی آن از اهمیت بالایی برخوردار است. در پیمایش این حجم وسیع از صفحات بهتر آن است، صفحاتی ابتدا پیمایش شوند که مرتبط با موضوع موردنظر می باشند. پیمایش متمرکز[۳۴] روشی است که برای پیمایش صفحات مرتبط با یک موضوع به کار می رود. در این روش سعی بر آن است که در هنگام پیمایش، صفحات Hub خوب تشخیص داده شوند تا از آنها به عنوان منبعی برای رسیدن به صفحات Authoriry استفاده شود.[۶۱,۴۱]
روش دیگری به نام پیمایش هوشمند[۳۵] نیز برای پیمایش صفحات وب پیشنهاد شدهاست. این روش علاوه بر ساختار پیوند وب از ویژگی های دیگری نیز استفاده می کند. از جمله این ویژگی ها، می توان به محتوای صفحه، Token های URL مانند برخی کلمات کلیدی مشخص که اهمیت یک URL در ارتباط با یک موضوع خاص را نشان می دهند، تعداد صفحات Sibling در گراف وب که پیمایش شدهاند و … اشاره کرد. با بهره گرفتن از این ویژگی ها اولویتی برای پیمایش هر یک از صفحات تعریف می شود[۶۱,۴۱].
۲-۷-۳ کاربردکاوی وب