موتورهای جستجو توانایی برگرداندن نتایج متمرکزتری را نسبت به دایرکتوری های وب دارند. هر چند که برای پرس و جو های مبهم و بدفرم، نتایج بدست آمده اغلب بی فایده و گمراه کننده می باشد. چالش اصلی موتورهای جستجو درک پرسش و بازگرداندن بهترین نتایج است. وب معمولاً میلیونها صفحه را که با کلمات کلیدی کاربر مطابقت دارد در بر می گیرد، اما کاربران نیاز به بازدید تعدادی کمی از سایتهای وب مرتبط دارند. آنالیز لاگ فایل های پرس و جوی وب نشان داد که کاربران ده نتیجه نخستین فهرست شده توسط موتور جستجو را بازدید می کنند] ۱۷[.
تمرکز اصلی رتبه بندی، بازیابی اطلاعات[۱۱] می باشد. یک زمینه تحقیقاتی چند رشته ای برای انتخاب و رتبه بندی اسنادی که با کلمات کلیدی تطابق دارد. وب در مقایسه با متنهای کلاسیک متفاوت است. صفحات با فوق پیوندها به هم لینک شده اند که می تواند در محاسبات رابطه مورد سوء استفاده قرار بگیرد] ۲۴[.
۲-۲-۱- معماری موتورهای جستجوی وب:
اگرچه اطلاعات در مورد اجزاء و الگوریتم های موتورهای جستجوی تجاری در دسترس عموم نیست، اعتقاد بر این است که ساختار کلی شبیه شکل زیر است ]۱۸, ۱۹, ۲۰[. معماری را می توان به سه بخش منطقی مجزا از هم تقسیم نمود.
کاوشگر[۱۲] صفحات وب را در یک مخزن محلی دانلود می کند.
شاخص ساز[۱۳]، صفحات دانلود شده را پردازش می کند.
موتور پرس و جو، برای رسیدگی به پرس و جو های کاربران با بهره گرفتن از داده های پیش پردازش تولید شده توسط شاخص سازی، به کار می رود.
شکل ۲-۲: معماری کلی موتور جستجو ]۱۸[
کاوشگر:
کاوشگر، گراف وب را به وسیله فوق پیوندها می پیماید و صفحات کشف شده در این فرایند را دانلود می کند. صفحات دانلود شده در یک مخزن محلی نگهداری می شود.
چالش اصلی در کاوشگرها این موارد هستند :
پوشش:
کاوشگر صفحات را تا بیشترین حد ممکن دانلود میکند اما اجازه سربار سایت های وب را نمی دهد، هم چنین کاوشگر از قوانینی پیروی می کند که اجازه درخواست مکرر را نمی دهد.
تازگی :
صفحات منسوخ شده باید دوباره واکشی شوند. انواع مختلف صفحات ممکن است طول عمر متفاوت داشته باشند. صفحات تغییر کرده غالباً باید دوباره واکشی شوند اما صفحاتی که به ندرت تغییر می کنند ندرتاً بروزرسانی می شوند. وظیفه کاوشگر به طور همزمان حفظ تازگی و پوشش است.
شاخص سازی:
به منظور پاسخ به جستجو در کسری از ثانیه، پیش محاسبه حجیمی نیاز است. در طول پیش محاسبه پایگاه داده های متفاوت، شاخص ها ساخته می شوند.
برای هر کلمه w، شاخص اصلی، فهرست اعلان تمام شناسه های سند و مکان های وقوع آنها را در بر می گیرد. فهرست اعلان برای همه کلمات پرسش به منظور تولید فهرستی از اسناد که با پرسش مطابقت داشته باشد، پردازش می شود. این شاخص اغلب به عنوان شاخص معکوس مورد ارجاع قرار می گیرد بدلیل اینکه نمود ترانهاده ای از رابطه سند – کلمه را بیان می کند.
ساختن شاخص معمولاً به شکل موازی انجام می شود که شامل تجزیه و تحلیل و نشانه گذاری اسناد در مخزن می باشد.
علاوه بر شاخص اصلی، پایگاه داده ها و شاخص هایی دیگر ساخته می شود که اغلب توسط کاوشگر و یا برای رتبه بندی استفاده می شود. به عنوان مثال گراف وب توسط تجزیه و تحلیل فوق پیوندها ساخته می شود. معیارهای کیفیت مستقل پرس و جو (به عنوان مثال رتبه) می تواند برای هر سند در شاخص های سودمند اضافی محاسبه و ذخیره شود.
۲-۲-۲-سرویس دهنده[۱۴] پرس و جوی موتور جستجو:
هدف اصلی موتور پرس و جو، پردازش پرس و جو های ارسال شده توسط کاربران است. اگر پرس و جو شامل بیش از یک عبارت باشد معمولاً موتورهای جستجو یک AND بین آنها به صورت پیش فرض در نظر می گیرند، یعنی کاربر صفحه ای که شامل تمام کلمات مورد جستجو است را دریافت خواهد کرد. به منظور تولید این فهرست اسناد، موتور پرس و جو، فهرست اعلان کلمات پرس و جو را در شاخص مورد توجه قرار داده، تناسب آنها را محاسبه نموده، رتبه بندی را به کار برده و موفقیت[۱۵] ها را به کاربر ارائه می نماید. ارائه نتایج به کاربر ممکن است شامل محاسبات دیگر و دستیابی به پایگاه داده های دیگر باشد، نظیر تولید snippet، گزیده ای کوتاه از اسناد که کلمات پرس و جو را در بر می گیرد. همه این فرآیندها باید در کسری از ثانیه انجام بگیرد و این زمان پاسخ نیاز به الگوریتم های کارا دارد و پیش محاسبات در طی شاخص سازی را توجیه می کند] ۲۴[.
۲-۳- رتبه بندی
۲-۳-۱-رتبه بندی مبتنی بر محتوا:
رتبه بندی مبتنی بر محتوا یک مولفه موتور جستجو می باشد که تمرکز آن بیشتر روی بازیابی اطلاعات کلاسیک است که یک رشته چند شاخه ای می باشد که به بررسی مدلهایی برای انتخاب و رتبه بندی اسناد که با کلمات کلیدی داده شده مطابقت دارد، می پردازد. موتورهای جستجو نمره رابطه را به هر سند اختصاص می دهند که ارتباط سند با پرسش را بیان می کند. با سند و پرسش به عنوان ترتیبی از کلمات رفتار می شود. پرسشی که برای الگوریتم رتبه بندی متناسب شده، در برخی مواقع با پرسشی که کاربر تایپ کرده متفاوت می باشد. برخی از واژه ها ممکن است حذف شوند و برخی کلمات ممکن است به پرسش اضافه شوند. برای نمونه کلمات پر تکرار (the,a,and,….) اغلب از پرسش ها حذف می شوند و گاهی اوقات ممکن است به خوبی تمییز داده نشوند و باعث نویز در رتبه بندی می شوند. از سوی دیگر، کلمات مرتبط نظیر مترادف ها یا صرف فعل ممکن است به منظور پیدا کردن اسنادی که شکل های دیگری از کلمات پرسش را در بر می گیرند، اضافه شوند. دو مدل هست که اغلب در موتورهای جستجو و بازیابی اطلاعات مورد استفاده قرار می گیرد. مدل فضای برداری که اسناد و پرسش ها را با بردار بیان می کند و به مدل ارتباط احتمالی که با شاخه ی احتمالات مطابقت دارد ]۲۲,۲۳[.
مدل فضای برداری و TF-IDF:
در مدل فضای برداری، هر سند به وسیله ی یک بردار خلوت بیان می شود که هر ورودی متناسب با یک کلمه است. ورودی های متناسب با کلمات در سند غیرصفر هستند. به طور مشابه، پرسش ها نیز با یک بردار خلوت نشان داده می شوند و رابطه، به وسیله تشابه مابین بردارهای پرسش و سند بیان می شوند. راه های متفاوتی برای تعریف مقدار یک کلمه در بردار سند برای بیان اهمیت متناسب با کلمه وجود دارد. بهترین و شناخته ترین طرح، TF-IDF خوانده می شود ]۲۴[.
فرض کنید پرسش، اصطلاح واحد t را در بر می گیرد. چگونه می توانیم رابطه سند d برای این پرسش را تعیین کنیم؟ ایده اولیه همان تعداد دفعات وقوع t است. این ایده زمانی موفق است که همه اسناد اندازه مشابه داشته باشند، اگر یکی کوتاه و دیگری بلند باشد و هر دو شامل تعداد دفعات مشابه باشند، اینگونه احساس می شود آنکه کوتاهتر است نسبت به آنکه بلندتر است ارتباط بیشتری با پرسش دارد، به این دلیل که سند بلندتر محتویات غیرمرتبط اضافی را دربر می گیرد.
به همین دلیل است که ما فرکانس اصطلاح را تعریف می کنیم. اگر Nij تعداد دفعات اصطلاح t که در سند d آشکار می شود، باشد، در اینصورت فرکانس اصطلاح t در] d24 :[
(۲-۱)
TFtd=
فرض کنید پرسش ما “the big Apple” باشد و ما از مجموع سه فرکانس اصطلاح به عنوان نمره رابطه استفاده می کنیم.واضح است که سه اصطلاح در پرسش اهمیت مساوی ندارند. سندی که به تعداد دفعات زیاد کلمات “the” و “big” را در بر می گیرد اما یک بار کلمه ی “Apple” را شامل می شود،نسبت به سندی که دربرگیرنده کلمه “Apple” به تعداد دفعات بیشتر است، ارتباط کمتری با پرسش دارد.
فرکانس سند اصطلاح t را به عنوان کسری از اسناد که حداقل یک بار t را در بر می گیرد، تعریف می کنیم. فرکانس سند معکوس، لگاریتم معکوس فرکانس سند که به عنوان وزن برای اصطلاحات استفاده می شود، است] ۲۴ :[.
IDFt=
(۲-۲)
نهایتاً نمره TF-IDF سند d برای پرسش q را با ترکیب فرکانس اصطلاح و فرکانس سند معکوس به دست می آوریم ]۲۴ :[.
(۲-۳)
TF-IDFd,q=
قسمتهای مختلف اهمیت متفاوتی دارند، بنابراین مکان وقوع اصطلاح پرسش ممکن است (عنوان، URL، نام فایل، کلمات کلیدی) باشد و یا نوع (اندازه، فونت، حروف برجسته) متفاوت باشد. و منطقی است که به اصطلاحاتی که در عنوان آشکار می شوند نسبت به اصطلاحاتی که در بدنه آشکار می شوند، نمره بالاتری تعلق گیرد، یا می توان وزن بالاتری برای کلمات نوشته شده با اندازه فونت بزرگتر یا کلماتی که در شروع سند آشکار می شوند، به کار برد ]۲۵[.
۲-۳-۲- الگوریتم های مبتنی بر لینک:
رتبه صفحه[۱۶]:
رتبه صفحه به وسیله بِرین و پِیج[۱۷] اختراع شد و شاید بهترین الگوریتم مبتنی بر لینک است ]۲۶[.الگوریتم رتبه بندی، نمره صفحه را مبتنی بر وجود یک لبه (u,v) محاسبه می کند. یک پیاده سازی به منظور رتبه بندی صفحات، استفاده از d-(v) درجه ورودی است، تعداد صفحاتی که به v مرتبط می شوند.
این روش اشکالاتی نیز دارد:
با همه پیوند ها به صورت مساوی رفتار می شود، بنابراین یک شخص می تواند تعداد زیادی از صفحات ساختگی ایجاد کند که به صفحه ی هدف مرتبط می شوند و سبب افزایش درجه ورودی می شوند. به عبارت دیگر درجه ورودی، به آسانی هرزنامه پذیر است.
پیوند از یک صفحه محبوب نظیرcnn.com باید ارزش بیشتری را نسبت به پیوندهای متفاوت از صفحات با کیفیت کم داشته باشد.
صفحات با درجه خروجی بیشتر تاثیر بالاتری روی رتبه صفحات دیگر دارند. بنابراین سهم پیوند از صفحه u باید متناسب با d+(u) /1 باشد.
این مسائل منجر به تعریف بازگشتی برای کیفیت صفحه شده است.
(۲-۴)