کار عنکبوت: شکارچی آهـویی را شکار می کند و سپس آن را با خود به منزل می برد.
کار ایندکسر: شکار را تکه تکه کرده، گوشت، استخوان، دل و قلـوه، کله پاچه و … آن را بسته بـندی می کــند و بخــش های زاید شکار را دور می ریزد.
کار پایگاه داده: بسته های حاصل را درون فریزر قرار داده و آن ها را ذخیره می کند.
کار ماژول رتبه بندی: مهمانان سراغ او می آیند و همسر او بسته به ذائقـه مهمانان برای آن هـا غذا طبـخ می کند. ممکـن اسـت عـده ای کله پاچه، عده ای آبگوشت، عده ای جگر و … دوست داشته باشند. پخت غذا طبـق سلیقـه مهمانان کار سخـتی است. ممکن است همه آنها آبگوشت بخواهند اما آنها مسلمـاً
خوشمـزه ترین آبگوشت را می خواهند!
۲-۸ مراحل کار موتورهای جستجو
۲-۸-۱ پیش پردازش دادها
یکی از راههـایی که موتورهـای جستجـو برای کاهـش زمـان جستجـو به کار می بـرند، پیش پردازش محتـوای وب سایت هاست. به این ترتیب وقتـی کاربر درخواسـت یک پرس و جـو را صادر می کند به جـای این که این پرس و جو به میلیون ها وب سایـت فرستاده شود، با داده از پیش پردازش شـده در یک سایت مقایسـه می شـود و مطابقت صـورت می پذیـرد. پیـش پردازش به کـمک برنامـه نرم افزاری به نام خزنده انجام می گیرد[۵۰].
خزنده فهرست صفحات وب را جمع آوری می کند. سپس صفحات بازیافتی پیمایش شده و کلمات کلیدی استخراج و این کلمات به همراه لینک مـربوطه، در فـایل شاخص ذخـیره می شوند. پرس و جوهای کاربران با همین فایل شاخص مقایسه و مطابقت داده می شود و نه با دیگر وب سایت ها[۴۹].
شکل ۲-۸ نحوه استخراج و شاخص دهی[۵۵]
۲-۸-۲ الویت بندی نتایج
لینیک هایی که به عنوان نتایج جستجو تولید می شوند معمولاً خیلی زیاد هستند، اما همه این نتایج مفید نیستند و حتی ممکن است عواملی مثل ابهام زبان باعث شود نتایج مناسبی به کاربر داده نشود. برای فراهم کردن دسترسی سریع و در عین حال صفحات مناسب و این که صفحات با موضوعیت بیشتر در الویت بالاتری قرار بگیرند، الگوریتم های جستجو استراتژی های رتبه بندی مختلفی را به کار می برند[۵۹] .
یکی از این روش های بسیار معمول «فراوانی کلمه-عکسِ فراوانی سند» [۶۲] است. در این روش چگونگی توزیع کلمات و تکرار آنها بررسی می شود و برای کلمات، وزن عددی تولید می شود. ایـن وزن بـه معنـی درجـه اهمیـت و اعتبـار آنهـا در اسـناد مخـتـلف اسـت. بـه این کار وزن دهـی واژه[۶۳] گفـته می شود. وزن یک واژه به دو عامل بستگی دارد: یکی دفعات تکرار واژه که هر چه بیشتر باشد اهمیت واژه بیشتر است و دیگری تواتر اسناد که به معنی تعداد اسنادی است که شامل آن واژه است و هر چه این مقدار بیشتر باشد، اهمیـت واژه در تمـایز اسناد کمتر خواهد بود. به این ترتیـب کلماتی که تکـرار بیشتـری دارند مثـل with, or ,to و… نسبت به کلماتی که از نظر معنایی مناسب ترند و از طرف دیگر در متنهای کمتری ظاهر می شوند، وزن کمتری خواهند داشت؛ البته عوامل دیگری می توانند براهمیت یک واژه موثر باشند. محل وقوع واژه، نمادهای خاص مثل فونت و برچسب[۶۴] مربوط به واژه از آن جمله اند. معمولاً کلمه ای که در عنوان یک سند باشد مهمتر از واژه های خود متن است. همچنین واژه های نوشته شده با قلم خاص مهمتر از کلماتی است که بدون این ویژگی ها باشند[۵۷].
علاوه بر وزن دهی واژه ها، صفحات وب با استراتژی های دیگری هم وزن می شود؛ مثلاً در روش تحلیل لینک[۶۵] ماهیت هر صفحـه با توجـه به ارتباط آن با دیگـر صفحـات در نظر گرفته می شود. به این ترتیب وزن دهی یک صفحه با توجه به تعداد صفحاتی که به آن صفحه اشاره می کنند یا بالعکس، تعداد صفحـاتی که آن صفحه به آنها اشاره می کنـد، صـورت می پذیرد. گوگل از این روش برای بالا بردن نتایج جستجو استفاده می کند[۳۲].
۲-۹ برچسب ها
۲-۹-۱ برچسب های توصیفی متن[۶۶]
کدهای html که درون منبـع صفحات مخفـی هستنـد و بازدیدکنندگان سنـد آن ها را نمی بیننـد در مـوتور های جستجو و رتبه بندی تاثیر زیادی دارند.
برای تعریف بر چسب های توصیفی متن باید کدهای زیر را بکار برد:
-
- مشخص کردن کلمات کلیدی
-
- توصیف کوتاه از محتوای صفحه
-
- مشخص کردن تاریخ آخرین ویرایش
-
- تازه سازی مجدد صفحه بر حسب ثانیه
content=”keyword , keyword , …” /> <meta name=”keywords”
content=”my description” /> <meta name=”description”
content=”۱/۱/۲۰۰۷” /> <meta name=”revised”
content=”۱۰” url=”my url” /> <meta name=”keywords”
۲-۹-۲- بر چسب alt tag
بخشی از تصاویر مربوط به محتوای صفحه هستند و بخشی دیگر لوگو، آیکون، نام تجاری و … هستند، این برچسب توصیف یکایک تصاویر است. از آنجایی که مطالب داخل عکس نمی تواند توسط جستجوگر بازیافت شود از این برچسب برای این کار استفاده می کنیم.
۲-۱۰ فایل robots.txt
یک فایل متنی است که بر روی سرویس دهـنده وب و درون دایرکتـوری اصـلی هر وب سایت ذخیـره می شود و تنظیمات و شرایط گردش و سرکشی به اعماق آن وب سایت را عرضه می کند. این فایل زحمت خزنده را کاهش خواهد داد. این فایل با خطوط زیر آغاز می شود[۴۰]:
user-agant : “نام برنامه راهنمای وبسایت“
disallow : “نام فایل ها یا دایرکتوری که توسط خزنده نباید دیده شود“
اگر کسی نخواهد هیچ نقطه از وب سایتش درون فهرست جستجو قرار گیرد:
user-agant *:
disallow :/
۲-۱۱ موقعیت و مسافت
اصطلاح حافظه نهان درباره موتورهای جستجو هم کاربرد دارد به این ترتیب که پرس و جوهایی که به تازگی از سوی کاربران وارد شده، در جایی نگهداری می شود. در واقـع وقتی موتور جستجـو املای صحیـح کلمه را به شمـا اعـلام می کنـد که آیا منظور شما این بود؟[۶۷] از این تکنیک بهره می برد.
استفاده از مدل تحویل توزیع شده[۶۸] راه دیگری برای سرعت دادن پاسخ گویی به درخواست های کاربران
است. در این مدل کپی هایی از شاخص ها و مطالب مربوط تولید می شود و به مکان های جغرافیایی متعددی انتقال می یابد[۵۷] .
۲-۱۲ مشکلات خزنده
همان طور که ذکر شد خزنده ها برای پیش پردازش و بازیابی صفحات به کار می روند. بعضی خزنده ها به روش کورکورانه به بازیابی صفحات می پردازند. روش کورکورانه به این معنی است که به شهرت و اهمیت یا به عبارتی قابل اعتماد بودن مطالب و تولیدکنندگان آنها توجهی ندارند. البته این روش موجب شده سوء استفاده هایی در شاخص دهی و استفاده از موتورهای جستجو صورت گیرد. یکی از این کارها به شاخص هرزه نگار[۶۹] معروف است. بعضی سایت ها برای اینکه در بیشتر مواقع در نتایج جستجو قرار بگیرند و تعداد مراجعان بیشتری داشته باشند، هزاران بار لغات خاصی را در محتوای سایت خود قرار می دهند تا از نظر موتورهای جستجو اولویت و امتیاز بیشتری را به خود اختصاص دهند[۵۵].
وب سرورها برای اینکه تعداد درخواستهای بیشتری را در یک زمان پاسخ دهند، مثلا چند کاربر همزمان بخواهند به یک صفحه دسترسی پیدا کنند، از حیله ای استفاده می کنند بدین صورت که مطالب هر صفحه را روی چند رایانه با نشانی های مختلف که از دید کاربر مخفی است قرار می دهند و درخواست کاربران را به این رایانه ها هدایت می کنند.[۷۰] بعضی سایت ها از این ویژگی نرم افزار استفاده و محتـوای صفحـات یـک سـایت را کپی می کنند و در سایت خود قرار می دهند. این صفحات هم به وسیله موتورهای جستجو، شاخص دهی می شود و درخواست بعضی کاربران به جای صفحه اصلی به این صفحات تقلبی ارجاع داده می شوند. به این ترتیب یک موتور جستجوی خوب علاوه بر جستجو و سرویس دهی خوب به کاربر باید توانایی تشخیص حمله های اینترنتی را هم داشته باشد تا بتواند بهترین و صحیح ترین نتایج ممکن را در اختیار کاربران قرار دهد[۵۵].
۲-۱۳ روش های بهینه سازی موتورهای جستجو
۲-۱۳-۱ شاخص گذاری