ابزار های کاوش وب

مقاله — توسط در خرداد ۴, ۱۳۹۰ در ۱۲:۴۵ ب.ظ
  1. چکیده:

اینترنت به عنوان شاخص ترین نماد عصر اطلاعات با سرعتی حیرت انگیز در طی دهه اخیر رشد کرده است. یکی از امکانات وسیع اینترنت که سریع ترین رشد را نسبت به سایر امکانات اینترنت داشته است، وب است که بی تردید یکی از اصلی ترین عوامل رشد این شبکه به شمار می آید. وب بسیار گسترده و شامل منابع اطلاعاتی زیادی است. با این حال جستجو در وب چالش برانگیز است به همین دلیل ابزارهای کاوش مختلفی  به وجود آمده اند مانند راهنماهای موضوعی، موتورهای جستجو، ابرموتورهای جستجو، و… . در این مقاله سعی شده است به توصیف وب، چالش های مربوط به جستجو و بازیابی اطلاعات در آن، ابزار های کاوش – راهنماهای موضوعی، موتورهای و ابر موتورهای کاوش- بپردازد. بخش عمده مقاله به بررسی ساختار موتورهای جستجو، نحوه عملکرد آنها در جستجو و بازیابی اطلاعات، محدودیت ها و چالش های مربوط به آنها پرداخته است.

 

 

چالش های بازیابی اطلاعات در وب

 

در این که وب عظیم و پر چالش است شکی نیست. بررسی هایی اخیرآانجام شده است که اندازه وب را تخمین زده اند[ Bar- Yossef et al. 2000; Lawrence and Giles 1999; ;1998;Bharat and Broder 1999 [، بیش ترین توافق بر سر وجود بیش از یک بیلیون صفحه در دسترس در وب بوده است. میانگین اندازه یک صفحه وب بین 5-10 کیلو بایت گزارش شده است. تنها داده های متنی بالغ بر حداقل دهها تری بایت بود. مطابق گزارشات لاورنس و جیلز(1999)، اندازه وب در کم تر از دو سال، دو برابر می شود و پیش بینی شده است که این میزان رشد در سال های آینده هم ادامه خواهد داشت. علاوه بر صفحات جدیدی که به وجود می آیند صفحات قبلی هم دائمآ به روز می شوند[Pitkow and Pirolli 1997; Wills and Mikhailov 1999; Douglis et al.1999;Cho and Garcia- Molina 2000a]

مثلآ در مطالعه ای که بر روی بیش از نیم میلیون صفحه در چهار ماه انجام شد[Cho and Garcia- Molina] مشخص شد که حدود 23%صفحات به طور روزانه تغییر کرده اند و در حوزه .Com ها 40% صفحات روزانه تغییر کردند و نیمه عمر صفحات حدود 10 روز بود. (Arvind Arasu and et al.,2001) . علاوه بر این موارد وب شامل مجموعه وسیعی از منابع ناهمگون کنترل نشده(از نظر زبان، نوع یا قالب و…) است و عملآ  بر آن چه که مردم در وب قرار می دهند هیچ کنترلی وجود ندارد.(S.Brin, L. Page, 1998). با این حال وب شامل اطلاعات مهمی است که به آن ها نیاز داریم و ناگزیر از جستجو در وب هستیم. جستجو در وب به گونه ای متناقش نما آسان ولی مایوس کننده است. یافتن اطلاعات در وب نمانند ” جستجوی سوزن در بین توده کاه” است. برای غلبه بر این چالش ها، ابزار های کاوش به وجود آمده اند که پایگاه های اطلاعاتی قابل جستجو (Searchable) یا مرور (Browsable) هستند که مجموعه ای از اطلاعات منظم شده صفحات وب را در بر می گیرند. ما نیز هنگام جستجو در واقع مستقیمآ به یک یک سایت ها و صفحات وب مراجعه نمی کنیم بلکه تنها در بین فهرست ها و نمایه های مختلف این پایگاه های اطلاعاتی به جستجو می پردازیم. ابزارهای کاوش به چند گروه تقسیم می شوند: راهنماهای موضوعی، موتورهای جستجو، ابرموتورهای جستجو، دروازه های اطلاعاتی، و… . در این مقاله به سه مورد اول پرداخته می شود و تاکید اصلی بر موتورهای کاوش، ساختار و نحوه عملکرد آنهاست.

 

 

 

1. راهنماهای موضوعی(Subject Directories)

 

گرچه شبکه وب به اندازه کتابخانه ها سازمان یافته نیست ولی راهنماهای آنلاین مناسبی وجود دارند که تلاش می کنند منابع اطلاعاتی وسیعی که بر روی شبکه در دسترس است را طبقه بندی و نمایه سازی کنند. راهنماهای موضوعی توسط انسان ها ساخته شده اند و صفحات موجود در آنها معمولآارزیابی و تحلیل شده است. آنها به صورت سلسله مراتبی سازماندهی شده اند این روش به کاربر کمک می کند تا با خاص کردن موضوع مورد نظر در درخت سلسله مراتبی، دقیق تر به موضوع مورد نظر دسترسی یابد. در واقع نتایج جستجو از طریق راهنماهای موضوعی در هم ریختگی کم تری دارد، زیرا کاربر بر روی طبقه موضوعی خاصی به جستجو می پردازد. یکی از نقاط ضعف اصلی این ابزارها سازماندهی اختیاری این منابع است. یک راهنمای موضوعی ممکن است منابع را به گونه ای طبقه بندی کند که متفاوت از فهرست راهنمای دیگر باشد پس نمی توان از یک الگوی واحد در همه فهرست های راهنما برای بازیابی استفاده کرد. روزآمد نبودن اطلاعات و فقدان پوشش جامع منابع وب از دیگر ایرادات راهنماهای موضوعی  است زیرا انتخاب، رتبه بندی و طبقه بندی صفحات وقت گیر است و هزینه زیادی را تحمیل می کند.  ثبت اطلاعات سایت ها در راهنماهای موضوعی توسط افراد متخصص انجام می شود آنها اغلب سایت هایی را که مرکز معرفی سایت ها و صفحات جدید وب است را بررسی می کنند و سایت های جدید را به تشخیص خود انتخاب می کنند و پس از بررسی آنها، آدرس سایت، عنوان آن و چکیده ای از محتوای آن را ارائه می دهند. موارد جستجوی استفاده کنندگان از راهنماها هم در بین آدرس، عنوان و چکیده فراهم آورده شده انجام می شود. جستجو در راهنماهای موضوعی به دو صورت انجام می شود: الف- مرور موضوعی (Browsing) ب- جستجوی کلید واژه ای (Searching). مرور موضوعی از طریق طبقه بندی های موضوعی و زیر مجموعه آنها و با حرکت از کل به جز، صفحات وب مرتبط با موضوع انجام می شود. بعد از انتخاب یک طبقه بندی، زیر مجموعه آن نمایش داده می شود و این فعالیت تا یافتن وب سایت های مورد نظر کاربر ادامه می یابد. هر چه راهنماها توسط زیر مجموعه هایشان گسترش یابند، یافتن طبقه بندی های مرتبط با موضوع کاربر سخت تر می شود پس مرور موضوعی زمانبر است به همین دلیل بسیاری از راهنماها قابلیت جستجوی کلید واژه ای را هم دارند.

 

 

 

 

از راهنماهای موضوعی برای یافتن :

– موضوعات کلی و عام

– منابع مرجع( مثل دیکشنری ها، تزاروس هاو…)

– تولیدات و سرویس ها( مثل نرم افزارها، کتابفروشی ها و…) استفاده می شود.

 

 

 

 

 

2. موتورهای جستجو (Search Engines )

 

موتورهای جستجو ابزار اصلی کاوش در وب به حساب می آیند و شامل پایگاه های اطلاعاتی قابل جستجویی هستند که از طریق برنامه های کامپیوتری به شناسایی و نمایه سازی خودکار صفحات وب می پردازند و هیچگونه وابستگی به نیروی انسانی ندارند. هر موتور جستجو از نرم افزار خاصی برای جستجوی نمایه ها، به منظور تطبیق کلید واژه و عبارات و همچنین ارائه یافته ها به جستجوگر در نوعی رتبه بندی بر اساس میزان ارتباط استفاده می کند. هرچند ممکن است برنامه های نرم افزاری مشابه باشند ولی هیچ دو موتوری جستجویی از نظر سرعت، اندازه و محتوا کاملآ همانند نیستند، یا از طرح های رتبه بندی یکسانی استفاده نمی کنند و یا امکانات جستجوی همانندی ارائه نمی کنند بنابراین جستجو در هر یک از موتورهای مورد استفاده جستجوگر، متفاوت خواهد بود. تکنولوِِِژی موتورهای جستجو سعی کرده است مطابق با رشد وب به رشد خود ادامه دهد. در سال 1994 یکی از اولین موتورهای جستجو که (The World Wide Web Worm)WWWW نام داشت] [McBryan 94 نمایه ای شامل 110000 صفحه وب داشت. در نوامبر سال 1997ٰ، موتورهای جستجوی بزرگ ادعا کردند که نمایه آنها از 2 میلیون صفحه وب(WebCrawler) به صد میلیون صفحه وب(Search Engine Watch) رسیده است. به طور همزمان، تعداد سوالاتی که موتورهای جستجو قادر به پاسخگویی به آن بودند هم به طور رشد شگفت انگیزی داشته است. در ماه های مارس و آوریل 1994، موتور جستجوی WWWW به طور میانگین در حدود 1500 سؤال را در روز دریافت می کرد. در نوامبر 1997، موتور جستجوی Altavista ادعا کرد که تقریبآ 20 میلیون سؤال را در روز پاسخگوست. با افزایش کاربران و پیشرفت تکنولوژی موتورهای جستجو، قابل پیش بینی است که در آینده نمایه موتورهای جستجو و تعداد سؤالاتی که هر موتور دریافت می کند، بسیار بیش تر خواهد شد.

 

در اینجا به بررسی ساختار یک موتور جستجو و نحوه عملکرد آن می پردازیم:

 

همانگونه که در شکل دیده می شود هر موتور جستجو بر یک کراولر[1]، برای فراهم آوردن مواد(اطلاعات) برای انجام اعمالش تکیه دارد. کراولر برنامه ای است که به عنوان نماینده موتور جستجو، صفحات وب را بررسی می کند، همانگونه  که یک کاربر(انسان) با دنبال کردن لینک ها به صفحات مختلف می رسد. به کراولرها مجموعه آغازینی از آدرس[2] ها که متعلق به صفحاتی است که از وب بازیابی کرده اند، داده می شود. کراولرها این آدرس ها را از صفحات بازیابی شده از وب، استخراج می کنند و این اطلاعات را به واحد کنترل کراولر[3] می دهند. این واحد تعیین می کند که کدام  یک از لینک ها در آینده باید مورد مرور واقع شوند.  برخی از عملیات واحد کنترل ممکن است توسط خود کراولر ها انجام گیرد. کراولرها همچنین صفحات بازیابی شده را به بخشی به نام مخزن[4] می دهند. کراولرها بازدید از صفحات وب را تازمانی که مخزن پر شود، ادامه می دهند. البته این الگوریتم در بسیاری از موتورهای جستجو که دارای سطوح متفاوتی از سوگیری های موضوعی و پوششی هستند تغییر کرده است مثلآ کراولر یک موتور ممکن است فقط از سایت های مربوط به حوزه های خاص مثلآ سایت های دولتی[5] بازدید کند.  واحد کنترل مسئول کنترل و هدایت اعمال کراولرهاست.

هر بار موتور جستجو حداقل یک چرخه مرور کامل را به پایان رسانده باشد، واحد کنترل کراولر ممکن است توسط چندین نمایه که در طول مرور اخیر پدید آمده اند، آگاه شود. واحد کنترل ممکن است مثلآ از نمودار مربوط به لینک های مرور قبلی برای تصمیم گرفتن در مورد این که کدام لینک ها باید توسط کراولر بررسی شود و کدام یک نه، استفاده کند. واحد کنترل همچنین ممکن است از بازخورد کاربران برای هدایت فرایند خزش استفاده کند(ارتباط بین رابط سؤال موتور جستجو[6] و واحد کنترل در شکل4).

واحد نمایه ساز[7] کلمات] ضروری[ را از هر صفحه استخراج می کند و آدرس محلی  که هر کلمه در آن جا قرار داشته است را ثبت می کند. حاصل کار جدول بسیار بزرگی است که شامل آدرس صفحاتی است که کلمات گردآوری شده در آن جا وجود دارند( نمایه متنی[8] در شکل).  اندازه وسیع  وب و تغییرات سریع آن مشکلاتی را در ایجاد نمایه پدید می آورد. علاوه بر این چالش های کمی، وب لزوم ایجاد برخی نمایه های خاص را برای موتورهای جستجو ایجاب می کند مثلآ واحد نمایه ساز ممکن است یک نمایه ساختار[9] بوجود آورد که نشان دهنده لینک های بین صفحات است. برخی نمایه ها برای مجموعه متون سنتی مناسب نیستند بنابراین واحد آنالیز مجموعه[10] مسئول به وجود آوردن انواع دیگری از نمایه هاست. نمایه چند کاربره[11] (شکل 1)به وسیله واحد آنالیز مجموعه بوجود آمده است. این نمایه ممکن است دسترسی به صفحاتی که دارای بخش معینی هستند، صفحاتی که دارای اهمیت خاصی هستند و یا صفحاتی که شامل تعدادی عکس هستند را فراهم آورد. واحد آنالیز مجموعه ممکن است از نمایه های متنی و ساختاری در به وجود آوردن نمایه های چند کاربره استفاده کند.در طول چرخه مرور و نمایه سازی، موتور جستجو باید صفحاتی که از وب بازیابی شده اند را ذخیره سازد. ذخیره سازی در مخزن[12] انجام می شود. موتورهای جستجو گاهی اوقات از مجموعه صفحاتی که از آنها مرور به عمل آمده حتی بعد از ساختن نمایه هم نگهداری می کنند. این مجموعه به موتورها اجازه می دهد تا به سرعت صفحه نمایش را نشان دهند، بعلاوه امکاناتی را برای جستجوی ساده فراهم می آورد. رابط سؤال موتور جستجو[13] مسئول دریافت و اجرای درخواست کاربران است. این بخش به شدت به نمایه ها متکی است و گاهی اوقات هم به مخزن. به دلیل اندازه وب و این که کاربران فقط یک یا دو کلید واژه را وارد می کنند، تعداد نتایج حاصله معمولآ زیاد است، بنابراین واحد رتبه بندی[14] وظیفه دسته بندی نتایج  به گونه ای که مرتبط ترین نتایج در ابتدای صفحه نمایش بیایند، برعهده دارد.

در ادامه مقاله، اجزای موتور جستجو که در شکل نمایش داده شده است(با جزئیات بیش تر)  به همراه کارکردشان توصیف می کنیم.

 

 

1. Crawling Web Pages

 

کراولر صفحات را از وب بازیابی می کند تا بعدآ توسط واحد نمایه ساز آنالیز شوند، همان طور که قبلآ بحث شد یک کراولر معمولآ با یک مجموعه آغازین از آدرس ها شروع به فعالیت می کند و آنها را ابتدا در یک ردیف جایی که همه آدرس های بازیابی شده به ترتیب اولویت در آنجا قرار داده شده اند، قرار می دهد. کراولر از این ردیف یک آدرس را انتخاب می کند و صفحه مربوط به آن را دانلود می کند و تمامی آدرس های موجود در آن صفحه را استخراج می کند و آدرس های جدید را در ردیف قرار می دهد. این فرایند تا زمانی که کراولر تصمیم به توقف می گیرد ادامه می یابد. اندازه بزرگ وب و تغییرات سریع آن چالش هایی را برای کراولرها ایجاد می کند از جمله:

1. چه صفحاتی باید توسط کراولر دانلود شوند؟

به دلیل حجم وسیع وب و و سرعت تغییرات آن، در اکثر موارد کراولر نمی تواند همه صفحات موجود در وب را دانلود کند حتی اکثر موتورهای جستجوی جامع معمولا بخش کوچکی از وب را نمایه می کنند[Lawrence and Giles 1999; Bharat and Broder 1999] بنابراین برای کراولر مهم است که به دقت صفحات را انتخاب کند و ابتدا از صفحاتی که آدرس آنها در ردیف ذکر شده در اولویت قرار دارد، بازدید کند. پس بخشی از وب که مورد بازدید قرار گرفته و روزآمد شده است دارای اهمیت بیش تری است.

چگونه کراولر صفحات را روزآمد می کند؟

هر بارکه کراولر” صفحات مهم”  را دانلود می کند، مجبور است برای یافتن تغییرات و روزآمدسازی صفحات دانلود شده، آنها رامورد مرور مجدد قرار دهد. به دلیل این که صفحات وب با سرعت متفاوتی تغییر می کنند [Cho and Garcia- Molina 2000; Wills and Mikhailov 1999]کراولر نیاز دارد که با دقت تصمیم بگیرد که کدام صفحات را مورد مرور مجدد قرار دهد و از کدام صفحات صرف نظر کند. این تصمیم ممکن است به طور قابل توجهی بر روزآمد سازی یک مجموعه دانلود شده اثر بگذارد مثلآ اگر یک صفحه مشخص به ندرت تغییر می کند، کراولر ممکن است به دلیل بازدید از صفحاتی که بیش تر تغییر می کنند، آن صفحه را کم تر مورد بازدید مجدد قرار دهد. برای سنجش اهمیت صفحات از روش ها ی مختلف استفاده می شود از جمله:

1. “Interest – driven”

در این روش هدف فراهم آوردن صفحات مورد نظر کاربر یا مجموعه ای از کاربران است پس صفحات مهم، صفحاتی هستند که با خواسته کاربر مرتبط اند و از طریق میزان شباهت بین کلید واژه های متن و سوال مورد نظر کاربر صفحات با اهمیت مشخص می شوند یعنی هر چه کلید واژه های سوال در متنی بیش تر تکرار شده باشد یا آن کلید واژه در عنوان یا یا خطوط ابتدایی متن آمده باشد، آن متن دارای اهمیت بیش تری است و در صفحه نمایش در قسمت بالاتری قرار می گیرد.

2.popularity Driven

در این روش اهمیت صفحه بستگی به میزان محبوبیت آن صفحه دارد. یک راه تشخیص محبوبیت صفحات از طریق تعداد لینک هایی است که به آن صفحه شده است.(back link) یعنی صفحه ای که تعداد بیش تری لینک به آن شده است مهم تر است.

 

 

 

استراتژی های گوناگونی برای روزآمد سازی صفحات وجود دارد که دو مورد ذکر می شود:

 

a. Uniform Refresh Policy

طبق سیاست روزآمد سازی یکپارچه، کراولر تمام صفحات را در یک بسامد و بدون توجه به این که چگونه این صفحات تغییر یافته اند، مورد مرور مجدد قرار می دهد.

b. Proportional Refresh Policy

طبق سیاست روزآمد سازی نسبی، کراولر صفحاتی را که به طور نسبی در زمان های بیش تر تحت تغییرات بیش تری قرار گرفته اند، بیش تر مورد مرور مجدد قرار می دهد.

 

 

 

2. Storage

 

مخزن یک سیستم ذخیره سازی دارای مقیاس است که مجموعه بزرگی از صفحات وب را مدیریت می کند. همان طور که در شکل نشان داده شده است مخزن باید دو عمل اساسی را انجام دهد:

  1. 1. مخزن باید رابطی برای کراولر ایجاد کند تا بتواند صفحات وب را ذخیره کند.
  2. 2. مخزن باید رابطی مؤثر فراهم آورد تا نمایه ساز و واحد آنالیز مجموعه بتوانند از آن برای بازیابی صفحات استفاده کنند.

 

چالش هایی در زمینه ذخیره سازی صفحات وب در مخزن وجود دارد:

– از آنجا که وب به سرعت تغییر می کند، مخزن به تغییرات و اصلاحات زیادی نیاز دارد. هنگامی که نسخه های جدید صفحات وب از کراولر دریافت می شوند، فضای اشغال شده توسط نسخه های قدیمی باید از طریق فشرده سازی فضا و سازماندهی مجدد قابل استرداد باشد.

– در اکثر فایل ها یا سیستم های داده ای، داده ها پس از مدتی که دیگر به آنها نیازی نیست از مجموعه خارج می شوند ولی وقتی یک صفحه وب از از وب سایتی حذف می شود، مخزن نمی تواند از حذفش آگاه شود. بنابراین مخزن نیاز به مکانیسمی برای کشف و خارج کردن صفحات منسوخ شده دارد.

استراتژی های روزآمد سازی مخزن:

از آنجا که مخزن توسط کراولرها روزآمد می شود، استراتژی روزآمد سازی مخزن بستگی به ویژگی های کراولر دارد. حداقل دو راه وجود دارد که کراولرها بر اساس آن ساخت یافته باشند:

a. Batch-mode or steady crawler

یک کراولر با روش دسته ای(Batch- mode) کار مرور را به صورت دوره ای انجام می دهد و اجازه می دهد که مرور برای یک دوره زمانی مشخص مثلآ چند روز در ماه انجام شود و سپس توقف می کند. با چنین خزنده ای، مخزن فقط برای روزهای مشخصی در ماه روزآمد می شود. اما یک خزنده دائمی(steady crawler) بدون توقف فعالیت می کند و به طور دائمی صفحات جدید و روزآمد را برای مخزن فراهم می کند.

b. Partial or complete crawls

خزنده ای با روش روزآمد سازی دسته ای ممکن است یک چرخه مرور کامل در وب را در هر زمانی که بخواهد انجام دهد یا ممکن است مرور مجدد فقط در مورد مجموعه خاصی از صفحات یا سایت ها انجام شود. در مورد اول صفحات مربوط به مرور جدید کاملآ جایگزین مجموعه صفحات قدیمی که هم اکنون در مخزن وجود دارند می شود. در مورد دوم، مجموعه جدید از طریق اضافه شدن مجموعه روزآمد شده حاصل از مرور جزئی به مجموعه موجود فراهم می آید. باید در نظر داشت که کراولر دائمی قادر به تشخیص دادن تفاوت بین مرور کامل و مرور جزئی نیست. با توجه به دو فاکتور ذکر شده در بالا، مخزن می تواند یکی از دو روش روزآمد سازی in-place یا روزآمدسازی shadowing را برای روزآمدسازی صفحات انتخاب کند. در روزآمد سازیin-place صفحات دریافت شده از کراولر مستقیمآ در مجموعه موجود در مخزن ترکیب می شوند و ممکن است جایگزین نسخه های قدیمی تر شوند. در روزآمدسازی shadowing صفحات جدید، مجزا از مجموعه موجود ذخیره می شوند و در مرحله ای جدا از صفحات موجود روزآمد می شوند.

 

3. Indexing

 

همانطور که در شکل4 دیده می شود، نمایه ساز و واحد آنالیز مجموعه تنوعی از نمایه ها را بر اساس صفحات گردآوری شده می سازند. واحد نمایه ساز دو نمایه اصلی می سازد:  نمایه متنی یا محتوایی (text or content index) و نمایه ساختاری یا لینکی (structure or link index). واحد آنالیز مجموعه با استفاده از این دو نمایه و صفحات موجود در مخزن، تنوعی از نمایه های دیگر را می سازد. در اینجا به توصیفی از این نمایه ها می پردازیم:

– نمایه ساختاری(لینکی): برای ساختن یک نمایه ساختاری، بخش مرور شده وب توسط کراولر، به صورت یک نمودار دارای گره و خط مدل  یافته می شود. هر گره در نمودار یک صفحه وب است و هر خط مستقیم از گره A به گره B نشان دهنده یک لینک فرا متنی از صفحه A به صفحه B است. یکی از کاربردهای این نمودار، یافتن صفحات مرتبط با یک صفحه است.

– نمایه متنی: گرچه تکنیک های مبتی بر لینک برای افزایش کیفیت و ارتباط نتایج جستجو استفاده شده است، ولی بازیابی مبتنی بر متن(مثلآ جستجو برای صفحاتی که شامل برخی کلیدواژه ها هستند) همچنان به عنوان روش اولیه برای تشخیص صفحات مرتبط با سؤال استفاده می شود. نمایه ها برای  بازیابی مبتنی بر متن می توانند از روش های سنتی که برای بازیابی مدارک متنی استفاده می شد( که بر اساس تطابق بین کلید واژه های سؤال و کلید واژه های متن است) استفاده کنند.

– نمایه های چند کاربره: تعداد و نوع نمایه هایی که به وسیله واحد آنالیز مجموعه ساخته می شود بستگی به رابط موتور جستجو(query engine) و نوع اطلاعاتی که به وسیله واحد رتبه بندی استفاده شده است، دارد مثلآ رابط موتوری که اجازه می دهد صفحات به یک سایت یا حوزه خاص محدود شوند(www.stanford.edu) باید از یک نمایه سایتی(Site Index) که نام هر حوزه را به لیستی از صفحات متعلق به آن حوزه مرتبط می کند استفاده کند.

ساختار نمایه، اندازه و حجم آن در موتورهای جستجوی مختلف، متفاوت است به همین دلیل جستجو با کلید واژه های یکسان نتایج نسبتآ متفاوتی در موتورهای گوناگون در پی خواهد داشت.

یکی از مشکلات عمده موتورهای جستجو، اتکای زیاد آنها به نمایه سازی اطلاعات متنی است. این موتورها معمولآبرای نمایه سازی منابع متنی و به ویژه منابع ابرمتن(Hyper-text pages) طراحی شده اند. این در حالی است که بسیاری از منابع موجود در شبکه به قالب های دیگر و معمولآ غیر متنی مثل تصویر یا منابع دیداری- شنیداری هستند و برای موتورهای کاوش امکان نمایه سازی بهینه این منابع به راحتی فراهم نیست.

 

4. Ranking and Link Analysis

 

همان طور که در شکل4 نشان داده شده، رابط سوال موتور جستجو درخواست کاربر را گرفته و صفحاتی را که احتمال مرتبط بودن با درخواست کاربر دارند را بازیابی می کند. دو دلیل در مورد این که چرا تکنیک های سنتی بازیابی اطلاعات ممکن است در رتبه بندی نتایج به اندازه کافی مؤثر نباشند وجود دارد:

  1. 1. وب بسیار بزرگ است و از نظر اطلاعات کیفیت، اندازه، و نوع اطلاعات موجود در آن بسیار متنوع.
  2. 2. بسیاری از صفحات وب محتوایشان را به خوبی توصیف نکرده اند به علاوه صفحات وب اغلب به وسیله اضافه شدن کلمات گمراه کننده به منظور قرار گرفتن صفحات در رتبه بالاتر، دستکاری می شوند(Spamming) بنابراین این صفحات در رتبه بندی موتورها در رتبه های بالا قرار می گیرند.

ساختار مرتبط(لینک دار) وب شامل اطلاعات ضمنی مهمی است و می تواند در رتبه بندی صفحات وب مورد استفاده قرار گیرد. دو مورد از تکنیک های مبتنی بر لینک که برای رتبه بندی صفحات وب استفاده می شود Page Rank و HITS است.

الف. Page Rank : به عنوان معیاری که اهمیت صفحات وب را نشان می دهد، مورد استفاده قرار می گیرد مثلآ صفحه خانگی یاهو Yahoo Home Page)) مهم تر از صفحه خانگی”Stanford Data Group” است. این تفاوت را از روی تعداد صفحاتی که به این صفحه لینک کرده اند، می توان فهمید یعنی صفحات بیش تری به یاهو لینک کرده اند. بنابراین رتبه یک صفحه می تواند توسط تعداد صفحات وبی که به آن صفحه لینک کرده اند، تعریف شود و می تواند در رتبه بندی نتایج برای سؤالات مورد جستجو، استفاده شود. همچنین رتبه صفحه ای که صفحات مهم تر مثل یاهو به آن لینک کرده اند، بالاتر از صفحه ای است که نوسط صفحات کم اهمیت تر مورد ارجاع قرار گرفته است.

ب. HITS Algorithm

HITS[15] اولین بار توسط کلاینبرگ(Kleinberg) پیشنهاد شد و برعکس “Page Rank technique”، که به هر صفحه یک رتبه جهانی می دهد، HITS Algorithm یک تکنیک رتبه بندی وابسته به سؤال است که علاوه بر رتبه بندی صفحات، صفحاتی که بیش ترین ارتباط را با سؤال مورد نظر دارند(Authority Pages) و هم چنین صفحاتی که خودشان لزومآ به اندازه کافی با سؤال مورد نظر ارتباط ندارند ولی به چندین Authority Pages ارجاع کرده اند را مشخص می کند. این دو نوع صفحه با هم ارتباط مستقیم دوطرفه دارند.

3- ابرموتورهای کاوش(Meta Search Engines)

 

باید در نظر داشت که یک جستجو ممکن است برای یافتن موضوعی که کاربر در پی آن است کافی نباشد. هر ابزار جستجو، شبکه وب را در روشی تا اندازه ای متفاوت نسبت به سایر ابزارها جستجو می کند و ممکن است نتایج تا اندازه ای متفاوت نسبت به بقیه ابزار ها بدست آورد. ایده خوبی است که جستجو  با حداقل دو یا سه موتور جستجوی متفاوت تکرار شود. ابرموتورها خود به نمایه سازی منابع اینترنتی نمی پردازند و در واقع از خود نمایه ای ندارند. برای جستجو می توان واِژه مورد نظر را در  یک رابط وارد کرد و در چند موتور کاوش و راهنمای موضوعی به طور هم زمان به جستجو پرداخت( لیو، 1378). مثلآ ابرموتور Vivisimo جستجو را در پایگاه های اطلاعاتی Ị,Yahoo Msn و Lycos انجام می دهد. وقتی کاربر با نحوه جستجو آشناتر است و می خواهد نتایج جامعی در مورد یک موضوع بدست آورد بهنر است از ابر موتورها استفاده شود.

نقطه قوت اصلی ابرموتورهاٰ، جستجوی همزمان چندین موتور جستجو و اعمال گزینه های مختلف جستجو که برای رتبه بندی نتایج موجود است می باشد. بعلاوه اکثر ابرموتورها می توانند اقلام تکراری را که موتورهای جستجو بازیابی می کننند، حذف نمایند(گارمن، 1991).

یکی از مشکلات ابرموتورها این است که گرچه دارای صفحه جستجوی پیشرفته هستند، ولی ممکن است با گزینه های جستجوی پیشرفته در موتورهای کاوش هماهنگی نداشته باشند و برای کاربران پیشرفته و حرفه ای مشکل ایجاد کنند. هم چنین ابرموتورها معمولآ کاوش جامعی از موتورهای جستجوی اعلام شده به عمل نمی آورند و معمولآ از ده تا صد رکورد اول بازیابی شده در هر یک از موتورهای کاوش را انتخاب و نمایش می دهند.

 

ابرموتورها را می توان به دو دسته تقسیم کرد:

 

1. Clustering Meta Search Engine

ابرموتورهایی که پایگاه های مناسب را جستجو می کنند، جستجوهای پیشرفته را انجام می دهند ونتایج را بر اساس موضوع طبقه بندی می کنند:

MetaCrawler – Dogpile –

 

2 . Deep Digging Meta Search Engine

ابرموتورهایی که جستجوی عمیق در بسیاری از منابع را برای کمک به کاربر در یافتن موضوع مورد نظر انجام می دهند:

 

– Surfwax

Copernic Agent-

نتیجه گیری

وب شبکه گسترده و عظیمی از اطلاعات است بسیاری از اطلاعاتی که ما به آن نیاز داریم از طریق جستجو در وب حاصل می شود. همان ئطور که گفته شد جستجوی اطلاعات در وب شبیه یافتن سوزن در توده کاه است. ابزار های کاوش وب مورد بررسی قرار گرفتند و به موتورهای جستجو به عنوان ابزار اصلی  جستجو در وب به تفصیل پرداخته شد. همان طور که دیدید ساختار یک موتور جستجو را به تصویر کشیدیم و گذاری بر نحوه عملکرد بخش های مختلف یک موتور جستجو انداختیم. در مورد خزش کراولرها در وب، نحوه روزآمد سازی صفحات، چگونگی ذخیره سازی صفحات در مخزن، نمایه سازی و استراتژی های موجود برای آن سخن گفتیم و از الگوریتم های Page Rank و HITS به عنوان دو روش مهم در رتبه بندی صفحات بازیابی شده یاد کردیم هم چنین چالش های مربوط به هر بخش را هم بیان کردیم و در پایان  از رواج یافتن مفاهیم جدیدی چون وب 2 و وب 3(وب معنایی) و تاثیرات محتمل آنها سخن گفتیم. با این حال هنوز سؤالات زیادی در زمینه جستجو و بازیابی در وب باقی است: چگونه موتورهای جستجو می توانند خود را با رشد سریع وب هماهنگ کنند؟ چگونه می توان سوگیری های موجود در موتورهای جستجو را کاهش داد؟  ورود  رسانه های جدید همچون عکس، ویدئو و … به محیط وب و افزایش آنها چه چالش های جدیدی را بر ذخیره و بازیابی اطلاعات در محیط وب تحمیل خواهد کرد؟ و…

می توان نتیجه گرفت که موتورهای جستجو به عنوان ابزارهای جستجو، بسیاری از مشکلات کاربران را در دسترسی به اطلاعات موجود در وب کاهش داده اند ولی به توجه به مشکلاتی که برشمردیم نمی توان انتظار داشت که آنها بتوانند تمام نیازها را پاسخگو باشند. بدون تردید انجام پژوهش های بیش تر و نیز پیشرفت های نرم افزاری در حوزه بازیابی اطلاعات و بویژه در زمینه موتورهای کاوش ادامه خواهد داشت امید می رود بت این پیشرفت ها در آینده شاهد تولید و تحول در انواع ابزار های کاوش باشیم. در این صورت دسترسی به نتایج دقیق تر و مرتبط تر با درخواست کاربران در بازیابی اطلاعات دور از ذهن نخواهد بود.

 

فهرست منابع

بابائی، محمود.”وب چیست و چگونه کار می کند؟”، نما، شماره اول، دوره اول، زمستان 1379 .

پریرخ،مهری، اسفندیاری مقدم، لیرضا. “موتورهای جستجو”.(منتشرنشده)

جمالی مهموئی، حمید رضا .” وب معنایی: راهکاری رو به توسعه برای بازیابی اطلاعات وب”، اطلاع شناسی، جلد ۱، شماره ۲، (زمستان ۱۳۸۲)، ص ۴۷-۶۵.

حاجی زین العابدینی، محسن.” فهرستنویسی منابع اینترنتی”. مجموعه مقالات همایش های انجمن کتابداریو اطلاع رسانی ایران1379-1382 ، به کوشش محسن حاجی زین العابدینی. تهران: انجمن کتابداری و اطلاع رسانی ایران: سازمان اسناد و کتابخانه های جمهوری اسلامی ایران،1384.

داودیان، فرشته. “ابزار های جستجو در اینترنت”. پیام کتابخانه، سال یازدهم، شماره چهارم

صابری، محمد کریم، صدیقی، حسین. ” مروری بر وب 1با نگاهی به وب 2″، نما، دوره هفتم، شماره سوم 9 دی 1386.

علیجانی، رحیم. بازیابی پیوسته: نظامها و روشها: تهران، چاپار، 1385 .

منصوریان، یزدان. ” نگاهی به جنبه های مختلف وب نامرئی”. مجموعه مقالات همایش های انجمن کتابداریو اطلاع رسانی ایران1379-1382 ، به کوشش محسن حاجی زین العابدینی. تهران: انجمن کتابداری و اطلاع رسانی ایران: سازمان اسناد و کتابخانه های جمهوری اسلامی ایران،1384.

 

Arasu, A. et. Al . “Searching the Web”, ACM Transmission. On Internet Technology, Vol. 1, No. 1, Aug. 2001, pp. 2-43.

Brin S., P., Lawrence. “The Anatomy of a Large- Scale Hypertextual Web Search Engine”. Computer Networks and ISDN Systems, Vol.30, No. 1-7, pp. 107-117, 1998.

Bowem, Janathan; Filippin Fantoni.”Search engine and on-line Museum on the web “.  Retrieval from:

http://www.archimuseum.com/mw2005/papers/

Fortney, Linda. “Web Directories: selected list”. Retrieval from:www.montgomerycollege.edu/library/webdirectories.com

“History of the World Wide Web”. Retrieval from: http:// en.wikipedia .org

Katz, Randy H. “Needle in the Haystack: The technology of Internet Search”.

Luevane, Marsha, Chervenak, Joe.” Web searching 101:Search tools, strategies, and tips”

Kleinberg, J., Lawrence, S.”The Structure of the web”. Science, Vol.  294,No. 30, 2001.Retrieval from:

www.science.org

Spasser, Mark A. “Searching the web: toward maximizing relevance”. Vol.1(1),  2003.pp.69-70.

“Architecture of a Meta Search Engine that Supports User Information Needs”.  Retrieval from:

http://www.eecs.umich.edu

www.Srco.ir/ science- technology

www.tebyan.net/


[1] .Crawler Module

[2] URL

[3]. Crawler Control Module

[4]. Page Repository

[5] . Governmental pages

[6]. Query Engine.

[7]. Indexer Module

[8].Text Index

[9]. Structure Index

[10]. Collection Analysis Module

[11]. Utility Index

[12]. Page Repository

[13]. QUERY Engine Module

[14].Ranking Module

[15]. Hypertext Induced Topic Search


برچسبها: , , , , , ,

پاسخ بدهيد

دنبالكها

ارسال دنبالك