خزندههای وب، برنامههای خودکاری موسوم به ربات یا بات هستند که سراسر وب میخزند تا بتوانند به موتورهای جستوجو اضافه شوند.
موتورهای جست و جو و خزندهها
هنگامی که با استفاده از کلمه کلیدی در موتور جستوجویی مانند گوگل یا بینگ جستوجو میکنید، این وبسایت تریلیونها صفحه را بررسی میکند تا فهرستی از نتایج مربوط به آن عبارت ایجاد کند. در اینجا، سؤالهایی در ذهن کاربران کنجکاو شکل میگیرد؛ این موتورهای جستوجو دقیقا چگونه به همه این صفحات دسترسی دارند؟ چگونه شیوه جستوجوی آنها را میدانند و این نتایج را در چند ثانیه تولید میکنند و به کاربر نشان میدهند؟
پاسخ این پرسش خزندههای وب است که بهعنوان عنکبوت نیز شناخته میشوند. آنها برنامههای خودکاری موسوم به ربات یا بات هستند که سراسر وب میخزند تا بتوانند به موتورهای جستوجو اضافه شوند. این رباتها وبسایتهای مختلف را پیدا میکنند تا فهرستی از صفحاتی که نهایتا در نتایج جستوجویتان ظاهر میشوند، تولید کنند.
همچنین، خزندهها کپیهایی از این صفحات را در پایگاه داده موتور ایجاد و ذخیره میکنند که به شما امکان میدهد بهسرعت موارد مختلف را جستوجو کنید. بههمین علت، موتورهای جستوجو اغلب نسخههای کششده سایتها را در پایگاه دادههایشان قرار میدهند.
نقشههای وب سایت و انتخاب
خزندهها چگونه وبسایتهایی را برای خزیدن انتخاب میکنند؟ باید بگوییم رایجترین سناریو این است که صاحبان وبسایتها میخواهند موتورهای جستوجو در سایتهایشان بخزند. آنها میتوانند با درخواست از گوگل، بینگ، یاهو یا موتور جستوجوی دیگر برای فهرست کردن صفحاتشان به این هدف دست یابند. این فرایند از موتوری به موتور دیگر متفاوت است. همچنین، موتورهای جستوجو اغلب با ردیابی تعداد دفعاتی که یک URL در سایر وبسایتهای عمومی پیوند داده میشود، وبسایتهای محبوب و مناسب را برای خزیدن انتخاب میکنند.
صاحبان وبسایتها میتوانند از فرایندهای خاصی برای کمک به موتورهای جستوجو بهمنظور فهرستبندی وبسایتهای خود استفاده کنند؛ مانند بارگذاری نقشه وبسایت. این فایل حاوی همه لینکها و صفحاتی است که بخشی از وبسایت شما هستند. همچنین، از فایل یادشده معمولا برای نشان دادن اینکه چه صفحاتی قرار است ایندکس شوند، استفاده میشود.
هنگامی که موتورهای جستوجو قبلا در وبسایتی خزیده باشند، بهطور خودکار دوباره آن وبسایت را برای چنین کاری انتخاب میکنند. تعداد دفعات انجام آن براساس میزان محبوبیت وبسایت و سایر معیارها متفاوت خواهد بود؛ بنابراین، صاحبان وبسایت اغلب نقشههای سایت خود را بهروز میکنند.
پنهان کردن صفحات از دید خزندهها
اگر وبسایتی نمیخواهد برخی یا همه صفحات آن در موتور جستوجو ظاهر شوند، چه باید کرد؟ بهعنوان مثال، ممکن است نخواهید افراد بتوانند صفحهای که فقط برای اعضاست، جستوجو کنند یا صفحه خطای ۴۰۴ سایت شما را ببینند. اینجاست که فهرست محرومیت خزنده موسوم به robots.txt وارد عمل خواهد شد. این گزینه فایل متنی سادهای است که به خزندهها میگوید کدام صفحات وب را از فهرستبندی حذف کنند.
جادوی فراداده
در زیر URL و عنوان هر نتیجهی جستوجو در گوگل، توضیح کوتاهی از صفحه پیدا خواهید کرد. به این توضیحات «اسنیپت» میگویند. ممکن است متوجه شده باشید اسنیپت صفحهها در گوگل همیشه با محتوای واقعی وبسایتها مطابقت ندارد. این امر بدین علت است که بسیاری از وبسایتها چیزی به نام «متا تگ» دارند. متا تگ توضیحات سفارشی است که صاحبان وبسایت به صفحاتشان اضافه میکنند.
صاحبان سایتها اغلب توضیحات فراداده فریبندهای ارائه میدهند که شما را به کلیک روی وبسایت وادار میکند. همچنین، گوگل سایر فرادادهها مانند قیمتها و موجودی سهام را فهرست میکند. این امر بهویژه برای کسانی مفید است که وبسایتهایی در حوزه تجارت الکترونیک دارند.
جستوجوی شما
جستوجوی وب بخش ضروری استفاده از اینترنت است. جستوجو در وب راهی عالی برای کشف وبسایتها، فروشگاهها، جوامع و علایق جدید است. هر روز خزندههای وب از میلیونها صفحه بازدید و آنها را به موتورهای جستوجو اضافه میکنند. در پایان، باید بگوییم که خزندهها معایبی نیز دارند؛ اما آنها برای صاحبان وبسایت و بازدیدکنندگان بسیار ارزشمند هستند.