دیپ وب (Deep Web) یا وب عمیق چیست؟
وب عمیق یا دیپ وب (Deep Web) بخشهایی از شبکه وب جهان گستر (World Wide Web) هستند که محتوایشان توسط موتورهای جستجوی معمولی فهرست بندی نمیشود.
به گزارش گروه وب گردی
خبرگزاری صدا و سیما، عبارت مخالف وب عمیق، وب سطحی است که امکان دسترسی به آن برای هر کسی که از اینترنت استفاده میکند، وجود دارد. مایکل برگمن که یک دانشمند علوم کامپیوتر است اولین بار این عبارت را در سال ۲۰۰۱ به عنوان یک عبارت مربوط به فهرست بندی موتورهای جستجو ابداع کرد.
محتوای وب عمیق پشت فرمهای HTTP پنهان میشود و کاربردهای معمول مانند سرویسهای ایمیل، بانکداری اینترنتی و سرویسهایی که کاربران باید برای استفاده از آنها مبلغی را پرداخت کنند را در بر میگیرد. این سرویسها توسط دیوارهای پرداخت محافظت میشوند. نمونهای از این سرویس ها، سایتهای تماشای ویدیوی دلخواه یا برخی مجلهها یا روزنامههای اینترنتی است.
محتوای وب عمیق را میتوان با استفاده از URL مستقیم یا آدرس IP، پیدا کرد. ممکن است برای دسترسی کامل به این نوع محتواها، بعد از عبور از صفحه عمومی وب سایت به رمزعبور یا انواع دیگری از اجازه دسترسی نیاز باشد.
واژه شناسی دیپ وب (Deep Web)
وب عمیق یا دیپ وب (Deep Web) و به عباراتی دیگر وب نامرئی یا وب پنهان بخشهایی از شبکه وب جهان گستر (World Wide Web) هستند که محتوایشان توسط موتورهای جستجوی معمولی فهرست بندی نمیشود.
اولین تلفیق دو عبارت وب عمیق یا همان دیپ وب و وب تاریک (دارک وب) در سال ۲۰۰۹ و در زمانی که واژه شناسی اصطلاحات مورد استفاده در جستجویهای وب عمیق در کنار فعالیتهای غیرقانونی در وب آزاد و وب تاریک مورد بحث قرار میگرفتند، اتفاق افتاد.
از آن زمان به بعد و پس معرفی بازار اینترنتی راه ابریشم در رسانه ها، بسیاری از مردم و رسانهها به استفاده از عبارت وب عمیق به صورت معادل عبارتهای وب تاریک یا دارک نت روی آوردند. البته برخی از افراد این استفاده معادل از کلمات را غیردقیق میدانند و همین موضوع به منبع اصلی سردرگمی تبدیل شده است. کیم زتر و اندی گرینبرگ، خبرنگاران مجلهی Wired توصیه کرده اند هر کدام از این عبارتها به صورت مجزا نسبت به یکدیگر به کار بروند. در حالی که منظور از وب عمیق، هر سایتی است که امکان دسترسی به آن از طریق موتورهای جستجوی معمولی وجود ندارد، وب تاریک، بخشی از وب عمیق است که به صورت تعمدی مخفی شده و از طریق مرورگرها و روشهای معمولی قابل دسترسی نیست.
محتوای فهرست بندی نشده
برگمن در مقالهای در زمینه وب عمیق که در ژورنال علمی Journal of Electronic Publishing منتشر شد به این نکته اشاره کرد که در سال ۱۹۹۴، جیل السورت، از عبارت وب نامرئی برای اشاره به وب سایتهایی استفاده کرد که در هیچ موتور جستجویی ثبت نشده بودند. برگمن در این مقاله به مقاله دیگری که در ژانویه ۱۹۹۶ توسط فرانک گارسیا نوشته شده بود نیز استناد کرد:
“منظور سایتی است که احتمالا به خوبی طراحی شده، اما طراحان، خود را برای ثبت کردن آن در موتورهای جستجو به دردسر نینداختند. پس هیچکس نمیتواند آنها را پیدا کند! کاملا مخفی هستید! من به این حالت وب نامرئی میگویم”
یکی دیگر از از اولین موارد استفاده از عبارت وب نامرئی توسط بروس مونت و متیو کول از شرکت Personal Library Software بود. در سال ۱۹۹۶، آنها از این عبارت در بیانیهای مطبوعاتی در توصیف اولین ابزار وب عمیق استفاده کردند.
اولین استفاده از عبارت خاص وب عمیق، که امروزه مورد پذیرش عموم قرار گرفته است در همان تحقیق سال ۲۰۰۱ برگمن اتفاق افتاد.
روشهای فهرست بندی
روشهایی که مانع از فهرست شدن صفحات وب توسط موتورهای جستجوی معمولی میشوند به یک یا چند دسته از دستههای زیر تعلق دارند:
وب زمینه ای: صفحاتی با محتوای مختلف برای سطوح دسترسی مختلف (یعنی بازههای مختلفی از آدرس IP یا مجموعهای از سیاتهای بازدید شده قبلی)
محتوای پویا: صفحات پویا که معمولا در پاسخ به یک درخواست ثبت شده یا از طریق یک فرم، به خصوص اگر از المانهای ورودی دامنه باز (مثل جاهای خالی متن) استفاده شود، قابل دسترسی هستند. رد کردن چنین جاهای خالی بدون داشتن دانش کافی در آن زمینه، کاری دشوار است.
محتوای دسترسی محدود: سایتهایی که به روشهای فنی (استاندارد مستثنی کردن ربات ها، کپچاها یا دستور عدم ذخیره، که مانع از جستجوی موتورهای جستجو در صفحات سایت شده و از ایجاد کپیهای کش شده جلوگیری میکند)، دسترسی به صفحاتشان را محدود میکنند.
محتوای غیر HTML یا غیر متنی: محتوای متنی که در فایلهای چندرسانهای (عکس یا ویدیو) یا فایلهای با فرمت خاص که موتورهای جستجو با آنها کاری ندارند، رمزنگاری شده است.
وب خصوصی: سایتهایی که به ثبت نام و وارد شدن نیاز دارند (منابع رمز دار)
محتوای اسکریپتی: صفحاتی که تنها از طریق لینکهای ایجاد شده توسط جاوا اسکریپت قابل دسترسی هستند و همچنین محتواهایی که از طریق Flash یا Ajax به صورت پویا از وب سرورها دانلود شده اند
نرم افزار: برخی از محتواها به صورت عمدی از اینترنت معمولی مخفی شده اند و تنها از طریق نرم افزارهای خاص مانند Tor، I۲P و سایر نرم افزارهای دارک نت قابل دسترسی هستند. برای مثال، Tor به کاربران اجازه میدهد از طریق سرورهای.onion به صورت ناشناس و با مخفی کردن IP آن ها، به وب سایتها دسترسی داشته باشند.
محتوای لینک نشده: صفحاتی که هیچ لینکی از آنها در صفحات دیگر وجود ندارد، ممکن است مانع دسترسی خزندههای
وب به محتوا شوند. به این گونه محتوا، صفحات بدون بک لینک (که با نام لینکهای داخلی هم شناخته میشوند) گفته میشود. همچنین، موتورهای جستجو همیشه همهی بک لینکهای موجود در صفحات جستجو شده را تشخیص نمیدهند.
آرشیوهای وب: خدمات آرشیو وب مانند Wayback Machine به کاربران اجازه میدهند تا نسخههای آرشیو شده صفحات وب در گذر زمان را مشاهده کنند. این نسخههای آرشیو شده شامل وب سایتهایی است که اکنون غیر قابل دسترس هستند یا توسط موتورهای جستجو مانند گوگل فهرست بندی نمیشوند.
محتوا در دیپ وب
اگرچه همواره این امکان وجود ندارد که بتوان به صورت مستقیم محتوای یک وب سرور را مشاهده کرد تا بتوان آن را فهرست بندی کرد، اما احتمالا میتوان به صورت غیر مستقیم به آن دسترسی پیدا کرد (به دلیل آسیب پذیریهای کامپیوتری).
موتورهای جستجو برای پیدا کردن محتوا در وب، از خزندههای وب استفاده میکنند که لینکهای موجود را از طریق پورتهای مجازی مشخص دنبال میکنند. این روش برای پیدا کردن محتوا در در وب سطحی ایده آل است، اما معمولا برای وب عمیق جواب نمیدهد. برای مثال، این خزندهها برای یافتن صفحات پویا که نتیجه درخواستهای مختلف از بانک اطلاعاتی هستند، تلاش نمیکنند، زیرا تعداد دقیق درخواستهای ممکن، مشخص نیست. البته به این نکته اشاره شده که میتوان با در نظر گرفتن لینک برای نتایج درخواست ها، این مشکل را تا حدودی حل کرد، اما این کار میتواند به صورت غیرتعمدی، محبوبیت یکی از اعضای وب عمیق را افزایش دهد.
DeepPeep، Intute، Deep Web Technologies، Scirus و Ahmia.fr چند موتور جستجویی هستند که به وب عمیق دسترسی پیدا کرده اند. بودجه Intute به اتمام رسید و در حال حاضر تنها یک ارشیو استاتیک به شمار میرود. Scirus نیز در اواخر ژانویه ۲۰۱۳، بازنشسته شد.
محققان به دنبال راههایی هستند که بتوان در وب عمیق به صورت خودکار خزید. این موضوع در مورد محتواهایی که تنها از طریق نرم افزارهای خاص مثل تور قابل دسترسی هستند نیز صدق میکند. در سال ۲۰۰۱، سریرام رقوان و هکتور گارسیا مولینا (از دانشکده علوم کامپیوتر دانشگاه استنفرد) مدل معماری را برای خزنده وب پنهان ارائه کردند که از واژههای کلیدی ارائه شده توسط کاربر یا جمع آوری شده از رابطهای درخواست استفاده میکرد تا برای یک فرم درخواست ارسال کند و در محتوای وب عمیق بخزد. الکساندروس انتولاس، پتروس زرفوس و جونگهو چو از دانشگاه UCLA خزنده وب پنهانی را ساختند که به صورت خودکار، درخواستهای معناداری را برای پر کردن فرمهای جستجو ایجاد میکرد. چندین زبان درخواست فرم (مانند DEQUEL) نیز ارائه شده اند که در کنار ایجاد یک درخواست، امکان استخراج دادههای سازمان یافته را از صفحات نتایج فراهم میکنند. یکی دیگر از تلاشها در این زمینه، DeepPeep است که پروژهای در دانشگاه University of Utah بوده و حامی مالی آن بنیاد ملی علوم آمریکاست. این پروژه، منابع وب پنهان (وب فرم ها) در دامنههای مختلف را با کمک روشهای جدید خزیدن متمرکز جمع آوری میکند.
موتورهای جستجوی تجاری نیز شروع به جستجو برای پیدا کردن روشهای دیگر برای خزیدن در وب عمیق کرده اند. پروتکل Sitemap (که اولین بار در سال ۲۰۰۵ توسط گوگل توسعه یافت و معرفی شد) و OAI-PMH مکانیزمهایی هستند که به موتورهای جستجو و سایر علاقهمندان اجازه میدهند منابع وب عمیق در وب سرورهای خاص را پیدا کنند. هر دو مکانیزم به وب سرورها اجازه میدهند URLهایی که بر روی آنها قابل دسترسی هستند را تبلیغ کنند و به این ترتیب امکان پیدا کردن خودکار منابعی را که به صورت مستقیم به وب سطحی لینک نشده اند، فراهم میکند.
سیستم آشکار سازی وب پنهان گوگل درخواستهای ثبت شده برای هر فرم HTML را محاسبه کرده و صفحات HTML به دست آمده را به فهرست موتور جستجوی گوگل اضافه میکند. نتایج آشکار شده ناشی از پردازش هزاران درخواست در ثانیه برای محتوای وب عمیق هستند. در این سیستم، پیش محاسبه درخواستهای ثبت شده با استفاده از سه الگوریتم صورت میگیرد:
انتخاب مقادیر ورودی به عنوان ورودیهای جستجوی متنی که کلمات کلیدی را قبول میکنند
شناسایی ورودیهایی که تنها مقادیری از یک نوع خاص (مثلا تاریخ) را قبول میکنند
انتخاب تعداد کمی از ترکیبهای ورودی که URLهای مناسب برای ثبت در فهرست جستجوی وب را ایجاد میکنند
در سال ۲۰۰۸، برای راحتتر کردن کار کاربران خدمات مخفی شبکه تور در دسترسی و جستجوی پسوندهای مخفی.onion، آرون سوارتز Tor۲web را طراحی کرد. این برنامه پراکسی میتواند دسترسی به این خدمات را از طریق مرورگرهای معمولی نیز ممکن سازد. با استفاده از این برنامه، لینکهای وب عمیق به صورت رشتههای تصادفی از حروف با پسوند.onion ظاهر میشوند.