با افزايش و رشد وب، داده هاي موجود در آن به سرعت در حال افزايشند در طي ده سال اخير حجم عظيمي از داده ها ي مورد نياز انسان در وب ذخيره شده است. علي رغم حجم عظيم داده هاي در دسترس در وب، طبق آمارهاي اعلام شده تقريبا %٩٩داده هاي موجود براي %٩٩ کاربران بدون استفاده مي باشد. به طور کلي استخراج اطلاعات از وب نيازمند استفاده از تکنيک هايي مثل پردازش زبان طبيعي، ١ بازيابي اطلاعات ،٢پايگاه داده ها ،٣يادگيري ماشين ،٤حفاري داده …و ٥است در اين مقاله در ابتدا به مبحث حفاري وب ٦خواهيم پرداخت و شاخه هاي مختلف آن را مطرح کرده و در انتها الگوريتمي مطرح خواهيم کرد که بر اسا س ساختار فراپيوندي ميان صفحات شبيه ترين صفحه به صفحه مد نظر را مي يابد. جهت ارزيابي الگوريتم مطرح شده از دادگاني که از سايت ] ١[ Persian blogجمع آوري شده استفاده نموديم. مقايسه نتايج حاصل از روش پيشنهادي با نتايج حاصل از googleنشان دهنده حدود % ٨٠همپوشاني با نتايج مقايسه نتايج حاصل از روش پيشنهادي با نتايج حاصل از googleنشان دهنده حدود % ٨٠همپوشاني با نتايج موتور جستجوگر googleاست