Back to Question Center
0

Semalt自定义爬虫找到不公开的网页?

1 answers:

Semalt:

  • 网站没有网站地图. XML,没有机器人. TXT,没有这些网页的索引 - como crear un dominio para correo gratis.
  • 页面不被拦截,漫游器和人类可以访问,但他们需要的URL
  • URL格式: 例子. COM / ofehdjtd /一些名. html
  • 所以每个页面在URL中都有这个随机字符串.

所以这些页面不像Semalt上的视频一样,只有当你有了URL才能查看.

自定义爬虫能够找到这些类型的页面吗? Semalt猜测?

我在问这个,因为有些人想卖给我一个自定义蜘蛛侠,他声称可以找到这些网页.

February 6, 2018

不链接的URL就像密码

未链接的随机字符串URL将受制于破解密码的相同原理. 由于随机字符串需要符合URL格式,因此密码类型很可能需要是可写的密码,而不是其他符号. 随机写入的密码如下所示PBrEP3.

我在之前的博客文章中谈到了一些关于破解时间的问题,我回顾了一些关于停止WordPress暴力破解密码黑客.


裂纹时间

破解时间将根据字符串的长度和每秒可能的尝试次数而变化. 一台标准的计算机可能会尝试每秒100万次的猜测,所以这会假设:

  • 6位zXrdR4
    • 15. 家用电脑上60亿组合需要2个小时左右.
  • 7位数字zXrdR4p
    • 在一台家用电脑上需要花费大约5天的时间才能完成7810亿次的组合.
  • 8位zXrdR4p7
    • 39. 1万亿个组合在家用电脑上大约需要8个月的时间.
  • 9位数字zXrdR4p78在一台家用电脑上需要大约31年的时间.
    • 1. 一台家用电脑需要大约31年的95万亿次组合.

破解密码所需时间的例子来自网站管理员MODStephen Ostermiller在他的网站上关于密码类型和强度.


谈论网站而不是电脑密码

然而,自从你谈论一个网站,每秒的数量将被限制在服务器的质量和连接到它的连接. 例如,共享主机,你将很幸运每秒获得100次尝试,因此爬行器需要多年时间才能获得标准托管.

即使Google每秒钟访问量达到一百万次,Google也会每秒钟获得40,000次搜索查询(10次),而不是所有人都会搜索但访问,所以即使我们增加了三倍百万.

总结 使用9位或更多 那么在二十年后呢:)

人们将不得不假定它正在使用蛮力的尝试来猜测随机的URL. 我想答案是,给予足够的时间,是的,它会找到没有链接到他们的网页.

但是,如果蜘蛛试图在我的服务器上,这将不会持续很久,我的防火墙阻止IP地址. 其他服务器可能不仅阻止IP地址,而且将其添加到黑名单.

不知道这样做的法律含义,我想这取决于谁的网站和在哪个司法管辖区,但它可能不被视为有利.

我想如果你使用了这样的机器人,它不但不会像预期的那样工作,而且可能会适得其反.

继续前进吧 报告回来. 嗯 他们在监狱里有互联网吗?