51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

看完这一篇文章别再说不懂布隆过滤器

看完这一篇文章别再说不懂布隆过滤器

厉飞雨 阅读(28) 评论(0) 赞(6)

[#](#一-场景描述) (一)场景描述 {#一-场景描述} ------------------------------ 在对大量网站进行网页爬虫时,一般需要两步,先对url进行搜集,再对每一个url进行爬取。这里很有可能搜集到的url是重复的,因此需要在第一步对url进行去重。如何去重呢?你会想到将url放进HashSet中,但是如果url的数量过大,HashSet是撑不...