其实你只需要换一种方式

发布时间：2021-03-13 14:13:57 所属栏目：评论来源：互联网

导读：么是布隆过滤器布隆过滤器是一种数据结构，比较巧妙的概率型数据结构，它是在 1970 年由一个名叫布隆提出的，它实际上是由一个很长的二进制向量和一系列随机映射函数组成，这点跟哈希表有些相同，但是相对哈希表来说布隆过滤器它更高效、占用空间更少，布隆

么是布隆过滤器

布隆过滤器是一种数据结构，比较巧妙的概率型数据结构，它是在 1970 年由一个名叫布隆提出的，它实际上是由一个很长的二进制向量和一系列随机映射函数组成，这点跟哈希表有些相同，但是相对哈希表来说布隆过滤器它更高效、占用空间更少，布隆过滤器有一个缺点那就是有一定的误识别率和删除困难。布隆过滤器只能告诉你某个元素一定不存在或者可能存在在集合中，所以布隆过滤器经常用来处理可以忍受判断失误的业务，比如爬虫 URL 去重。

布隆过滤器原理

在说布隆过滤器原理之前，我们先来复习一下哈希表，在上一篇文章中，我们利用的是 Set 来进行 URL 去重，我们来看看 Set 的存储模型

et url 去重

URL 经过一个哈希函数后，将 URL 存入了数组里，这样查询时也是非常高效的，但是由于数组里存入的是 URL，随着 URL 的增多，需要的数组越来越大，意味着你需要更多的内存，比如我们采集了几亿的 URL，那么可能就需要上百G 的内存，这是条件不允许的，因为内存特别的昂贵，所以这个在 url 去重中是不可取的，占内存更小的布隆过滤器就是一种不错的选择。

布隆过滤器实质上由长度为 m 的位向量或位列表(仅包含 0 或 1 位值的列表)组成，最初所有值均设置为 0，如下所示。

（编辑：宜春站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

蓄势待发！小米12三机	moto edge X30上线全
我处于硅谷管芯片	鸿蒙OS明年冲击欧洲市