|
Post by account_disabled on Apr 24, 2024 9:34:54 GMT
享受改善页面相似性测量我们当前用于测量两页之间相似性的启发式称为指纹。指纹依赖于将每个页面转换为位整数的矢量以使重复或绝育页面产生相同或几乎相同的矢量。一对页面之间的差异与两个向量中不相同的相应条目的数量成正比。我们正在努力实施的更快的启发式方法简称为相似哈希或。是一个单位无符号整数其计算方式是重复页面或新近页面会产生相同或几乎相同的值。页面之间的差异与两个数字不同的位数成正比。 问题避免错误的重复问题是这两个度量非常不同一个是值的向量另一个是单个值。由于这种差异测量值在查看页面差异的方式上可能会有所不同。由于单个爬网可能包含超过一百万页因此我们需要比较很多数字以确定新启发式的最佳阈值。具体来说我们需要设置启 阿根廷电话号码 发式阈值以检测尽可能多的重复和重复同时最大程度地减少虚假重复的数量。更重要的是绝对最小化没有重复的页面对的数量因此除非实际上是重复的否则不要将页面作为重复删除。 这意味着我们需要能够检测到实际上没有复制或重复的两页的页面。视为不同但模拟启发式错误视图他们相似。对此要格外小心以避免出现最负面的客户体验我们预计重复检测启发式的幕后变化会导致突然出现不正确的重复页面错误没有明显的充分理由。可视化数据的解决方案我们需要做出许多数字量化的决策涉及的是一个经典案例其中数据可视化可能会有所帮助。我们的数据科学家建议使这两种非常不同的页面内容度量标准化的最佳方法是专注于它们如何衡量现有页面之间的差异。考虑到这一点我决定采用以下方法从随机选择的爬网中抽取大约百万对页面。对于每对采样页面绘制它们的差值由水平轴上的旧指纹启发式测量和它们的差值由垂直轴上的测量。
|
|