|国家科技期刊平台
首页|期刊导航|南京师大学报(自然科学版)|基于均衡聚类索引的近似最近邻检索方法

基于均衡聚类索引的近似最近邻检索方法OA北大核心CSTPCD

中文摘要

大数据时代,深度学习通过将复杂对象表示为高维特征向量,并使用向量之间的距离度量来衡量样本的相似性,在推荐系统、用户画像、数据中台管理等场景中得到了广泛的应用.但是,随着数据规模的不断增加,海量特征数据的相似向量检索面临着检索模型占用内容大、特征检索算法召回率较低的严重挑战.如何在保证检索精度的前提下,设计紧凑型索引图结构,降低特征检索的内存消耗,对于提升大数据系统的近邻检索效率具有重要的作用.因此,本文提出了一种均衡感知的快速K均值近邻聚类的特征数据分桶及其图结构紧凑型索引用于海量数据近邻检索.首先,设计了均衡感知的快速K-均值聚类算法,通过在图索引构建过程中海量特征数据的均衡分桶,将高维向量压缩成轻量级紧凑型图索引结构,随后通过量化操作进一步压缩高维向量样本,提升其在候选集上的最近邻检索速度.在基准数据集上实验验证结果表明,本文提出的方法能够在保证较高检测召回率的同时,有效加快索引构建速度,可以用于支持高维特征数据的高效最近邻检索.

吕宏伟;李博;刘普凡;刘识;李继伟;刘俊健;

国家电网大数据中心,江苏南京210023

计算机与自动化

大数据检索与分析最近邻搜索均衡感知

《南京师大学报(自然科学版)》 2024 (002)

P.99-108 / 10

国家电网有限公司大数据中心自建科技项目(SGSJ0000SJJS2310021).

10.3969/j.issn.1001-4616.2024.02.012

评论