面向云平台的二代测序数据近似去重方法研究OA北大核心CSCDCSTPCD
Near de-duplication method of NGS sequence data oriented cloud platform
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理.然而,云计算的处理方式要求先将测序数据上传到云平台中.但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别.目前已有的去重方法无法有效识别出这样的"重复"测序文件和测序结果中的"重复"内容.重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间.针对现存的重复数据删除方法仅仅基于文件的二进制特征,…查看全部>>
The next generation sequencing needs to be processed by cloud computing due to its large data volume, complex pipeline and high requirements of computing resources. Cloud computing approach necessitates that the sequencing data is uploaded to the cloud platform first. The randomness of the sequencing process results in great differences at the binary level even dealing with the same sample or two similar samples. Existing methods of deduplication do not effe…查看全部>>
赵晓永;陈晨
北京信息科技大学 信息管理学院,北京 100129首都医科大学附属北京地坛医院 传染病研究所,北京 100015
信息技术与安全科学
高通量测序重复数据删除近似去重布谷过滤器
high-throughput sequence datadata de-duplicationnear de-duplicationcuckoo filter
《计算机工程与应用》 2017 (23)
面向国家治理的云计算环境下联网审计流数据处理关键技术研究
1-5,5
国家自然科学基金(No.61572079)北京市教育委员会科技计划一般项目(No.KM201711232018).
评论