分类筛选
分类筛选:

关于线性散列索引论文范文资料 与基于线性散列索引的时间序列查询方法有关论文参考文献

版权:原创标记原创 主题:线性散列索引范文 科目:硕士论文 2024-03-09

《基于线性散列索引的时间序列查询方法》:本文是一篇关于线性散列索引论文范文,可作为相关选题参考,和写作参考文献。

摘 要:随着信息化的发展,大量的数据被产生.在新产生的数据中,时间序列数据是一种重要的数据类型,而对该类数据进行高效的查询处理成为了当前研究的热点.本文针对线性散列的索引机制,提出了一种新型的时间序列的查询处理方法,以降低索引创建时间和提高查询效率.实验证明,本方法中的线性散列索引,在创建时的时间耗费有所下降.在查询阶段采用K近邻与下界距离相结合的方法,能有效地过滤掉多余的结果,提高了时间序列查询处理的效率和精确度.

关键词:时间序列;线性散列;K-近邻;下界距离

中图分类号:TP391 文献标识码:A

Abstract:With the development of information science,more and more data is generated through different applications.Time series is an important data type,and the research on how to query time series data efficiently has drawn more and more attention.This paper proposes a new time series query processing method based on linear hash,aiming to reduce the index construction time and improve the query efficiency.The experiment results show that the index construction time has been reduced to some extent.Through the combined method of the K-nearest neighbor and the lower bounding distance in the query phase,redundant results can be effectively filtered,which improves the efficiency and accuracy of the time series query.

Keywords:time series;linear hash;K-nearest neighbor;lower bounding distance

1 引言(Introduction)

时间序列(Time Series)指同一指标的数值按其先后发生的时间顺序排列而成的数列,它作为时态数据的一种特殊形式出现在许多领域,如金融的股票交易、医学的心脑电图、气象的温湿度走势、企业的产销走势等.时间序列的表示是针对时间序列的结构复杂而采取的,将时间序列进行变形的技术;时间序列的索引是针对如何进行高效存储,以及快速查询时间序列的技术.

由于时间序列的数据量大和复杂结构,为表示和索引提出了难题.现有的检索技术,处理大数据时经常会耗费大量的时间.其相似性度量也往往不够准确.国内外研究学者提供了许多相似性度量的技术,但查询的完整和准确程度仍有待提高.

本文结合时间序列分段集成近似表示(Piecewise Aggregate Approximation,PAA)方法[1,2],提出了基于线性散列作为索引技术来处理时间序列查询的新方法.在时间序列的预处理阶段,提出一种新的规范化方法,很好的保留了时间序列的原始形态.采用线性散列索引机制,对时间序列进行有效灵活的存取,自然地处理存储过程中产生的冲突.

在时间序列的查询阶段,提出了一种下界距离方法.并与K近邻方法相结合,提高了查询的效果,完成了用户对于时间序列的查询需求.

2 相关工作(Related work)

时间序列是随着时间的先后顺序而变化的多维的复杂数据类型.形式上时间序列表示为,其中元素是点的序列,,其中代表时间,代表时间序列在时刻的值.

国内外研究学者关于查询处理的研究,大致可分成时间序列的表示方法、索引技术和相似性度量研究.

时间序列表示方法有离散小波变换(Discrete Welet Tranorm,DWT)[3,4]和离散傅立叶变换(Discrete Fourier Tranorm,DFT)[5]、奇异值分解法(Singular Value Decomposition,SVD)[6]、分段线性表示(Piecewise Linear Representation,PLR)[7,8]、符号化近似(Symbolic Approximation,SAX)[9,10]方法等.

时间序列索引技术分基于空间划分的索引和基于数据划分的索引,基于空间的划分有K-D树[11,12]、四叉树[13]、网格文件[14]等,基于数据的划分有R-tree[15]、iSAX-tree[16]和ADS-tree[17].

时间序列的相似性度量是衡量时间序列相互之间联系的方法.相似性度量是数据挖掘中的一项重要的任务.一般情况下,时间序列的每一种相似性度量方法都能够对应一种或多种时间序列特征表示.例如,经典的时间序列PAA特征表示方法用到了欧式距离的度量方法,离散傅立叶变换通常会用到动态时间弯曲距离的度量方法.不同的特征表示选择不同的度量方法,这要与设计的算法相结合.选择一个适合的度量方法,可以提高算法的性能,提高时间序列查询的查全率与查准率.经典的相似性度量方法主要有编辑距离、欧氏距离、动态时间弯曲距离等.为了进一步提高查询效率,国外学者提出了下界距离的概念,下届距离有LB-Yi距离和LB-Kim距离[18,19]等.

线性散列索引论文参考资料:

论文索引

论文索引是什么

论文索引号是什么

结论:基于线性散列索引的时间序列查询方法为关于对写作线性散列索引论文范文与课题研究的大学硕士、相关本科毕业论文线性散列索引论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

和你相关的