近年来,随着数据库及其管理技术的迅速发展以及信息技术的应用与推广,数据挖据技术应运而生。它是从大量的模糊数据中筛选出有效的、隐含在其中的、可信的、对决策有用的知识和规律的高级处理过程。它内涵丰富、涉及范围广泛,在很多领域都有实际应用,是当前专门的研究人员以及公司的专家和技术人员研究的一个热点。图结构具有丰富的表示形式,直观且容易理解,我们可以利用它的普适性来描述世间万物及其之间的复杂关系。由于其广泛应用于化学信息学、生物信息学、以及无线传感网络等,图挖掘技术更是得到了大量的重视和研究。本文主要研究了频繁子图查询技术,对李先通的GraphGen算法进行了改进,算法主要是从两个方面进行改进的,具体内容如下: 一方面,引入了一种快速获取最小DFS编码的方法。在算法的执行过程中,每一次扩展边都会生成新的频繁子树,要获取其最小DFS编码需要不断扫描图集,在本文中,我们将采用最右扩展的方式来扩展邻接边,使得扩展之后不用扫描图集而直接获取频繁子树的最小DFS编码。另一方面,引入了一种高效的存储结构ADI++存储结构,借助ADI++结构的边表可以快速获取频繁边,并且根据边表及引理3.1和引理3.2,可以避免直接的子图同构的判断,使得算法的效率得到进一步提高。 最后通过合成数据集以及真实数据集上的实验性能分析,对算法的准确性进行了验证,实验表明改进的MyFmin算法的执行效率确实要高于算法GraphGen。