FASTA和FASTQ格式广泛应用于存储基因组数据,已成为生物信息学工具之间交换序列数据的标准格式。目前有许多软件和Python包用于解析FASTA/Q文件,并且支持随机读取序列。然而,在从超大文件中随机读取序列时,目前的软件效率比较低,内存占用过大。为些我们开发了pyfastx,使用C语言开发,采用SQLite3数据库存储索引,减少内存开销。该工具发表于Briefings in Bioinformaitcs杂志上。
FASTA和FASTQ格式广泛应用于存储基因组数据,已成为生物信息学工具之间交换序列数据的标准格式。目前有许多软件和Python包用于解析FASTA/Q文件,并且支持随机读取序列。然而,在从超大文件中随机读取序列时,目前的软件效率比较低,内存占用过大。为些我们开发了pyfastx,使用C语言开发,采用SQLite3数据库存储索引,减少内存开销。该工具发表于Briefings in Bioinformaitcs杂志上。