pyfastx: 从FASTA/Q文件中随机读取序列的Python包 - 生物信息学与整合基因组学课题组

FASTA和FASTQ格式广泛应用于存储基因组数据，已成为生物信息学工具之间交换序列数据的标准格式。目前有许多软件和Python包用于解析FASTA/Q文件，并且支持随机读取序列。然而，在从超大文件中随机读取序列时，目前的软件效率比较低，内存占用过大。为些我们开发了pyfastx，使用C语言开发，采用SQLite3数据库存储索引，减少内存开销。该工具发表于Briefings in Bioinformaitcs杂志上。

软件地址：https://github.com/lmdu/pyfastx

文档地址：https://pyfastx.readthedocs.io