定制软件Python: 二进制字节流数据的读取操作 -- bytes 与 bitstring

Python: 定制软件二进制数据的读取操作 – bytes 与 bitstring

定制软件最近项目有个需求,定制软件需要对二进制文件读取内容,定制软件操作读取到的字节流数据,定制软件主要是查找与切片获取内容。定制软件这要求有两个标志,一个开始,一个结束,定制软件获取中间的内容。

Python 的 bytes 定制软件内置了一些方法,定制软件但是却不完美。在调查后,了解到 bitstring 定制软件这个第三方包,定制软件在对字节流数据的处理上,定制软件似乎更合适。

bytes

bytes:一种字符序列的类型。通过比较 dir(str) 与 dir(bytes) 可知,两者的属性与方法很相似,只有少数几个不同。所以 bytes 也是可以像 string 一样,对字节序列有各种操作方法,如查找(find),求长度(len),切割(split),切片等。

bytes 的优点是:Python 内置的方法,不需要的额外的安装三方模块。

但缺点也很明显:只能单个查询,不能一次查询多个需要的结果。

首先通过 open 的 rb 模式打开文件,读取内容为 bytes 类型。查找特定字符串有 find() 方法,但是此方法只能找到第一个符合要求的字符串索引,并且给出的不是单个位的索引,而是 8 位一个字节的索引。当需要查找多个符合的字符串,却没有内置的 findall() 方法。如果要查询多个,过程会麻烦,首先查到第一个符合的索引 1,以此索引 1 为开始,查询第二个符合的索引 2,以此类推,直到查询结束。

with open(path, 'rb') as f:    datas = f.read()    start_char = datas.find(b'Start')    # start_char2 = datas.find(b'Start', start_char)    end_char = datas.find(b'End', start_char)    # end_char2 = datas.find(b'End', start_char2)    data = datas[start_char:end_char]    print(data)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

注意上述代码,start_char 和 end_char 会出现多次,次数并不一定会一样,需要获取两个索引之间的内容,但是既无法循环,也不能一次查完。需要多次执行已注释的那行代码,获取关键字索引。由于不知道文件数据中会有多少个开始标志,也就不知道执行多少次,这应该采用循环解决,但似乎没有可供循环的变量。这使得问题更加复杂。

其次,由于是获取两个标志之间的内容,所以,以上过程需要执行两遍。因此过程更显得繁杂无比。

因此,寻找新的方法,是完全必要的。

bitstring

bitstring 是一个三方包,以字节流形式读取二进制文件。

bitstring.py 文件的第一句话是:This package defines classes that simplify bit-wise creation, manipulation and interpretation of data.

翻译如下:这个包定义的类简化了数据的逐位创建、操作和解释。

简单理解就是,直接操作 bytes 类型的数据。

有主要的四个类,如下:

Bits -- An immutable container for binary data.BitArray -- A mutable container for binary data.ConstBitStream -- An immutable container with streaming methods.BitStream -- A mutable container with streaming methods.Bits -- 二进制数据的不可变容器。BitArray -- 二进制数据的可变容器。ConstBitStream -- 具有流方法的不可变容器。BitStream -- 具有流方法的可变容器。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

像 bytes 一样,首先读取文件内容,查找关键字索引,切片获取数据内容。

# update at 2022/05/06 start# from bistring import ConstBitStream, BitStreamfrom bitstring import ConstBitStream, BitStream# update at 2022/05/06 endhex_datas = ConstBitStream(filename=path)  # 读取文件内容start_char = b'Start'start_chars = hex_datas.findall(start_char, bytealigned=True)  # 一次找到全部符合的,返回一个生成器start_indexs = []for start_char in start_chars:    start_indexs.append(start_char)end_char = b'End'end_indexs = []for start_index in start_indexs:    end_chars = hex_datas.find(end_char, start=start_index, bytealigned=True)  # 找到第一个符合的,返回元组    for end_char in end_chars:        end_indexs.append(end_char)result = []for i in range(min(len(start_indexs), len(end_indexs))):    hex_data = hex_datas[start_indexs[i]:end_indexs[i]]    str_data = BitStream.tobytes(hex_data).decode('utf-8')    result.append(str_data)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

代码分析,首先导入需要的两个类:ConstBitStream, BitStream。获取文件内容,findall() 查找所有符合的字符串索引,find() 查找第一个符合的字符串索引。取开始、结束两个列表的较小值,切片获取数据,类型为 ‘bitstring.ConstBitStream’,BitStream.tobytes() 方法转为 bytes 类型,中文字符会乱码,所以再用 decode() 解码,得到需要的字符串。

整个过程还是简洁、连续。代码中用到了 findall()、find()、tobytes() 方法。此外还有许多小细节需要注意,比如,start_indexs 如果为空,后续的代码就不该执行了,end_indexs 为空亦是如此。

由此可见,bitstring 这个包还是比较好用的。根据需求,用到的方法比较少,其实还有许多其他的方法,按需选择。

网站建设定制开发 软件系统开发定制 定制软件开发 软件开发定制 定制app开发 app开发定制 app开发定制公司 电商商城定制开发 定制小程序开发 定制开发小程序 客户管理系统开发定制 定制网站 定制开发 crm开发定制 开发公司 小程序开发定制 定制软件 收款定制开发 企业网站定制开发 定制化开发 android系统定制开发 定制小程序开发费用 定制设计 专注app软件定制开发 软件开发定制定制 知名网站建设定制 软件定制开发供应商 应用系统定制开发 软件系统定制开发 企业管理系统定制开发 系统定制开发