Python实现解析oui.txt并抽取MAC前缀及组织名称

2017-01-14 01:03 python 1.2k 字次

做无线抓包时就曾经设想过显示MAC地址所属组织的名称，一直在研究如何根据MAC查询对应的名称。今天无意看到网上有相关文章，里面有介绍，使用C语言实现。本文使用python来实现。

oui.txt文件可以在官网地址http://standards-oui.ieee.org/oui/oui.txt下载，该文件包含了MAC地址前缀(前MAC地址前三字节，下文直接使用“MAC地址”)、组织名称(即公司名称)、公司名称信息。截至目前，一共有2万多个记录。本文要做的，只是提取出MAC地址和对应的组织名称，再重新组织，方便程序查询。
先看一下文件内容：

00-CD-FE   (hex)        Apple, Inc.
00CDFE     (base 16)        Apple, Inc.
                1 Infinite Loop
                Cupertino  CA  95014
                US

第一部分为“xx-xx-xx”形式的MAC地址和名称；第二部分类似，但省略掉“-”；第三部分是公司地址信息(含国家码，故行数较多)。文中选择第二部分，因为可以直接将如“00CDFE”字符串转换成十六进制使用。
提取MAC地址的设计思路很简单，如下：
1、逐行读取oui.txt，利用正则表达式查找上文所说的“第二部分”内容。并放到list中。
2、将list内容排序，方便使用二分查找算法，提高速度。
3、将MAC地址转换成十六进制存储(非字符串，这样省一点空间)，组织信息还是用字符串存储。
4、写到文件中。其中头部信息表示着记录的数目。数据部分即为MAC地址和组织信息。组织信息前一字节表示该信息长度。
涉及到的python知识点：
1、正则表达式：re.findall(r"^[A-F0-9].[A-F0-9].[A-F0-9].+$", l)
2、字符串转换成数值：int(mac, 16)
3、字符串转成二进制写入文件：

f1 = open(BIN_FILE, "wb")
format='%ds' % len(org)
byte=struct.pack('i',mac_int) + struct.pack(format,str.encode(org))
f1.write(byte)

4、UTF8编码：

1 2	reload(sys) sys.setdefaultencoding('utf8')

完整代码如下：

#!/usr/bin/python
# encoding: utf-8
# 解析oui.txt文件 Powred by Late Lee
# 注：文件编码格式为utf-8，oui.txt也必须保证是uft-8
# 如果使用python3.4版本，则不需要调用 sys.setdefaultencoding('utf8')
# 生成bin文件格式：头部共8字节：前4字节表示一共有多少条记录，后面4字节表示最大组织名称长度为多少。数据部：MAC地址及组织名称。
# 耗时2秒完成
 
import os
import re
import struct
import sys
 
OUI_FILE = "oui.txt"
TXT_FILE = "oui_txt.txt"
BIN_FILE = "oui.bin"
 
##################################
 
def write_file():
    line=0
    list =[]
    try:
        f = open(OUI_FILE, 'r')
        while True:
            l = f.readline()
            if l == '': # end
                break
            line += 1
            l = l.strip('\n') # not need \n
            #print("#%d %s" % (line, l))
            ret = re.findall(r"^[A-F0-9].[A-F0-9].[A-F0-9].+$", l) # eg 9C8E99
            if len(ret) != 0:
                mac = l[:6]
                mac_int = int(mac, 16) # string to int number
                org = l[22:]
                org.strip()
                test = mac+" "+org
                list.append(test) # add to list
        list.sort()
        f.close()
 
    except:
        raise
    line = 0
 
 
    try:
        f1 = open(BIN_FILE, "wb")
        f2 = open(TXT_FILE, "w")
        f1.write("0000")
 
        for i in range(0, len(list)):
            #print("%d %s" % (i, list[i]))
            line += 1
            mac = list[i][:6]
            mac_int = int(mac, 16) # string to int number
            org = list[i][7:]
            format='%ds' % len(org) # how many bytes in org
            org_byte = struct.pack(format,str.encode(org))
            org_len = len(org)
            byte=struct.pack('i',mac_int) + struct.pack('b',org_len) + struct.pack(format,str.encode(org)) # to byte
            #print("333#%d 0x%x %d-->%s %s" % (i, mac_int, mac_int, org, org_byte))
            f1.write(byte) # binary
            test = mac + " " + org + "\n"
            f2.write(test) # text
 
        print("total number: %d max name len: %d" % (line, org_len))
        f1.seek(0, 0)
        byte=struct.pack('i',line)
        f1.write(byte)
        f1.close()
        f2.close()
    except:
        raise
 
if __name__ == '__main__': 
    reload(sys)  
    sys.setdefaultencoding('utf8')
    write_file()

至此，就完成了MAC信息的提取。最终的二进制文件存储22982条记录，空间只有600KB左右。文本形式的如下：

000000 XEROX CORPORATION
000001 XEROX CORPORATION
000002 XEROX CORPORATION
000003 XEROX CORPORATION
。。。
FCFC48 Apple, Inc.
FCFE77 Hitachi Reftechno, Inc.
FCFEC2 Invensys Controls UK Limited
FCFFAA IEEE Registration Authority

文本仅描述一种方法。存储可以使用定长和变长方式。如下：
1、使用定长存储组织信息，这样无需处理长度不一的组织名称，方便编码。但以牺牲空间为代价，比如使用100字节存储名称，则生成的文件大小由600KB上涨到2MB多。
2、如果要节省空间，可以在每条记录中存储组织名称长度信息，然后在代码中根据此长度动态分配组织名称长度。编码相对复杂一点点。笔者喜欢这个方法。
参考资料：
1、OUI文件：http://standards-oui.ieee.org/oui/oui.txt
2、http://www.cnblogs.com/Anker/archive/2013/12/22/3486344.html

李迟　2017.1.14 周六凌晨

本文作者：李迟
版权声明：原创文章，版权归署名作者，转载建议注明出处（当然不注明亦可）。
本文链接：http://www.latelee.org/python/python-oui-txt-to-mac-org.html