1、ANNIE的主要词表为主目录是ANNIE\resource\gazetteer,后缀名为lst词表文件中存放着词语,词表以UTF-8编码,每个词语独立一行。
2、Gate需要一个索引文件确定词表文件以及类别之间的对应关系,一般为lists.def,内容形如图所示。
3、其中airports.lst为词表文件,location是为词表指定的主要类型,airport为指定的次要类型。这些词表会编译成有限状态机,用于后续过程调用。
4、语法规则指定需要识别的特定类型,以jape为后缀的文件均是存放的语法规则,放置目录为ANNIE\resource\NE,可以根据自己的需要进行扩展。
5、main.jape存放着所需要的所有规则文件名称。
6、具体的代码和执行过程与前一篇中的内容一致,主要区别在于加载ANNIE。