词典编译配置文件概述

news/2025/1/22 19:08:13/文章来源:https://www.cnblogs.com/hanbox/p/18536518

概述

《汉文博士》允许使用者自己编写词典文件。本文简要讲述了词典编译过程和相关配置文件的编写方法。

读者需具备XML和正则表达式的基础知识。

词典编译器

《汉文博士》的词典编译器可在“文件”菜单中点击“词典编译器”调出。

编译前,需点击“加载”按钮指定配置文件。选定配置文件后,将自动填写输出位置。点击编译按钮后,将编译词典,并自动注册到程序的词典库,供后续检索。

编译配置文件概述

词典编译配置文件是一个XML文件,程序使用配置文件中定义的正则表达式处理指定的文本文件,将文本内容转换词典内容。

提示:程序下载空间的词典源文件目录下,有大量的示例可供参考。

编译配置文件至少应包含如下几类信息:

  1. 词典的基础信息,如名称(title)、版本(version)、出版社(publisher)、制作人(creator)、简单说明(description)等
  2. 词典的字段(fields),例如:读音、出处、解释、例句等,全部都可自由定义。
    • 一个词典数据库至少要有一个字段(field)。
    • 字段需要指定名称(name)和说明(description)。
    • 默认的字段数据类型(valueType)是纯文本。
    • 标记类型表示字段内容为HTML。
    • 此外还有其他类型,如拼音、粤拼、相关汉字列表等等。
    • 字段的内容,在显示成检索结果前,可以指定正则表达式模式(pattern),将字段文本替换(replace)成其它内容(replacement,例如HTML标签、跳转连接等)。因此,不需要在源文件里插入大量的HTML标签,在运行的时候可以转换,从而使词典能压缩得再小一些。
  3. 词典的数据(data)源文件。
    • 词典的源文件(file)是文本文件,编译器逐行(row)读取文本文件,根据正则表达式(pattern),提取出词条(word),将其它文本则映射到相应的字段(field)。
    • 一部词典可以有不止一个源文件。
    • 词条可以重复。检索词条时,程序会将词典中匹配该词条的所有内容,按源文件中的出现顺序,依次显示出来。
    • 源文件(encoding)建议使用UTF-8或GB18030编码,以最大限度地支持可以显示的汉字。
    • 在编译写入词典文件前时,可以对文本作替换(replace)。
    • 一般不需要考虑词头的简繁体表示形式,程序可以在检索时自动简繁或异体通查。
    • 一般也不需要考虑释义正文的简繁体表示形式,用户可以选中词典正文,在右键菜单中将内容转换成简体或繁体。

除了上面必备的信息之外,编译配置文件还支持如下高级特性:

  1. 词典文档(documentation)。“文档”是指不属于词典词条的辅助性内容,例如序、前言、凡例、附录等等,用户点击检索结果的词典标题,就会转到词典的基本信息页,在该页面可查看词典的“文档”。词典文档可以是文本文件、HTML网页或简易Markdown文件。
  2. 词典资源(resource)。“资源”是指不被此条件检索得到的数据内容,比较典型的就是插图,此外,对于不希望直接在词典文档列表中出现的内容,也可以放在资源内。
  3. 字段分类(category)。字段可以具有类别,在检索结果中显示。这个比较罕见,一般出现于结构比较复杂的词典。
  4. 字典。由于字典为单字,检索速度比词典快一些。如果要编辑的词典实际上是字典,或者包含大量单字,可以在配置文件中指定字典属性(enableCharacterDictionary),让编译出来的词典中使用字典结构来保存单字条目。
  5. 同义词(synonym)。编译器允许在配置文件中使用正则表达式为词头指定同义词。同义词和词头的检索结构都指向相同的释义内容。在词头行(word)或内容行(row)中都可以指定同义词。

编译示例

下文以《本草害利》为例,讲解词典的编译制作方法。源文件可在程序下载空间的词典数据库→词典源文件→本草害利目录下载。为方便起见,源文件被压缩成一个7zip文件包,下载后请将文件解压出来,然后在编译器中选择其中的“本草害利.xml”进行编译。

分析源文档结构

《本草害利》是清代凌奂编著的一部本草医书,书中收录了约三百种中药材,作者基于用药如用兵的思路,按脏腑和效能归类,划分成类似“心部药队〔补心猛将〕”、“肺部药队〔温肺猛将〕”等分类,并逐一讲解各药材的“害”、“利”和“修治”。在本示例中,我们将药材名称作为词头。例如中药材“五味子”的检索结果如下图所示:

源文件开头的部分内容大致如下图所示(未换行,已隐藏长行后面的文本)。

编译前的文档准备工作

为了编译成词典,我们对原始文件作过一些编辑。例如:

  1. 在药材名称前加了一个“★”号,在编译时,我们将指定“★”号后面的内容为词头。这种约定符号可以根据个人喜好而定,并没有特殊要求。
  2. 由于药材通常有别名,例如“北五味”又名“五味子”。原始文件在“北五味”后本来没有“、五味子”,如果不指定别名,输入“五味子”的时候就查不到这个条目的内容了,因此,我们在“★北五味”后面,增加“、五味子”,并指定“、”为同义词分隔符(synonymDelimiter)。
  3. 作者在讲解一味药材的时候,有时会提到其它药材。我们希望,在检索结果界面点击这些被提到的药材,可以跳转到对应的词条。例如上图的“干姜”也是一味药材,我们使用半角的中括号把它括起来,变成“[干姜]”,表示可以点击的词条连接。这种标记方式也是按个人喜好,我们在配置文件中指定即可。
  4. 文中有些地方使用了药材的简称,例如“(白芍)同归地补血”,这里“归”指当归,“地”指“地黄”,我们使用中括号加括号的方式表示这种关系,变成“同[归](当归)[地](地黄)补血”,在检索结果界面中显示的是“同归地补血”,而点击“归”字将检索“当归”,点击“地”字将检索“地黄”。

再观察一下文件,由于药材部队出现在药材名称之前,也就是词条标记“★”之前,因此,出现在“★北五味”前面的“心部药队〔补心猛将〕”将无法作为释义写入“北五味”词条,而出现在“★酸枣仁”前的“心部药队〔补心猛将〕”,将成为“北五味”的内容。虽然在这里没关系,因为内容是一样的,“北五味”也缺少药材部队的内容,但到后面切换药材部队的时候,就会错位,造成内容错误。为了补救,我们将根据“药队〔”先忽略掉这里出现的药材部队,另外再使用一个名叫“BowPad”的文本编辑器,通过正则表达式,提取出药材部队和药材的关系,制作了一个名为“本草害利目录.txt”的文件,内容大致如下所示,每行一种药材和药材部队的关系,中间用制表符分隔。编译时,我们将这个文件的内容放在前面先编译,而正文文件的内容放在后面编译,就能得到开头检索结果的效果。

北五味、五味子    心部药队〔补心猛将〕
酸枣仁    心部药队〔补心猛将〕
柏子仁    心部药队〔补心猛将〕
远志肉、远志    心部药队〔补心猛将〕
丹参    心部药队〔补心猛将〕

编译配置文件

下面是编译配置文件:

<?xml version="1.0" encoding="gbk"?>
<config title="本草害利" author="清·凌奂"><fields><field name="category" cssClass="categoryTitle" description="部队" fieldNameVisible="no"mergeAdjacentField="true" adjacentFieldDelimiter="、"/><field name="content" description="内容" valueType="标记" fieldNameVisible="no" fullText="yes"><replace pattern="\[([^\]]+)\]\(([^\)]+)\)"><replacement><![CDATA[<ref q="$2" title="$2">$1</ref>]]></replacement></replace><replace pattern="\[([^\]]+)\]" replacement="&lt;ref>$1&lt;/ref>"/><replace pattern="〔.+〕" replacement="&lt;b>$0&lt;/b>"/></field></fields><data file="本草害利目录.txt" encoding="GBK" synonymDelimiter="、"><column field="1"/></data><data file="本草害利.txt" encoding="utf-8" synonymDelimiter="、" allowEmptyLine="true"><word pattern="^★" removePattern="true"/><row field="2"><ignore pattern="药队〔" useRegex="false"/><ignore pattern="(见" useRegex="false" /><ignore pattern="(同上" useRegex="false" /></row></data>
</config>

“config”元素中出现的“title”和“author”属性分别表示词典的名称和作者。这些将会显示在检索结果窗口上。

词典字段

“fields”元素下的“field”元素指定了两个字段。第一个字段将用来显示药材部队,第二个字段用于显示“害”、“利”、“修治”等正文。

第一个字段的代码如下:

<field name="category" cssClass="categoryTitle" description="部队" fieldNameVisible="no"mergeAdjacentField="true" adjacentFieldDelimiter="、"/>

从检索结果窗口可以明显看出,两个字段的显示效果是不一样的。原因是第一个“name="category"”的字段具有“cssClass="categoryTitle"”属性,表示使用类名为“categoryTitle”CSS样式。可以使用的样式,是在程序目录的style.css文件中定义的。程序默认会将字段描述名称(这里是“部队”)显示到检索结果,指定“fieldNameVisible="no"”可以隐藏字段名称。

由于一种药材可能同属于多个药材部队,例如“北五味、五味子”在上面的目录文件中一共出现了三次,因此,需要程序把它们串起来。我们可在配置中指定“mergeAdjacentField="true"”将相邻的相同字段结果串连起来,另外再指定“adjacentFieldDelimiter="、"”,使用逗号将内容分隔开。这样,就得到了开头截图里几个药材部队串连在一起的效果了。

第二个字段的内容较多,代码如下:

<field name="content" description="内容" valueType="标记" fieldNameVisible="no" fullText="yes"><replace pattern="\[([^\]]+)\]\(([^\)]+)\)"><replacement><![CDATA[<ref q="$2" title="$2">$1</ref>]]></replacement></replace><replace pattern="\[([^\]]+)\]" replacement="&lt;ref>$1&lt;/ref>"/><replace pattern="〔.+〕" replacement="&lt;b>$0&lt;/b>"/>
</field>

valueType="标记"”属性表示这个字段的内容是HTML标记(如果不加这个属性,所有内容就会被视为纯文本,也就不会有跳转连接)。

replace”元素指定了在显示检索结果之前对字段内容的替换操作。“pattern”属性的值是正则表达式,用于匹配文本,而“replacement”属性或元素的内容则表示替代的内容。其中“$1”、“$2”之类的标记表示正则表达式捕获的分组内容。

第一组替换表达式“\[([^\]]+)\]\(([^\)]+)\)”表示替换类似于前文提到的“同[归](当归)[地](地黄)补血”模式。“[归](当归)”将被替换成“<ref q="当归" title="当归">归</ref>”。“ref”元素在程序中有特别的含义,表示词条连接。其中“q”属性表示要检索的词条,“title”属性就是鼠标移上连接所显示的提示文字,“ref”元素的文本就是连接的内容。由于本组替换内容比较复杂,因此我们把它放在一个CDATA节中,避免为替换目标的引号和尖括号编写不直观的实体引用。

第二组替换表达式“\[([^\]]+)\]”表示替换类似于前文提到的“[干姜]”的模式。“[干姜]”将被替换成“<ref>干姜</ref>”。由于要检索的内容和要显示的内容是一样的,所以就不需要“q”属性了。

在安排替换顺序时,要注意先后,必须先替换掉方括号加圆括号的模式,再替换仅有方括号的模式,如果反过来,“[归](当归)”就会被“\[([^\]]+)\]”模式对应的替换组替换成“<ref>归</ref>(当归)”,而“\[([^\]]+)\]\(([^\)]+)\)”就得不到替换文本的机会了。

第三组替换表达式“〔.+〕”表示将“〔害〕”、“〔利〕”和“〔修治〕之类的内容替换成粗体。

数据源文件

字段元素后出现的“data”元素代表词典数据源文件。源文件是文本文件,一般有列布局和行布局。

  1. 如果文件使用列布局中,每行一条词头,使用制表符分列,第一列为词头,后面各列为字段数据。
  2. 大部分文件使用行布局,程序逐行读取文本,根据正则表达式确定每行数据对应词头还是字段。

第一个源文件对应的配置代码如下:

<data file="本草害利目录.txt" encoding="GBK" synonymDelimiter="、"><column field="1"/>
</data>

encoding”表示该文本文件的文本编码,要注意必须与“file”属性对应文件的编码保持一致,否则就会无法读取。

synonymDelimiter="、"”指定了词头的同义词分隔符。

注意“data”元素下出现的“column”子元素。这个元素表示这个文档是列布局(按制表符分列),其中第1列隐含表示词头,各个“column”元素表示后面的列,将对应字段内容。因此,这个“column”元素对应第二列,对应的“field="1"”属性表示该列对应前面定义的第1个“field”元素对应的字段(即药材部队)内容。

在本示例中,文件只有两列(大致如下所示),第一列对应的是词头,在“synonymDelimiter="、"”的作用下,诸如“北五味、五味子”的词头被拆分成“北五味”和“五味子”两个词头。第二列“心部药队〔补心猛将〕”对应药材部队字段。

北五味、五味子 心部药队〔补心猛将〕
酸枣仁 心部药队〔补心猛将〕
柏子仁 心部药队〔补心猛将〕

第二个源文件的代码如下:

<data file="本草害利.txt" encoding="utf-8" synonymDelimiter="、" allowEmptyLine="true"><word pattern="^★" removePattern="true"/><row field="2"><ignore pattern="药队〔" useRegex="false"/><ignore pattern="(见" useRegex="false" /><ignore pattern="(同上" useRegex="false" /></row>
</data>

由于源文件有大量的空行。按程序的默认设置,空行被作为词条内容的结束标记,而本实例的文件并非如此。因此,我们可以指定“allowEmptyLine="true"”,允许空行出现在词条内容之中。编译器在编译时就会自动将空行忽略掉。

这里出现的“word”元素表示词头,“row”元素表示除词头外用于识别各行对应哪个字段的规则。

word”元素的“pattern”属性表示行首以五角星开头的行被识别为词头。

由于五角星在这里已经被用来识别词头了,而它实际上并不是词条文本,只是我们为方便程序编译器识别词头而加的标记,因此要把它删掉。removePattern="true"属性,就表示删掉匹配“pattern”属性的内容,这样,行首的五角星就不会出现在词头了。

由于这个“data”元素也有一个“synonymDelimiter="、"”属性,因此,顿号也被用来分隔词头。

“row”元素的“field="2"”属性表示这个元素为第二个字段,即前面定义的“内容”字段定义规则。

由于文档中只有正文内容,没有其它内容了,所以不需要筛选。如果一个文档里有多个字段,可以在“row”元素里指定“pattern”属性,使用正则表达式匹配字段。

三个“ignore”元素在这里表示忽略匹配“pattern”属性内容的行,“useRegex="false"”属性表示“pattern”属性是普通文本,不是正则表达式。如果源文件某一行文本的内容包含这里三个“pattern”中的一个,都会被忽略。

在一个“row”元素内,也可以指定“replace”元素,在写入词典之前替换掉一些内容。

总结

本文讲解了词典编译的工具和配置文件的常见元素和属性设置,并以《本草害利》为例讲解了词典编译配置文件的编写方法。本文讲解的编译配置只是较基础的部分,还有更多的功能将在后续的文章讲解。

词典源文件的示例可在下载区下载 (访问密码: 8518)

从上述设计也可见,《汉文博士》的词典编译器支持多种文本文件布局,比较灵活。字段的概念为建构词典逻辑内容提供了方便。独特的运行时文本替换机制,使得词典源文件可以做得比较简洁,无需嵌入大量标签,也减小了词典文件的空间占用。而程序简繁异体通查和独有的同义词机制便于词条检索,也使词典制作人员可以更专注于创作优质内容,不会被词典程序的功能限制所困扰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/829391.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安川MOTOMAN机器人NX100维修的注意事项

安川MOTOMAN机器人NX100维修,操作人员安全注意事项 整个机器人的最大动作范围内均具有潜在的危险性。 为机器人工作的所有人员 (安全管理员、安装人员、操作人员和机器人维修人员) 必须时刻树立安全第一的思想 ,以确保所有人员的安全。 • 机器人的安装区域内禁止进行任何的危…

Webrtc播放H265的技术探索(datachannel+wasm)

zlm、webrtc、H265、wasm、视频播放通过这个帖子把我对通过webrtc方式播放H265视频的技术探索过程记录下来。虽然最终不一定能够形成产品进行实现,但觉得也是一个有意义的过程。很多事情不就是这样吗?~ ----------------------------- 一。背景1)由于Webrtc具有低延时、高稳…

MR756-ASEMI汽车用整流二极管MR756

MR756-ASEMI汽车用整流二极管MR756编辑:ll MR756-ASEMI汽车用整流二极管MR756 型号:MR756 品牌:ASEMI 封装:BUTTON 正向电流:6A 反向电压:1000V 正向压降:1.2V 引线数量:2 芯片个数:1 芯片尺寸:MIL 漏电流:10ua 恢复时间:35ns 浪涌电流:400A 芯片材质: 正向电压:…

python之判断语句

一、if语句 (1)单分支: 格式: if 判断条件 执行语句块1 else: 执行语句块2 备注:判断条件 if中可以使用比较运算符,<,!=,,>=,<= 案例1: a=10 if a != 10: print("你中奖了") else: print("谢谢惠顾") 2、if语句多分支 if 判断条件1: 执…

DE-9IM 空间关系模型

参考博客: 空间拓扑关系描述:9交叉模型(DE-9IM) | 会飞的大象 DE-9IM 空间关系模型 - 乌合之众 - 博客园 DE-9IM 空间关系模型 与Boost Geometry Lib - SuperVan - 博客园简述 DE-9IM 是Dimensionally Extended 9-Intersection Model的缩写,它是Egenhofer在《point set topol…

BUU BRUTE 1 wp

BUU BRUTE 1 引子 burpsuite实战指南 尝试一下发现用户名和密码是分离的,手动输入常用用户名,发现为 admin,得到提示密码是四位数字。 之后用 bp Intruder 尝试爆破,设置 payload需要注意的是如果请求间隔太短会报 429 错误,fix 一下请求间隔时间或者设置自动控制 429 即…

LeetCode 3014[输入单词需要的最少按键次数I]

LeetCode 3014[输入单词需要的最少按键次数I]题目 链接 LeetCode 3014[输入单词需要的最少按键次数I] 详情实例 实例1实例2提示题解 思路 一圈下来8个字母,每个字母按1次 二圈下来16个字母,前8个字母每个按1次,后8个字母,每个按2次 三圈下来24个字母,前8个字母每个按1次,…

解压缩支持文件时出错:灾难性故障处理方式

电脑系统WIN10,在反复安装卸载文件后,再安装软件时出现, 解压缩支持文件时出错: 灾难性故障在解决之前,卸载软件出现报错提示。手动删除软件所在目录,打算重装,也是出现同样的错误提示。 解决方法: 在此电脑--C:\Program Files (x86)\InstallShield Installation Inform…

cmu15545-哈希表(Hash Table)

基本概念 哈希和树一样,是数据库系统中用于访问数据的方法。空间复杂度:$O(n)$ 时间复杂度:$O(1)~ O(n)$ 权衡:更大的哈希空间(碰撞减少),还是更少的哈希空间(碰撞处理)? 哈希函数CRC-64(1975)MurmurHash (2008)Google CityHash (2011)Facebook XXHash (2012) 【最常…

实验3 类和对象-基础编程2

实验任务1: Button.hpp,Window.hpp,task1.cpp,源码,运行测试结果如下#pragma once#include <iostream> #include <string>using std::string; using std::cout;// 按钮类 class Button { public:Button(const string &text);string get_label() const;voi…

【论文系列】DDIM ---DDPM上的优化

What DDIM是啥? DDIM(Denoising Diffusion Implicit Models) 是一种扩散模型的变体,旨在加速图像生成过程并保持生成质量。它是在DDPM(Denoising Diffusion Probabilistic Models)的基础上发展出来的,提供了一种更高效的去噪采样过程,减少了采样所需的步骤数量。 Why D…

解决zip解压之后中文乱码问题

1、打开windows 设置 语言和区域2、打开管理语言设置3、取消勾选这个Beta,然后重启即可