从“零”开始设计中文编程语言——SQL领域演示

2021-10-08 13:00 https://my.oschina.net/u/4552012/blog/5272454 吴烜2020 次阅读条评论

通过逐步完善一个简单的中文编程语言语法并最后转换为 SQL 语句，演示一种快速搭建中文编程语言原型的方法。

达成效果是，如下的中文语句：

创建读者表，编号为整数，出生年为文本

转换生成 SQL 语句：

CREATE TABLE 读者 ( 编号 INTEGER, 出生年 TEXT )

文中代码在 Python 3.8 下运行通过，需安装 RPly 木兰定制版 0.8.0。

一、中文标识符

首先来识别一个标识符——“读者”。下面是完整代码。

from rply import 分词器母机, 语法分析器母机

分词母机 = 分词器母机()
分词母机.添了('标识符', r'读者')

分析器母机 = 语法分析器母机(['标识符'])

@分析器母机.语法规则("句 : 标识符")
def 句(片段):
    return 片段[0].getstr() # 第一个片段的内容

分词器 = 分词母机.产出()
分析器 = 分析器母机.产出()

print(分析器.按语法分词(分词器.分词('读者')))

运行此源码文件可见输出。

先简单看下源码，分词母机添加的一条词法规则：标识符可以是“读者”。分析器母机添加的一条语法规则：句子只包含一个标识符，而且解析后直接输出它的内容（在 “句(片段)”方法中返回）。

最后对“读者”这一字符串进行按语法分词，输出的就是“读者”。（输出还有一句“回退次数：0”，请暂时无视）

当然，标识符不止有“读者”，于是将词法改为如下正则表达式，允许多个中文字符：

分词母机.添了('标识符', r'[\u4e00-\u9fa5]+')

这样，即使末句改为“观众”，也可被识别。

二、创建读者表

从创建表格开始设计语法，添加些关键词。先来一个“表”，希望能解析“读者表”后输出表名“读者”。

添加对应词法规则：

分词母机.添了('表', '表')

记得将它加到语法分析母机的词表中（注：此文后面的部分不再复述此代码，忘加的话就会碰到 “KeyError: '表'” 这种报错）：

分析器母机 = 语法分析器母机(['表', '标识符'])

接着把语法规则改为：

@分析器母机.语法规则("句 : 标识符 表")

好了，现在对“读者表”进行解析，即末句改为：

print(分析器.按语法分词(分词器.分词('读者表')))

如期输出了“读者”。

同理添加“创建”，希望解析“创建读者表”后暂仍输出“读者”。照样添加词法规则（注：此文之后部分不再复述此代码）：

分词母机.添了('创建', '创建')

改语法规则：

句 : 创建 标识符 表

好，现在解析“创建读者表”，但为何输出“创建”了呢？

细看一下这段：

@分析器母机.语法规则("句 : 创建 标识符 表")
def 句(片段):
    return 片段[0].getstr()

修改语法规则后，现在一“句”中有三个片段，“片段[0]”现在对应的是“创建”，标识符应该是第二个片段，即“片段[1]”。修改之后，解析“创建读者表”就如期输出“读者”。

三、单列

创建表格时，可以对列进行声明，比如：“创建读者表，出生年为整数”。先支持一列。

添加“为”、“整数”两个关键词，并添加中文逗号：

分词母机.添了('逗号', '，')

语法呢？“创建读者表，出生年为整数”的第一部分是表声明，后面是逗号，以及列声明。那么就加这条语法规则：

建表 : 表声明 逗号 列声明

表声明的规则与之前相同：

表声明 : 创建 标识符 表

列声明的语法就是：

列声明 : 标识符 为 整数

与表声明类似，“片段[0].getstr()”就可从列声明中获得列名。

需注意的是，在建表方法中，片段[0] 取得的是表声明的输出值，即标识符名，这里不需再用 getstr()。另可用格式化字符串简化代码如下：

def 建表(片段):
    return f"{片段[0]}：{片段[2]}"

解析“创建读者表，出生年为整数”后输出：“读者：出生年”

四、多列

表格当然可以有多列。比如：“创建读者表，编号为整数，出生年为整数”。

原本在表声明后的单一列声明，现在变为了对各列的声明：

建表 : 表声明 逗号 各列声明

如何描述各列声明的语法规则呢？分情况来看，如果只包含一个列声明，就这样：

各列声明 : 列声明

如果包含更多呢？可以这样描述，在一个“各列声明”后面再加上逗号和一个“列声明”，有点递归的意思：

各列声明 : 各列声明 逗号 列声明

那么如何区分处理这两种情况？看这段，各列声明的两种规则放在一起，用一个方法处理：

@分析器母机.语法规则("各列声明 : 列声明")
@分析器母机.语法规则("各列声明 : 各列声明 逗号 列声明")
def 各列声明(片段):
    return f"{片段[0]}" if len(片段) == 1 else f"{片段[0]}，{片段[2]}"

这里通过判断片段的个数来区分，还有其他方法比如判断某词的类型。

至此解析“创建读者表，编号为整数，出生年为整数”后输出：“读者：编号，出生年”

五、多种数据类型

除了整数，还可以有其他的列类型，比如文本。这也方便，与“整数”类似，添加“文本”一词后，添加如下语法：

列类型 : 整数 | 文本

这与上面的“各列声明”分两行效果相同，是同一语法元素的多种并列规则。

再把原本的列声明改为：

列声明 : 标识符 为 列类型

列声明的输出加上列类型后，解析“创建读者表，编号为整数，出生年为文本”后输出：“读者：编号-整数，出生年-文本”

六、转换为SQL

至此，各语法元素看起来解析无误，那么各语法规则已定，这部分仅对处理方法的返回值作了修改。

举几个例子，列类型应该返回 INTEGER 或者 TEXT：

return "INTEGER" if 片段[0].getstr()=="整数" else "TEXT"

表声明部分：

return f"CREATE TABLE {片段[1].getstr()}"

建表时将各列声明置于 () 中：

return f"{片段[0]} ( {片段[2]} )"

另几处就请自行尝试吧。

完整源码

此文的完整代码约四十行，开源在此。如想继续完善创建表、记录以及其他查询、删除等语法，此测试用例供参考。如有任何问题欢迎在源码库反馈。

注：本文中语言的设计是在搭建原型之前就有了草稿，见此楼。此设计尚未经过实践检验，欢迎指摘。

0人

感动
0人

路过
0人

高兴
0人

难过
0人

搞笑
0人

无聊
0人

愤怒
0人

同情

上一条： ❤️‍如何使用pg_chameleon迁移MySQL数据库至openGauss❤️‍ 2021-10-08
下一条： TDSQL交易型分布式数据库背景分析 2021-10-08

数据库

专题

HarmonyOS

OpenHarmony是开放原子开源基金会（OpenAtom Foundation）旗下开源... [详细]

友情链接

粤ICP备2021091832号