Hive-技术补充-ANTLR的真实语法世界

一、上下文

上一篇博客<Hive-技术补充-ANTLR语法编写>,我们了解了如何使用ANTLR语法来表达词法结构和语法结构,下面我们循循渐进的处理身边用过的一些文件或语言:

CSV、JSON、DOT、Cymbol、R 

二、解析CSV文件

有这样一份csv文件

vi data.csv

Details,Month,Amount
Mid Bonus,June,"$2,000"
,January,"""zipoo"""
Total Bonuses,"","$5,000"

可以看到标题行和内容行并无区别,我们需要写一个单独规则来匹配标题

vi CSV.g4

grammar CSV;
file : hdr row+;
hdr : row;
row : filed (',' filed)* '\r'?'\n' ;
filed : TEXT
        | STRING
        | 
        ;
TEXT : ~[,\n\r"]+ ;
STRING : '"'('""'|~'"')* '"' ;; //两个双引号是对双引号的转义

为了不混淆,我们引入一个名为hdr的新规则

下面我们来测试下

antlr4 CSV.g4

javac CSV*.java

grun CSV file -tokens data.csv

grun CSV file -tree data.csv

grun CSV file -gui data.csv

三、解析JSON

1、语法规则

JSON语法指明,一个JSON文件可以是一个对象,或者是一个由若干个值组成的数组。

从语法上看,这不过是一个选择模式,因此可以这样表达

json : object 
    | array 
    ;

对于object,JSON语法指明,一个对象是以一个 { 开始 且以 } 结束。每个值后面跟一个 :  键之间由 , 号分割,对象中的键必须是字符串

我们根据JSON语法指明的自然语言来编写下语法规则

object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;

 也可以优雅的写成这样

object 
    {}
    {members}
members : 
    pair
    pair , members
pair 
    string : value

members是之前我们没有使用过的规则,这是一种不使用(...)* 循环来表达序列模式的方式 

对于array,JSON语法指明,数组是一组值的有序集合,开始于 [ 结束于 ] 中间的值用 , 隔开

array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;

 但是中间的值可以是一个字符串、一个数字、一个布尔值、null、一个对象、或者一个数组,而且这些结构还可能发生嵌套

value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;

2、词法规则

字符串:

        一个由零个或多个Unicode字符组成的序列,由双引号包裹,其中的字符使用\转义 

        如:\" \\ \/ \b \f \n \r \t \u

        词法定义如下:

    STRING : '"' (ESC | ~["\\])* '"' ;
    fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
    fragment UNICODE : 'u' HEX HEX HEX HEX ;
    fragment HEX : [0-9a-fA-F] ;

        fragment 不是词法符号 而是声明一些可以被其他词法分析器规则使用的规则

        数字:

NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
        | '-'? INT EXP                 //1e10 -3e4
        | '-'? INT                     //-3 59
        ;
 

另外json需要额外处理空白字符 

WS : [ \r\t\n]+ -> skip ;  

3、测试

vi JSON.g4 

grammar JSON;
json : object 
    | array 
    ;
object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;
array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;
value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
fragment INT : '0' | [1-9] [0-9]* ;  //除0外的数字不允许以0开始
fragment EXP : [Ee] [+\-]? INT ; //\-是-的转义  因为[] 中 - 用于表达 “范围” 含义
WS : [ \r\t\n]+ -> skip ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
WS : [ \r\t\n]+ -> skip ;

antlr4 JSON.g4

javac JSON*.java

输入 [1,"\u0049",1.3e9]

grun JSON json -tokens

grun JSON json -tree

grun JSON json -gui

四、解析R语言

R是一门极富表现力的领域特定编程语言,专门用于描述和解决统计学问题。

vi t.R

addMe <- function(x,y) {return(x+y)}
addMe(x=1,2)
r <- 1:5

vi R.g4

grammar R;
prog:    ( expr_or_assign(';'|NL)
    |    NL
    )*
    EOF
    ;
expr_or_assign 
    : expr('<-'|'='|'<<-') expr_or_assign
    | expr
    ;
//Match both linux and win newLines
NL : '\r'?'\n' ;

expr : expr '[[' sublist ']' ']' //'[['源于R语言的yacc语法
    | expr '[' sublist ']'
    | expr ('::'|':::') expr
    | expr ('$'|'@') expr
    | expr '^'<assoc=right> expr
    | ('-'|'+') expr
    | expr ':' expr
    | expr USER_OP expr //任意被 % 包围的文本:'%' .* '%'
    | expr ('*'|'/') expr
    | expr ('+'|'-') expr
    | expr ('>'|'>='|'<'|'<='|'=='|'!=') expr
    | expr '!' expr
    | expr ('&'|'&&') expr
    | expr ('|'|'||') expr
    | '-' expr
    | expr '-' expr
    | expr ('->'|'->>'|':=') expr
    |'{' exprlist '}' //复合语句
    | 'if' '(' expr ')' expr 
    | 'if' '(' expr ')' expr 'else' expr
    | 'for' '(' ID 'in' expr ')' expr
    | 'while' '(' expr ')' expr
    | 'repeat' expr
    | '?' expr //获取expr的帮助信息,通常是字符串或者标识符
    | 'next'
    | 'break'
    ;
exprlist
    : expr_or_assign ((';' | NL) expr_or_assign?)*
    |
    ;
    
formlist
    : form (',' form)* ;
form
    : ID 
    | ID '=' expr 
    | '...'
    ;
sublist
    : sub (',' sub)* ;
sub 
    : expr 
    | ID '='
    | ID '=' expr
    | STRING '='
    | STRING '=' expr
    | 'NULL' '='
    | 'NULL' '=' expr
    | '...'
    |
    ;
ID  : '.' (LETTER|'_'|'.') (LETTER|DIGIT|'_'|'.')*
    | LETTER(LETTER|DIGIT|'_'|'.')*
    ;
fragment DIGIT : [0-9]; //匹配单个数字
fragment LETTER : [a-zA-Z] ;

antlr4 R.g4

javac R*.java

grun R prog -gui t.R

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/575543.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop面试重点

文章目录 1. Hadoop 常用端口号2.Hadoop特点3.Hadoop1.x、2.x、3.x区别 1. Hadoop 常用端口号 hadoop2.xhadoop3.x访问HDFS 端口500709870访问 MR 执行情况端口80888088历史服务器1988819888客户端访问集群端口90008020 2.Hadoop特点 高可靠&#xff1a;Hadoop底层维护多个数…

移动端开发思考:Uniapp的上位替代选择

文章目录 前言跨平台开发技术需求技术选型uniappFlutterMAUIAvalonia安卓原生 Flutter开发尝试Avalonia开发测试测试项目新建项目代码MainViewMainViewModel 发布/存档 MAUI实战&#xff0c;简单略过打包和Avalonia差不多 总结 前言 作为C# .NET程序员&#xff0c;我有一些移动…

【浅尝C++】使用模板实现泛型编程第一弹=>函数模板/类模板/模板匹配原则/函数模板原理

&#x1f3e0;专栏介绍&#xff1a;浅尝C专栏是用于记录C语法基础、STL及内存剖析等。 &#x1f6a9;一些备注&#xff1a;之前的文章有点杂乱&#xff0c;这里将前面的知识点重新组织了&#xff0c;避免了过多冗余的废话。 &#x1f3af;每日努力一点点&#xff0c;技术变化看…

MoonBit MeetUp回顾——张正、宗喆:编程语言在云原生与区块链领域的技术探索

宗喆和张正分别给我们带了 KCL 相关的最新进展&#xff0c;由蚂蚁集团开发的 Rust 编写的开源 DSL&#xff0c;目标是优化云原生策略配置和用户体验。它通过引入动态配置管理、配置校验和基础设施抽象等核心概念&#xff0c;解决开发者认知负担、配置膨胀和标准化工具缺乏的问题…

京东云0基础搭建帕鲁服务器_4核16G和8核32G幻兽帕鲁专用服务器

使用京东云服务器搭建幻兽帕鲁Palworld游戏联机服务器教程&#xff0c;非常简单&#xff0c;京东云推出幻兽帕鲁镜像系统&#xff0c;镜像直接选择幻兽帕鲁镜像即可一键自动部署&#xff0c;不需要手动操作&#xff0c;真正的新手0基础部署幻兽帕鲁&#xff0c;阿腾云atengyun.…

go的通信Channel

go的通道channel是用于协程之间数据通信的一种方式 一、channel的结构 go源码&#xff1a;GitHub - golang/go: The Go programming language src/runtime/chan.go type hchan struct {qcount uint // total data in the queue 队列中当前元素计数&#xff0c;…

IDEA一键备份MySQL数据库(mysqldump版)

问题 又到了搬MySQL数据库的时刻&#xff0c;这次我不想使用命令行备份&#xff0c;这次我想使用IDEA一键备份MySQL数据库。 解决 假设安装好mysqldump命令后&#xff0c;让IDEA使用mysqldump一键备份指定的数据库。具体IDEA配置如下&#xff1a; 这是IDEA上面的数据库到处…

typescript 实现RabbitMQ死信队列和延迟队列 订单10分钟未付归还库存

Manjaro安装RabbitMQ 安装 sudo pacman -S rabbitmq rabbitmqadmin启动管理模块 sudo rabbitmq-plugins enable rabbitmq_managementsudo rabbitmq-server管理界面 http://127.0.0.1:15672/ 默认用户名和密码都是guest。 要使用 rabbitmqctl 命令添加用户并分配权限&#xf…

云数据仓库Snowflake论文完整版解读

本文是对于Snowflake论文的一个完整版解读&#xff0c;对于从事大数据数据仓库开发&#xff0c;数据湖开发的读者来说&#xff0c;这是一篇必须要详细了解和阅读的内容&#xff0c;通过全文你会发现整个数据湖设计的起初原因以及从各个维度&#xff08;架构设计、存算分离、弹性…

使用Apache Flink实现MySQL数据读取和写入的完整指南

1. 导言&#xff1a; Apache Flink是一款功能强大的流式处理引擎&#xff0c;可用于实时处理大规模数据。本文将介绍如何使用Flink与MySQL数据库进行交互&#xff0c;以清洗股票数据为例。 2. 环境准备&#xff1a; 首先&#xff0c;确保已安装Apache Flink并配置好MySQL数据…

如何为企业策划一场XR虚拟直播?

活动年年办&#xff0c;都是老一套&#xff0c;想玩点新花样&#xff1f; 预算有限&#xff0c;但还是想把活动办的逼格高一点&#xff1f; 想通过活动&#xff0c;让更多的人知道自己企业的品牌&#xff1f; 随着AIGC技术的不断演变&#xff0c;企业活动的形式和内容也在不…

kprobe/kretprobe的介绍,原理图,运行情况,用户层代码+内核层代码+预编译代码(详细解释+语法介绍),修改.bpf.c入口处的函数

目录 kprobe/kretprobe 介绍 原理图 运行情况 代码解释 .bpf.c 源码 语法 / 函数接口 char LICENSE[] SEC("license") "Dual BSD/GPL" SEC do_unlinkat filename结构体 ​编辑 BPF_KPROBE bpf_get_current_pid_tgid(…