4. 使用sql查询excel内容

news/2025/1/22 8:28:09/文章来源:https://www.cnblogs.com/ludangxin/p/18684137

1. 简介

我们在前面的文章中提到了calcite支持csv和json文件的数据源适配, 其实就是将文件解析成表然后以文件夹为schema, 然后将生成的schema注册到RootSehema(RootSchema是所有数据源schema的parent,多个不同数据源schema可以挂在同一个RootSchema下)下, 最终使用calcite的特性进行sql的解析查询返回.

但其实我们的数据文件一般使用excel进行存储,流转, 但很可惜, calcite本身没有excel的适配器, 但其实我们可以模仿calcite-file, 自己搞一个calcite-file-excel, 也可以熟悉calcite的工作原理.

2. 实现思路

因为excel有sheet的概念, 所以可以将一个excel解析成schema, 每个sheet解析成table, 实现步骤如下:

  1. 实现SchemaFactory重写create方法: schema工厂 用于创建schema
  2. 继承AbstractSchema: schema描述类 用于解析excel, 创建table(解析sheet)
  3. 继承AbstractTable, ScannableTable: table描述类 提供字段信息和数据内容等(解析sheet data)

3. Excel样例

excel有两个sheet页, 分别是user_inforole_info如下:


ok, 万事具备.

4. Maven

<dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version>
</dependency><dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>5.2.3</version>
</dependency><dependency><groupId>org.apache.calcite</groupId><artifactId>calcite-core</artifactId><version>1.37.0</version>
</dependency>

5. 核心代码

5.1 SchemaFactory

package com.ldx.calcite.excel;import com.google.common.collect.Lists;
import org.apache.calcite.schema.Schema;
import org.apache.calcite.schema.SchemaFactory;
import org.apache.calcite.schema.SchemaPlus;
import org.apache.commons.lang3.ObjectUtils;
import org.apache.commons.lang3.StringUtils;import java.io.File;
import java.util.List;
import java.util.Map;/*** schema factory*/
public class ExcelSchemaFactory implements SchemaFactory {public final static ExcelSchemaFactory INSTANCE = new ExcelSchemaFactory();private ExcelSchemaFactory(){}@Overridepublic Schema create(SchemaPlus parentSchema, String name, Map<String, Object> operand) {final Object filePath = operand.get("filePath");if (ObjectUtils.isEmpty(filePath)) {throw new NullPointerException("can not find excel file");}return this.create(filePath.toString());}public Schema create(String excelFilePath) {if (StringUtils.isBlank(excelFilePath)) {throw new NullPointerException("can not find excel file");}return this.create(new File(excelFilePath));}public Schema create(File excelFile) {if (ObjectUtils.isEmpty(excelFile) || !excelFile.exists()) {throw new NullPointerException("can not find excel file");}if (!excelFile.isFile() || !isExcelFile(excelFile)) {throw new RuntimeException("can not find excel file: " + excelFile.getAbsolutePath());}return new ExcelSchema(excelFile);}protected List<String> supportedFileSuffix() {return Lists.newArrayList("xls", "xlsx");}private boolean isExcelFile(File excelFile) {if (ObjectUtils.isEmpty(excelFile)) {return false;}final String name = excelFile.getName();return StringUtils.endsWithAny(name, this.supportedFileSuffix().toArray(new String[0]));}
}

schema中有多个重载的create方法用于方便的创建schema, 最终将excel file 交给ExcelSchema创建一个schema对象

5.2 Schema

package com.ldx.calcite.excel;import org.apache.calcite.schema.Table;
import org.apache.calcite.schema.impl.AbstractSchema;
import org.apache.commons.lang3.ObjectUtils;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.ss.usermodel.WorkbookFactory;
import org.testng.collections.Maps;import java.io.File;
import java.util.Iterator;
import java.util.Map;/*** schema*/
public class ExcelSchema extends AbstractSchema {private final File excelFile;private Map<String, Table> tableMap;public ExcelSchema(File excelFile) {this.excelFile = excelFile;}@Overrideprotected Map<String, Table> getTableMap() {if (ObjectUtils.isEmpty(tableMap)) {tableMap = createTableMap();}return tableMap;}private Map<String, Table> createTableMap() {final Map<String, Table> result = Maps.newHashMap();try (Workbook workbook = WorkbookFactory.create(excelFile)) {final Iterator<Sheet> sheetIterator = workbook.sheetIterator();while (sheetIterator.hasNext()) {final Sheet sheet = sheetIterator.next();final ExcelScannableTable excelScannableTable = new ExcelScannableTable(sheet, null);result.put(sheet.getSheetName(), excelScannableTable);}}catch (Exception ignored) {}return result;}
}

schema类读取Excel file, 并循环读取sheet, 将每个sheet解析成ExcelScannableTable并存储

5.3 Table

package com.ldx.calcite.excel;import com.google.common.collect.Lists;
import com.ldx.calcite.excel.enums.JavaFileTypeEnum;
import org.apache.calcite.DataContext;
import org.apache.calcite.adapter.java.JavaTypeFactory;
import org.apache.calcite.linq4j.Enumerable;
import org.apache.calcite.linq4j.Linq4j;
import org.apache.calcite.rel.type.RelDataType;
import org.apache.calcite.rel.type.RelDataTypeFactory;
import org.apache.calcite.rel.type.RelProtoDataType;
import org.apache.calcite.schema.ScannableTable;
import org.apache.calcite.schema.impl.AbstractTable;
import org.apache.calcite.sql.type.SqlTypeName;
import org.apache.calcite.util.Pair;
import org.apache.commons.lang3.ObjectUtils;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.checkerframework.checker.nullness.qual.Nullable;import java.util.List;/*** table*/
public class ExcelScannableTable extends AbstractTable implements ScannableTable {private final RelProtoDataType protoRowType;private final Sheet sheet;private RelDataType rowType;private List<JavaFileTypeEnum> fieldTypes;private List<Object[]> rowDataList;public ExcelScannableTable(Sheet sheet, RelProtoDataType protoRowType) {this.protoRowType = protoRowType;this.sheet = sheet;}@Overridepublic Enumerable<@Nullable Object[]> scan(DataContext root) {JavaTypeFactory typeFactory = root.getTypeFactory();final List<JavaFileTypeEnum> fieldTypes = this.getFieldTypes(typeFactory);if (rowDataList == null) {rowDataList = readExcelData(sheet, fieldTypes);}return Linq4j.asEnumerable(rowDataList);}@Overridepublic RelDataType getRowType(RelDataTypeFactory typeFactory) {if (ObjectUtils.isNotEmpty(protoRowType)) {return protoRowType.apply(typeFactory);}if (ObjectUtils.isEmpty(rowType)) {rowType = deduceRowType((JavaTypeFactory) typeFactory, sheet, null);}return rowType;}public List<JavaFileTypeEnum> getFieldTypes(RelDataTypeFactory typeFactory) {if (fieldTypes == null) {fieldTypes = Lists.newArrayList();deduceRowType((JavaTypeFactory) typeFactory, sheet, fieldTypes);}return fieldTypes;}private List<Object[]> readExcelData(Sheet sheet, List<JavaFileTypeEnum> fieldTypes) {List<Object[]> rowDataList = Lists.newArrayList();for (int rowIndex = 1; rowIndex <= sheet.getLastRowNum(); rowIndex++) {Row row = sheet.getRow(rowIndex);Object[] rowData = new Object[fieldTypes.size()];for (int i = 0; i < row.getLastCellNum(); i++) {final JavaFileTypeEnum javaFileTypeEnum = fieldTypes.get(i);Cell cell = row.getCell(i, Row.MissingCellPolicy.CREATE_NULL_AS_BLANK);final Object cellValue = javaFileTypeEnum.getCellValue(cell);rowData[i] = cellValue;}rowDataList.add(rowData);}return rowDataList;}public static RelDataType deduceRowType(JavaTypeFactory typeFactory, Sheet sheet, List<JavaFileTypeEnum> fieldTypes) {final List<String> names = Lists.newArrayList();final List<RelDataType> types = Lists.newArrayList();if (sheet != null) {Row headerRow = sheet.getRow(0);if (headerRow != null) {for (int i = 0; i < headerRow.getLastCellNum(); i++) {Cell cell = headerRow.getCell(i, Row.MissingCellPolicy.CREATE_NULL_AS_BLANK);String[] columnInfo = cell.getStringCellValue().split(":");String columnName = columnInfo[0].trim();String columnType = null;if (columnInfo.length == 2) {columnType = columnInfo[1].trim();}final JavaFileTypeEnum javaFileType = JavaFileTypeEnum.of(columnType).orElse(JavaFileTypeEnum.UNKNOWN);final RelDataType sqlType = typeFactory.createSqlType(javaFileType.getSqlTypeName());names.add(columnName);types.add(sqlType);if (fieldTypes != null) {fieldTypes.add(javaFileType);}}}}if (names.isEmpty()) {names.add("line");types.add(typeFactory.createSqlType(SqlTypeName.VARCHAR));}return typeFactory.createStructType(Pair.zip(names, types));}
}

table类中其中有两个比较关键的方法

scan: 扫描表内容, 我们这里将sheet页面的数据内容解析存储最后交给calcite

getRowType: 获取字段信息, 我们这里默认使用第一条记录作为表头(row[0]) 并解析为字段信息, 字段规则跟csv一样 name:string, 冒号前面的是字段key, 冒号后面的是字段类型, 如果未指定字段类型, 则解析为UNKNOWN, 后续JavaFileTypeEnum会进行类型推断, 最终在结果处理时calcite也会进行推断

deduceRowType: 推断字段类型, 方法中使用JavaFileTypeEnum枚举类对java type & sql type & 字段值转化处理方法 进行管理

5.4 ColumnTypeEnum

package com.ldx.calcite.excel.enums;import lombok.Getter;
import lombok.extern.slf4j.Slf4j;
import org.apache.calcite.avatica.util.DateTimeUtils;
import org.apache.calcite.sql.type.SqlTypeName;
import org.apache.commons.lang3.ObjectUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.commons.lang3.time.FastDateFormat;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.DateUtil;
import org.apache.poi.ss.util.CellUtil;import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.Optional;
import java.util.TimeZone;
import java.util.function.Function;/*** type converter*/
@Slf4j
@Getter
public enum JavaFileTypeEnum {STRING("string", SqlTypeName.VARCHAR, Cell::getStringCellValue),BOOLEAN("boolean", SqlTypeName.BOOLEAN, Cell::getBooleanCellValue),BYTE("byte", SqlTypeName.TINYINT, Cell::getStringCellValue),CHAR("char", SqlTypeName.CHAR, Cell::getStringCellValue),SHORT("short", SqlTypeName.SMALLINT, Cell::getNumericCellValue),INT("int", SqlTypeName.INTEGER, cell -> (Double.valueOf(cell.getNumericCellValue()).intValue())),LONG("long", SqlTypeName.BIGINT, cell -> (Double.valueOf(cell.getNumericCellValue()).longValue())),FLOAT("float", SqlTypeName.REAL, Cell::getNumericCellValue),DOUBLE("double", SqlTypeName.DOUBLE, Cell::getNumericCellValue),DATE("date", SqlTypeName.DATE, getValueWithDate()),TIMESTAMP("timestamp", SqlTypeName.TIMESTAMP, getValueWithTimestamp()),TIME("time", SqlTypeName.TIME, getValueWithTime()),UNKNOWN("unknown", SqlTypeName.UNKNOWN, getValueWithUnknown()),;// cell typeprivate final String typeName;// sql typeprivate final SqlTypeName sqlTypeName;// value convert funcprivate final Function<Cell, Object> cellValueFunc;private static final FastDateFormat TIME_FORMAT_DATE;private static final FastDateFormat TIME_FORMAT_TIME;private static final FastDateFormat TIME_FORMAT_TIMESTAMP;static {final TimeZone gmt = TimeZone.getTimeZone("GMT");TIME_FORMAT_DATE = FastDateFormat.getInstance("yyyy-MM-dd", gmt);TIME_FORMAT_TIME = FastDateFormat.getInstance("HH:mm:ss", gmt);TIME_FORMAT_TIMESTAMP = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss", gmt);}JavaFileTypeEnum(String typeName, SqlTypeName sqlTypeName, Function<Cell, Object> cellValueFunc) {this.typeName = typeName;this.sqlTypeName = sqlTypeName;this.cellValueFunc = cellValueFunc;}public static Optional<JavaFileTypeEnum> of(String typeName) {return Arrays.stream(values()).filter(type -> StringUtils.equalsIgnoreCase(typeName, type.getTypeName())).findFirst();}public static SqlTypeName findSqlTypeName(String typeName) {final Optional<JavaFileTypeEnum> javaFileTypeOptional = of(typeName);if (javaFileTypeOptional.isPresent()) {return javaFileTypeOptional.get().getSqlTypeName();}return SqlTypeName.UNKNOWN;}public Object getCellValue(Cell cell) {return cellValueFunc.apply(cell);}public static Function<Cell, Object> getValueWithUnknown() {return cell -> {if (ObjectUtils.isEmpty(cell)) {return null;}switch (cell.getCellType()) {case STRING:return cell.getStringCellValue();case NUMERIC:if (DateUtil.isCellDateFormatted(cell)) {// 如果是日期类型,返回日期对象return cell.getDateCellValue();}else {// 否则返回数值return cell.getNumericCellValue();}case BOOLEAN:return cell.getBooleanCellValue();case FORMULA:// 对于公式单元格,先计算公式结果,再获取其值try {return cell.getNumericCellValue();}catch (Exception e) {try {return cell.getStringCellValue();}catch (Exception ex) {log.error("parse unknown data error, cellRowIndex:{}, cellColumnIndex:{}", cell.getRowIndex(), cell.getColumnIndex(), e);return null;}}case BLANK:return "";default:return null;}};}public static Function<Cell, Object> getValueWithDate() {return cell -> {Date date = cell.getDateCellValue();if(ObjectUtils.isEmpty(date)) {return null;}try {final String formated = new SimpleDateFormat("yyyy-MM-dd").format(date);Date newDate = TIME_FORMAT_DATE.parse(formated);return (int) (newDate.getTime() / DateTimeUtils.MILLIS_PER_DAY);}catch (ParseException e) {log.error("parse date error, date:{}", date, e);}return null;};}public static Function<Cell, Object> getValueWithTimestamp() {return cell -> {Date date = cell.getDateCellValue();if(ObjectUtils.isEmpty(date)) {return null;}try {final String formated = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(date);Date newDate = TIME_FORMAT_TIMESTAMP.parse(formated);return (int) newDate.getTime();}catch (ParseException e) {log.error("parse timestamp error, date:{}", date, e);}return null;};}public static Function<Cell, Object> getValueWithTime() {return cell -> {Date date = cell.getDateCellValue();if(ObjectUtils.isEmpty(date)) {return null;}try {final String formated = new SimpleDateFormat("HH:mm:ss").format(date);Date newDate = TIME_FORMAT_TIME.parse(formated);return newDate.getTime();}catch (ParseException e) {log.error("parse time error, date:{}", date, e);}return null;};}
}

该枚举类主要管理了java type& sql type & cell value convert func, 方便统一管理类型映射及单元格内容提取时的转换方法(这里借用了java8 function函数特性)

注: 这里的日期转换只能这样写, 即使用GMT的时区(抄的calcite-file), 要不然输出的日期时间一直有时差...

6. 测试查询

package com.ldx.calcite;import com.ldx.calcite.excel.ExcelSchemaFactory;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;
import org.apache.calcite.config.CalciteConnectionProperty;
import org.apache.calcite.jdbc.CalciteConnection;
import org.apache.calcite.schema.Schema;
import org.apache.calcite.schema.SchemaPlus;
import org.apache.calcite.util.Sources;
import org.junit.jupiter.api.AfterAll;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;
import org.testng.collections.Maps;import java.net.URL;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.ResultSetMetaData;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Map;
import java.util.Properties;@Slf4j
public class CalciteExcelTest {private static Connection connection;private static SchemaPlus rootSchema;private static CalciteConnection calciteConnection;@BeforeAll@SneakyThrowspublic static void beforeAll() {Properties info = new Properties();// 不区分sql大小写info.setProperty(CalciteConnectionProperty.CASE_SENSITIVE.camelName(), "false");// 创建Calcite连接connection = DriverManager.getConnection("jdbc:calcite:", info);calciteConnection = connection.unwrap(CalciteConnection.class);// 构建RootSchema,在Calcite中,RootSchema是所有数据源schema的parent,多个不同数据源schema可以挂在同一个RootSchema下rootSchema = calciteConnection.getRootSchema();}@Test@SneakyThrowspublic void test_execute_query() {final Schema schema = ExcelSchemaFactory.INSTANCE.create(resourcePath("file/test.xlsx"));rootSchema.add("test", schema);// 设置默认的schemacalciteConnection.setSchema("test");final Statement statement = calciteConnection.createStatement();ResultSet resultSet = statement.executeQuery("SELECT * FROM user_info");printResultSet(resultSet);System.out.println("=========");ResultSet resultSet2 = statement.executeQuery("SELECT * FROM test.user_info where id > 110 and birthday > '2003-01-01'");printResultSet(resultSet2);System.out.println("=========");ResultSet resultSet3 = statement.executeQuery("SELECT * FROM test.user_info ui inner join  test.role_info ri on ui.role_id = ri.id");printResultSet(resultSet3);}@AfterAll@SneakyThrowspublic static void closeResource() {connection.close();}private static String resourcePath(String path) {final URL url = CalciteExcelTest.class.getResource("/" + path);return Sources.of(url).file().getAbsolutePath();}public static void printResultSet(ResultSet resultSet) throws SQLException {// 获取 ResultSet 元数据ResultSetMetaData metaData = resultSet.getMetaData();// 获取列数int columnCount = metaData.getColumnCount();log.info("Number of columns: {}",columnCount);// 遍历 ResultSet 并打印结果while (resultSet.next()) {final Map<String, String> item = Maps.newHashMap();// 遍历每一列并打印for (int i = 1; i <= columnCount; i++) {String columnName = metaData.getColumnName(i);String columnValue = resultSet.getString(i);item.put(columnName, columnValue);}log.info(item.toString());}}
}

测试结果如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873101.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端开发】HTML、CSS快速入门

HTML介绍 HTML 是用来描述网页的一种语言,即:超文本标记语言:(HyperText Markup Language) 超文本标记语言(HTML)是构建和呈现网页内容的标准标记语言。 HTML起源与发展 HTML的最初版本非常简单,只能创建静态文档,内容无法交互。随着时间的推移,HTML逐渐融入更多的技术…

VMware VeloCloud SD-WAN 6.2 发布 - 领先的 SD-WAN 解决方案

VMware VeloCloud SD-WAN 6.2 发布 - 领先的 SD-WAN 解决方案VMware VeloCloud SD-WAN 6.2 发布 - 领先的 SD-WAN 解决方案 VMware VeloCloud SD-WAN, Software-Defined WAN 请访问原文链接:https://sysin.org/blog/vmware-sd-wan-6/ 查看最新版。原创作品,转载请保留出处。 …

VSCode设置python文件模板,自动添加文件头注释

1.背景 每次写python代码的时候,都要手动在文件开头加上python解释器路径,文件编码,作者,日期等一堆信息,感觉非常麻烦。作为一个程序员,要学会偷懒。2.环境信息 Windows10 64位操作系统 VSCode 1.96.4 3.如何设置代码模板 避免每次新建项目文件时添加注释文件名、作者、…

解密prompt系列47. O1 Long Thought的一些特征分析

O1之后,思维链的一个简单但之前都没进入视野的特征引起了大家的注意,那就是思考的长度对推理效果的影响,更准确来说是通过哪些思考步骤来有效延长思维长度对推理的影响。这一章我们着重讨论思考长度之前我们花很多章讨论过思维链,包括思维链的组织结构,例如Self-Consisten…

深入解析 Spring AI 系列:解析返回参数处理

关于普通聊天对接,目前已经完成了大部分讲解,剩下的就是最后一步,今天我们将重点讨论在返回参数时需要注意的几个关键点。为了更好地说明这些注意事项,我们仍然以OpenAI接口为例,逐步讲解相关的代码实现,帮助大家更清楚地理解这一部分的细节。 接下来,我们就直接看一下这…

演练 dotnet 使用 GeneratedComInterface 源代码生成方式调用 COM 接口

本文将提供使用源代码生成方式的 COM 调用。本文例子基于 dotnet 9 框架官方文档:ComWrappers source generation - .NET Microsoft Learn Using the ComWrappers API - .NET Microsoft Learn本文将演练在 WPF 应用里面手动写 COM 调用的方式,调用打开文件对话框。访问 COM 的…

演练 dotnet 使用 函数指针 调用 COM 接口

本文将和大家演练如何在 dotnet 里面使用 函数指针 调用 COM 接口,整个过程没有 COM 封装的存在,其性能非常高,调用非常直接和底层,无中间商赚差价官方文档: 函数指针 - C# feature specifications Microsoft Learn ComWrappers source generation - .NET Microsoft Learn…

读量子霸权11基因剪辑

读量子霸权11基因剪辑1. 癌症 1.1. 癌症是美国人口死亡病因中排名第二的“杀手”​,仅次于心血管疾病1.1.1. 虽然手术、化学治疗和放射治疗等医学手段在对抗癌症方面取得了越来越多的进展,但因癌症而死亡的人数仍然居高不下1.2. 人类与癌症之间的战争尚存在一个根本问题没有得…

Wi-Fi 8:开创连接的未来

Wi-Fi 8:开创连接的未来 下一代 Wi-Fi 8。主要见解包括:多 AP 协调 进一步优化频谱效率 扩展范围 能效改进然而,Wi-Fi 8 优先考虑无线通信的一个方面,这个方面变得越来越重要:可靠性。 Wi-Fi 8 的 8021.1 亿则专注于“超高可靠性”。 本白皮书讨论了 Wi-Fi 8 的新功能、蜂…

请说说什么是分区响应图?

分区响应图在前端开发中是一种特殊的技术实现,它允许开发者将一张图片划分为多个区域,并为每个区域指定不同的超链接或响应行为。当用户点击图片的不同区域时,会根据该区域的设置触发相应的操作,比如跳转到不同的网页或执行特定的JavaScript函数。 以下是关于分区响应图的详…

用于非均匀二次谐波产生的光子集成电路

用于非均匀二次谐波产生的光子集成电路 摘要:GaAs基激光器与倍频波导的异质集成为在所谓的绿隙中实现可扩展相干源提供了一条清晰的途径,但到目前为止,倍频系统一直依赖于单独制造的激光器来提供足够的功率用于二次谐波产生。在这项工作中,提出了一种光子集成电路(PIC),…

迈向基于离子的大规模集成电路:离子电子元件的电路级设计、仿真和集成

迈向基于离子的大规模集成电路:离子电子元件的电路级设计、仿真和集成 离子电子学将离子作为电荷载体与类电子操作相结合,实现了独特的信息处理、化学调节和增强的生物可整合性。标准仿真工具在有效模拟集成离子电子元件的行为方面遇到了困难,这突显了对专门设计和仿真方法的…