最近自己造了个数据库

11次阅读

共计 1209 个字符,预计需要花费 4 分钟才能阅读完成。

DuckServer

其实是标题党了,本质是给 DuckDB 做了个 server,支持 postgresql 的原生协议和 clickhouse 的 http 协议。

DuckDB 是个非常不错的嵌入式 OLAP 数据库,使用简单,SQL 支持多,和 pg 兼容性好,性能特别强(基本上是登顶)的存在),支持 update/delete,支持并发事务。但是 duckdb 本身是类似 sqlite 的嵌入式数据库,不能多进程读写(可以多进程只读或者单进程多线程读写),不能通过网络访问。所以套成 server 能够一定程度扩展使用范围,比如通过网络写入数据,收集日志、统计数据,对接 Grafana 或其他可视化工具之类。

起因是公司内用 clickhouse 的时候,遇到 clickhouse 的优化器简直是智障可能还不如 mysql,例如 select * from a,b where a.id=b.id and a.id=1000,clickhouse 会先把 a、b 表进行全量 hashjoin 再 filter,duckdb 优化器就聪明多了,会先 filter 再 join,快很多, 其实普通的查询 duckdb 也可能比 ch 更快。duckdb 还能方便读取 csv 等外部文件并智能探测表结构,非常方便如select * from 'data_*.csv'select * from 'https://test.com/data.csv'

目前主要的特性如下:

  • 支持通过 postgresql wire 协议和 clickhouse http 协议并发读写
  • 支持 pg 的 simple query 和 extend query
  • 支持 clickhouse select/insert format 语法和 TabSeparated/CSV/JSONEachRow 等常用格式
  • 支持 postgresql copy table from stdin 批量导入 csv
  • 简单测了 psql,jackc/pgx,postgresql-jdbc,clickhouse-jdbc,curl 可以用
  • 基本可以使用 DataGrip 当作 pg 和 ch 连接,不过元数据可能不完整,尝试补了一部分函数和视图,可以做到 80% 的效果

目前主要的问题:

  • 未实现 clickhouse 的 tcp 协议,所以部分客户端和 clickhouse-client 不能用
  • 目前未实现任何鉴权功能,且 duckdb 本身没有用户和权限系统,且 duckdb 可以执行 shell,所以需要注意安全,有空可能会实现 pg 的 SCRAM-SHA-256 认证和 ch 的 basic-auth
  • 有些数据类型还没支持,不过这个很容易实现
  • 有一些特殊的语句使用 postgresql extend query 模式可能有问题,比如 select $1; 然后 $1 为字符串,这是因为 duckdb 在 desceibe 语句时,未知返回类型会指定为 int,有些驱动如 pgx 依赖 desceibe 的返回类型,会报错。可以使用 pg 的显式类型转换来避开select $1::text;

话说这个应该符合国产信创吧

正文完
 0