找回密码
 加入怎通
查看: 213|回复: 3

原创 SelectDB肖康:Apache Doris在日志存储与分析场景的实践(apache日志文件)

[复制链接]
我来看看 发表于 2023-03-23 08:22:15 | 显示全部楼层 |阅读模式
5 |; G! e+ V7 Z

原标题:SelectDB肖康:Apache Doris在日志存储与分析场景的实践

" `' k. ~/ W' d

本文根据肖康在【第十三届中国数据库技术大会(DTCC2022)】线上演讲内容整理而成基于Apache Doris大数据实时MPP数据库,构建新一代云原生实时数仓,充分发挥Apache Doris高性能、易用MPP引擎能力和云计算极致弹性,解决海量日志等半结构化、非结构化数据存储成本高、分析困难的痛点。

: w- e D5 R- w: H% I4 N

Apache Doris基本介绍Apache Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

3 U; K- J* D( a% t4 |

基于此,Apache Doris在多维报表、即席查询、用户画像、实时大屏、日志分析、数据湖查询加速等诸多业务领域都能得到很好应用Apache Doris于2022年6月成功从Apache孵化器毕业,正式成为Apache顶级项目,截止目前Apache Doris社区已经聚集了来自不同行业百余家企业的超400位贡献者,每月活跃贡献者人数也接近100位。

& ?; g4 \9 }0 ]9 \7 n' J. h& Z

Apache Doris如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前,Apache Doris已经在全球范围内1000家企业的生产环境中得到应用在中国市值或估值排行前50的互联网公司中,有超过80%长期使用Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、快手、网易、微博、新浪、360等,同时在一些传统行业如金融、能源、制造、电信等领域也有着丰富的应用。

& S+ }7 g) @9 I x

Apache Doris的定位是极速易用实时统一的多模分析型数据库不同类型的数据源经过ETL,让数据进入Doris,可以进行面向企业内部或外部的BI分析、日志分析等,还可以直接对存储在湖仓中的数据进行查询。

I3 l5 g8 u0 t

用户可以通过 Apache Doris 构建多种不同场景的数据分析服务、同时支撑在线与离线的业务负载、高吞吐的交互式分析与高并发的点查询;通过一套架构实现湖和仓的统一、在数据湖和多种异构存储之上提供无缝且极速的分析服务;也可通过对日志/文本等半结构化乃至非结构化的多模数据进行统一管理和分析、来满足更多样化数据分析的需求。

' N4 {% j- e# D1 u4 h# t1 P* \

Apache Doris在易用性方面有很大特色,其跟MySQL协议高度兼容,MySQL应用可以直接对接典型日志存储与分析场景在日志存储与分析场景,很多数据如用户程序、审计日志等数据都需要实时写入进行统一存储与实时分析,日志对于保障系统、业务稳定性至关重要,常用于故障排查、监控告警等。

, v( J; K0 a' q, E d

日志存储与分析场景具有三大特点:1, 数据写入吞吐量大,还要实时可见;2, 数据存储量大,还要成本低;3,交互式查询速度快,且需要支持文本检索、时间排序目前典型方案有两大类:一类是以ES为代表的倒排索引检索架构,另一类是以Loki为代表的元数据索引/无索引架构。

: `0 I( e# w" i' \

具体分析如下:ES在实时写入吞吐方面较弱,在存储规模方面ES一般采用存算一体架构,数据存在本地,扩展规模有一定限制,存储成本较高,但ES在交互式查询性能上表现更好更快;而Loki在实时写入吞吐方面更高,存储规模更大,存储成本更低,但在交互式查询性能上表现更慢。

0 R# C7 ]. |. k1 S( e- ?% q* |

简单对比总结:ES为代表的索引架构优化查询性能,牺牲写入性能和存储空间;Loki为代表的无索引架构优化写入性能和存储空间,牺牲查询性能那么问题来了:优化这个牺牲那个,是不是头痛医头脚痛医脚了?倒排索引是0-1选择吗,它是问题的全部吗?最为回顾,向量化计算成熟前,是不是都认为OLAP加速要靠预计算,而后来向量化加速是不是打破了固有认知? 在日志存储分析领域,我们也找到了突破点。

8 D' b' U. [, g( Z

日志场景解决方案作为 ApacheDoris的商业化公司,SelectDB团队基于 ApacheDoris内核开发了云原生版本 SelectDBCloud,并推出了面向日志分析场景的解决方案基于以上问题,日志场景解决方案的想法基于Doris高性能向量化引擎底座,再加上SelectDB存算分离架构、轻量级倒排索引和时序数据管理达到更好的效果。

8 ]4 P2 L7 F, ^, i# m; o

举例:在上游写入方面,我们配置Logstash使用内置的http output plugin将数据写入SelectDB。

' K# d5 \9 \' @2 P7 m/ D

在下游查询方面,可观测性:Grafana中使用内置MySQL数据源,导入已有模板配置可视化日志看板、检索界面;商业智能:Superset等BI工具通过MySQL协议,即可开箱即用访问SelectDB进行可视化BI分析。

# R5 p- }% l7 Z2 s4 X

性能测试效果如下:

0 g+ U! B2 ?' f4 i: y

测试说明:1,测试环境是3台16c 64g云主机组成的集群2,测试数据和测试case来源于ES官方性能benchmark中http_logs,数据总量32GB,2.47亿行3,查询时间是ES官方性能benchmark中的11个query,每个串行执行100次的总时间

; _$ [7 {3 R+ L" Q

4,写入速度越高越好,磁盘空间越低越好,查询时间越低越好性能测试结果显示:在写入速度方面,SelectDB达到ES的4.2倍,存储空间只需要ES的五分之一,查询性能是ES的2倍关键技术解析关键技术1:MPP查询与向量化引擎。

% l* ^3 L; y! `6 e" @7 k

在向量化方面,我们把行式变成了列式内存布局,向量化计算框架大幅减少虚函数调用,大幅提升cache命中率。高效利用SIMD指令。在宽表聚合场景下性能提升5-10倍。

) W4 l9 y1 b& @3 ?

针对MPP查询引擎,我们采用分布式MPP的查询框架,节点间和节点内都并行执行,大幅提升效率,支持大表的shuffle分布式join关键技术2:多重算子优化与查询优化器在算子优化方面,采用自适应两阶段聚合算子优化,JOIN/TOPN runtime filter优化为连接列生成filter推到左表,支持in/min/max/bf等filter,filter自动穿透到最底层,SSB部分查询依赖RF有2-10倍提升。

- l: x# W7 |6 \4 h4 {% i: Q3 B

在查询优化器方面,新一代智能优化器(Nereids)支持CBO和RBO,RBO常见规则常量折叠、子查询改写、谓词下推等,CBO支持Join Reorder。

1 @6 D, X+ ~4 h1 I6 k1 I+ {) a

值得一提的是,在性能方面我们取得佳绩,多项指标登顶ClickBenck,在近半数SQL在所有产品中更优,查询总耗时远低于行业竞品关键技术3:轻量级倒排索引支持快速检索,支持文本检索、普通数值/日期查找,支持多条件AND OR组合;扩展数据库引擎,内置倒排索引,避免了**式的跨系统通信、冗余存储。

" i, [* w" O4 P" e1 y

为日志场景精简优化索引结构,简化norm、score等,采用bitmap等优化倒排表;列式存储+ ZSTD高效压缩算法,本身列式存储压缩率高,zstd比gzip快5倍且压缩率更高,数据和索引都进行压缩;采用C++和向量化的高性能实现,单核吞吐>20MB/s vs ES 5MB/s。

; x- I2 q+ [4 D0 f' ]" t; U( b# f4 R

关键技术4:存算分离云原生架构在云服务方面的重要关键点包括,存算分离,以对象存储为主存储;共享缓存,写入即缓存提高性能;弹性扩展,利用云的弹性加速查询;负载隔离,避免业务互相影响。

; T5 P4 ?$ D* o R+ A

这样做的好处是将存储成本大幅降低,我们认为,存储成本=存储空间*单位成本在存储空间方面,我们将原始数据行存变成了列式存储,将复杂倒排索引变成了专为日志简化的索引,将普通压缩算法变成了日志高压缩比;在单位成本方面,我们将原有的冷热数据全本地盘变成了冷热分离,将存储计算同步扩容变成了存储分离独立扩容。

' o0 `; p1 u3 `

这样的效果实现了存储空间降至五分之一,单位成本降至三分之一,最终实现存储成本降至十五分之一,达到突破性的一个量级降低关键技术5:高吞吐实时写入我们让客户端进行实时小批量写入,在SelectDB服务端进行攒批,可实现秒级flush可见,向量化索引吞吐几十GB/s,写放大更优的时序compaction。

# y* d9 @5 D# K7 C+ L/ e) \; n

关键技术6:快速交互式查询快速交互式查询面临两大挑战:挑战一,如何从海量日志中全文检索关键词;挑战二:如何从时间排序取满足条件的最新N条日志。

- f0 P# H9 F I* Y. |+ Z: u

针对挑战一,我们基于分区、主键的时间范围快速跳过,基于倒排索引的全文检索精确定位;针对挑战二,我们按时间排序的时序存储模型,动态剪枝的TopN查询算法最终实现百亿日志检索秒级响应关于开源SelectDB一直秉承开源开放的价值观,对于上面介绍的倒排索引、TopN优化、时序Compaction优化等关键技术,已经贡献到ApacheDoris社区,预计在2023年Q1的Doris 2.0版本中正式发布,2月份也会开放Doris 2.0 preview版本供大家试用,欢迎刚兴趣的朋友们参与试用和技术交流,一起繁荣ApacheDoris社区。

+ b a# N8 S* I+ v; ?# x+ g! c

|嘉宾介绍|

% s9 Q& ?+ w+ J

肖康SelectDB联合创始人兼技术副总裁2009年至2012年在百度从事Hadoop平台研究与建设,2012开始先后在360、奇安信负责大数据平台,研发基于MPP架构的安全大数据引擎,构建全球最大的网络安全大数据。

+ }" _& y& Q, Q: t l4 g

2022年联合创立SelectDB,致力于研发新一代云原生实时数仓返回搜狐,查看更多责任编辑:

|8 e$ Q; H% S c8 ^ 9 Y& p8 a" W( D' q& D. l3 u3 I 6 R- n* r5 J6 x5 x 4 T5 C2 L3 r9 r0 p- ]0 Y 3 u; p. q/ d. W
回复

使用道具 举报

卓奥友户外装备 发表于 2026-02-12 02:11:13 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

卟顽正 发表于 2026-02-28 00:27:22 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

【优化】马佑涛 发表于 2026-03-14 18:26:16 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-11 12:46 , Processed in 0.675894 second(s), 49 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表