在当今的分析型数据库领域,ClickHouse 已经成为一个不可忽视的重要话题。它不仅吸引了众多企业用户,如字节跳动、阿里云和腾讯等,也成为了大数据领域中最闪亮的名字之一。那么,为什么 ClickHouse 会如此受欢迎呢?我们有幸采访到了 ClickHouse 的创始人 Alexey Milovidov,他分享了自己对于 ClickHouse 未来发展的期望以及它在业界的地位。 Alexey Milovidov 表示,他希望 ClickHouse 能够成为最流行的开源分析数据库,让任何人在考虑分析数据库时都能首先想到 ClickHouse。实际上,他们已经是最流行的开源分析数据库了,因此他希望能保持这一地位,让更多的人知道这一点。 此外,我们还了解到了 ClickHouse 的发展历程。原来,在俄罗斯谷歌 Yandex 工作的 Alexey 和他的团队曾面临是否购买现成数据库产品的决策难题。最终,他们选择了更具挑战性的自主研发道路,用 C++ 从零开始打造了一款列式数据库。如今,这款数据库已经成为了大数据领域的佼佼者。

ClickHouse 团队的成长与变革

时光荏苒,ClickHouse 团队现已扩展至200人,成员遍布全球,包括欧洲、北美、东南亚和澳大利亚。这一增长不仅体现在工程技术团队,还涵盖了支持和市场营销等多个部门。 aaaaaa### 团队结构与跨区域配置 Alexey 介绍说,ClickHouse 现已根据查询引擎、数据存储等专业领域划分团队,并采用跨区域配置。这意味着某些团队成员分布在不同大洲,以便覆盖更广的时区。例如,一个团队可能有成员位于欧洲和美洲,而另一个团队则可能覆盖欧洲和亚太地区。 aaaaaa### 沟通方式的演变 在去年的采访中,Alexey 曾提到 Slack(类似国内的企业微信)是他们的主要异步沟通工具。今年,为了减少实时会议的频率,Alexey 加大了对 Slack 的使用力度。 aaaaaa有趣的是,他曾吐槽员工们在 Slack 上偷懒,或发一些与工作无关的内容,而如今这种方式似乎变得更加有效,真可谓“真香”。

aaaaaaa## Alexey 对 AI 和 ClickHouse 的见解

个人使用体验

  • Alexey 使用 Copilot 和 ChatGPT:仅在编写 JavaScript 代码时,因为不是 JS 专家。

  • C++ 编码:倾向于自己编写,认真对待代码,并且早于竞争对手。

人工智能的未来

  • 生成式 AI:加速每个人和每个团队的速度。竞争会更加激烈,但进步也会更快。

ClickHouse 的竞争优势

  • 数据准备:处理 PB 级数据集,为机器学习提供高质量的数据。

  • 机器学习可观测性:存储和监控模型表现的理想解决方案。

  • 语义搜索与检索增强生成(RAG)技术:处理难以索引的大数据集表现出色。

  • 多模态数据处理:能够同时处理元数据和嵌入数据,适合图像、文本等多种类型数据。

工程师文化与 ClickHouse 团队

角色分工

  • CEO Aaron Katz:负责业务方面。

  • 工程总裁 Yuri Izrailevsky:负责产品。

  • Alexey:负责技术。

典型的一天

  • 工作方式:没有具体日程,根据优先级随机选择任务。

对中国的印象

  • 美食与文化:享受中国美食,对各省份的文化感到惊讶。

  • 筷子技能:第一次来中国时迅速学会了用筷子。

  • 工程师文化:认为中国工程师文化在西方世界中代表性不足,赞赏其专注度。

活动参与

  • 出差频率:大约每月一次。

  • 公司聚会:每年两次,最近一次是在法国尼斯,下一次计划在新加坡。

  • 开发者活动:今年突破了100次 Meetup,包括内部开发比赛。

ClickHouse 与 AI 集成

行业机会

  • ClickHouse 内部使用:利用 AI 加速开发过程。

  • ClickHouse 在 AI 领域的优势:数据准备、机器学习可观测性和 RAG 技术。

  • 客户案例:如 Cognitiv 利用 ClickHouse Cloud 处理 PB 级数据集。

ClickHouse Cloud

  • 迁移原因:解决了集群扩展问题,确保版本兼容性和高可用性。

  • 合作伙伴:在中国选择了阿里云,期待更多合作。

  • 建议:记录所有步骤,以结构化形式收集数据。

给年轻工程师的建议

  • 领域专精:深入理解所选领域,寻找创新方法。

ClickHouse 最新进展

新功能发布

  • 24.8 版本:支持半结构化数据类型,S3 队列,可刷新物化视图等。

  • 开源路线图:目标是达到 50% 或 60% 的完成率。

  • 开源承诺:坚持开源模式,同时维护专有版本防止免费搭便车。

发布流程

  • 决策者:由工程团队决定哪些功能合并及优先级。

  • 质量控制:通过代码审查、手动测试和评估用户友好性来保证。

人才吸引与保留

  • 开源战略:使贡献变得容易,产生显著影响。

数据库与 AI

未来展望

  • AI 影响:改善用户体验,优化缓存和资源共享。

  • 大数据架构演变:观察到数据湖和分析数据库能力的融合趋势。

  • 向量数据库:对专门向量数据库前景持谨慎态度。

客户案例

  • Cognitive:利用 ClickHouse Cloud 存储多个 PB 的数据集,构建广告网络的人工智能模型。

ClickHouse 未来规划

  • 里程碑:实现“自带云”方案,提高云服务可扩展性。

  • 优化项目:分布式缓存。