对话ClickHouse创始人Alexey:数据处理系统与AI的融合 -- 知识铺
在当今的分析型数据库领域,ClickHouse 已经成为一个不可忽视的重要话题。它不仅吸引了众多企业用户,如字节跳动、阿里云和腾讯等,也成为了大数据领域中最闪亮的名字之一。那么,为什么 ClickHouse 会如此受欢迎呢?我们有幸采访到了 ClickHouse 的创始人 Alexey Milovidov,他分享了自己对于 ClickHouse 未来发展的期望以及它在业界的地位。
Alexey Milovidov 表示,他希望 ClickHouse 能够成为最流行的开源分析数据库,让任何人在考虑分析数据库时都能首先想到 ClickHouse。实际上,他们已经是最流行的开源分析数据库了,因此他希望能保持这一地位,让更多的人知道这一点。
此外,我们还了解到了 ClickHouse 的发展历程。原来,在俄罗斯谷歌 Yandex 工作的 Alexey 和他的团队曾面临是否购买现成数据库产品的决策难题。最终,他们选择了更具挑战性的自主研发道路,用 C++ 从零开始打造了一款列式数据库。如今,这款数据库已经成为了大数据领域的佼佼者。
ClickHouse 团队的成长与变革
时光荏苒,ClickHouse 团队现已扩展至200人,成员遍布全球,包括欧洲、北美、东南亚和澳大利亚。这一增长不仅体现在工程技术团队,还涵盖了支持和市场营销等多个部门。
aaaaaa### 团队结构与跨区域配置
Alexey 介绍说,ClickHouse 现已根据查询引擎、数据存储等专业领域划分团队,并采用跨区域配置。这意味着某些团队成员分布在不同大洲,以便覆盖更广的时区。例如,一个团队可能有成员位于欧洲和美洲,而另一个团队则可能覆盖欧洲和亚太地区。
aaaaaa### 沟通方式的演变
在去年的采访中,Alexey 曾提到 Slack(类似国内的企业微信)是他们的主要异步沟通工具。今年,为了减少实时会议的频率,Alexey 加大了对 Slack 的使用力度。
aaaaaa有趣的是,他曾吐槽员工们在 Slack 上偷懒,或发一些与工作无关的内容,而如今这种方式似乎变得更加有效,真可谓“真香”。
aaaaaaa## Alexey 对 AI 和 ClickHouse 的见解
个人使用体验
-
Alexey 使用 Copilot 和 ChatGPT:仅在编写 JavaScript 代码时,因为不是 JS 专家。
-
C++ 编码:倾向于自己编写,认真对待代码,并且早于竞争对手。
人工智能的未来
- 生成式 AI:加速每个人和每个团队的速度。竞争会更加激烈,但进步也会更快。
ClickHouse 的竞争优势
-
数据准备:处理 PB 级数据集,为机器学习提供高质量的数据。
-
机器学习可观测性:存储和监控模型表现的理想解决方案。
-
语义搜索与检索增强生成(RAG)技术:处理难以索引的大数据集表现出色。
-
多模态数据处理:能够同时处理元数据和嵌入数据,适合图像、文本等多种类型数据。
工程师文化与 ClickHouse 团队
角色分工
-
CEO Aaron Katz:负责业务方面。
-
工程总裁 Yuri Izrailevsky:负责产品。
-
Alexey:负责技术。
典型的一天
- 工作方式:没有具体日程,根据优先级随机选择任务。
对中国的印象
-
美食与文化:享受中国美食,对各省份的文化感到惊讶。
-
筷子技能:第一次来中国时迅速学会了用筷子。
-
工程师文化:认为中国工程师文化在西方世界中代表性不足,赞赏其专注度。
活动参与
-
出差频率:大约每月一次。
-
公司聚会:每年两次,最近一次是在法国尼斯,下一次计划在新加坡。
-
开发者活动:今年突破了100次 Meetup,包括内部开发比赛。
ClickHouse 与 AI 集成
行业机会
-
ClickHouse 内部使用:利用 AI 加速开发过程。
-
ClickHouse 在 AI 领域的优势:数据准备、机器学习可观测性和 RAG 技术。
-
客户案例:如 Cognitiv 利用 ClickHouse Cloud 处理 PB 级数据集。
ClickHouse Cloud
-
迁移原因:解决了集群扩展问题,确保版本兼容性和高可用性。
-
合作伙伴:在中国选择了阿里云,期待更多合作。
-
建议:记录所有步骤,以结构化形式收集数据。
给年轻工程师的建议
- 领域专精:深入理解所选领域,寻找创新方法。
ClickHouse 最新进展
新功能发布
-
24.8 版本:支持半结构化数据类型,S3 队列,可刷新物化视图等。
-
开源路线图:目标是达到 50% 或 60% 的完成率。
-
开源承诺:坚持开源模式,同时维护专有版本防止免费搭便车。
发布流程
-
决策者:由工程团队决定哪些功能合并及优先级。
-
质量控制:通过代码审查、手动测试和评估用户友好性来保证。
人才吸引与保留
- 开源战略:使贡献变得容易,产生显著影响。
数据库与 AI
未来展望
-
AI 影响:改善用户体验,优化缓存和资源共享。
-
大数据架构演变:观察到数据湖和分析数据库能力的融合趋势。
-
向量数据库:对专门向量数据库前景持谨慎态度。
客户案例
- Cognitive:利用 ClickHouse Cloud 存储多个 PB 的数据集,构建广告网络的人工智能模型。
ClickHouse 未来规划
-
里程碑:实现“自带云”方案,提高云服务可扩展性。
-
优化项目:分布式缓存。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek002/post/20240918/%E5%AF%B9%E8%AF%9DClickHouse%E5%88%9B%E5%A7%8B%E4%BA%BAAlexey%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86%E7%B3%BB%E7%BB%9F%E4%B8%8EAI%E7%9A%84%E8%9E%8D%E5%90%88--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com