ClickHouseの代替手段
Apache DorisとClickHouseは、どちらもカラムナストレージと高速クエリ機能を備えた主要なリアルタイム分析データベースです。Apache Dorisは、3つの重要な領域でClickHouseに対して大きなアドバンテージを提供します:Cost-Based Optimizerを搭載した高度なMPPアーキテクチャによる10倍高速なjoinクエリパフォーマンス、リソースの独立したスケーリングを可能にするcompute-storage分離による低いインフラストラクチャコスト、そして高頻度なデータ変更中もクエリ速度を維持するMerge-on-Writeエンジンによる優れたリアルタイム更新パフォーマンス。
注目の移行事例
"Tencent Musicのデータプラットフォームは、ClickHouseからApache Dorisに移行し、データの適時性を改善し、メンテナンスコストを削減しました。Dorisの柔軟な取り込み方法と堅牢な整合性プロトコルにより、高い可用性と信頼性を確保しています。"
ハイライト:
- マルチテーブルjoinパフォーマンスの大幅な向上。
- 簡単なスケーリングとメンテナンス。
- 効率的なデータ処理とリアルタイム更新。
"Apache Dorisは大多数のシナリオにおいて、特に複雑なjoinシナリオにおいて、ClickHouseよりも高速なクエリレスポンス時間を提供し、そのパフォーマンスはClickHouseを大幅に上回ります。"
ハイライト:
- コアビジネスクエリ2-3倍高速。
- 複雑なjoinクエリ2-10倍高速。
- すべてのClickHouse OOMクエリを実行可能。
"lakehouseアーキテクチャへの移行に成功し、データパイプラインを簡素化し、Dorisが直接データレイクデータにアクセスできるため、データインポートの必要性を排除しました。"
ハイライト:
- データレイクデータの直接クエリ。
- 改善されたクエリパフォーマンス。
- マテリアライズドビューによる柔軟なデータガバナンス。
Apache Doris vs. ClickHouse
| Apache Doris | ClickHouse | |
|---|---|---|
| アーキテクチャ & SQL |
|
|
| Joinクエリパフォーマンス |
|
|
| リアルタイム更新 |
|
|
| トランザクション対応 |
|
|
| クエリ同時実行 |
|
|
| データAPI |
|
|
| オープンレイクハウス構築 |
|
|
| 運用・保守 |
|
|
| パフォーマンス |
|
|
| コスト効率(Storage-Compute分離) |
|
|
| オープンソース |
|
|
パフォーマンス比較
ClickBenchベンチマーク
ClickBenchは、ClickHouseチームによって作成・保守されている分析データベースのパフォーマンスを評価するベンチマークツールです。
複雑なマルチテーブルjoinではなく、大規模でフラットなテーブルのパフォーマンスをテストすることに焦点を当てています。主要なWebアナリティクスプラットフォームからの実世界データを使用し、クリックストリーム分析や構造化ログなどの典型的なシナリオをカバーしています。
ベンチマークは、複雑なjoinを含まない集計操作とシングルテーブルパフォーマンスをテストする一連のクエリで構成されています。これにより、リアルタイムアナリティクスと大規模データ処理に最適化されたデータベースの評価に特に有用です。

SSB-Flat SF100ベンチマーク
SSB-Flat SF100は、大規模なワイドテーブルの処理における分析データベースのパフォーマンスをテストするために設計されたベンチマークです。
Star Schema Benchmark (SSB)から派生しており、スタースキーマを単一のワイドテーブルにフラット化してシングルテーブルクエリのパフォーマンスに焦点を当てています。
SF100は、データスケールがベースサイズの100倍であることを示し、クエリパフォーマンスとシステムスケーラビリティを評価するための重要なテストとなっています。

TPC-H SF100ベンチマーク
スケールファクタ100(SF100)でのTPC-Hベンチマークは、データベースパフォーマンスを評価するために広く使用されている標準です。実世界のビジネスインテリジェンスワークロードをシミュレートするよう設計された複雑なSQLクエリのセットが含まれています。
SF100は、データサイズがベースサイズの100倍であることを示し、クエリパフォーマンスとシステムスケーラビリティを測定するための大規模テストとなっています。
注意:ClickHouseが7つのクエリの実行に失敗したため、総実行時間は、Dorisが全22クエリを実行した時間と、ClickHouseが15クエリのみを実行した時間を指します。

TPC-DS 1TBベンチマーク
TPC-DS 1TBは、データウェアハウスと分析データベースのパフォーマンスを評価するために広く認識されているベンチマークです。24テーブルに分散した約63.5億レコードを含む、約1TBサイズのデータセットが含まれています。
ベンチマークには、join、集計、サブクエリなど、データベースパフォーマンスのさまざまな側面をテストするよう設計された99の複雑なクエリが含まれています。
TPC-DSスキーマはスノーフレークスキーマをベースとし、Web、カタログ、店舗販売などの実世界シナリオを表現しています。1TBスケールはデータウェアハウスにとって中程度のサイズと考えられますが、クエリの複雑さと大量のレコード数により依然として困難です。
注意:TPC-DSは相関サブクエリを多用しており、これはテスト時点(2024年9月)でClickHouseによってサポートされていません。その結果、ベンチマーククエリの約50%がエラーで失敗します。
