AIの概要

AI技術が前例のないペースで進歩し続ける中、データインフラストラクチャは現代のAIアプリケーションの基盤となっています。高性能リアルタイム分析データベースであるApache Dorisは、全文検索、ベクトル検索、AI関数、およびMCPベースのインテリジェント対話のネイティブ統合を提供します。これらの機能が組み合わさることで、ストレージ、検索、分析にまたがる包括的なAIデータスタックを形成します。

Dorisは、ハイブリッド検索と分析、エージェント向けデータ分析、セマンティック検索、RAGアプリケーション開発、大規模AIシステムの可観測性など、幅広いAI駆動ワークロードに対して統一的で高性能、かつ費用効率的なソリューションを提供します。

エージェント向け分析

AI エージェント技術の台頭により、ますます多くの分析決定がAIによって自動的に完了されるようになり、データプラットフォームには究極のリアルタイム性能と高並行処理能力が求められています。従来の「手動分析」とは異なり、エージェント向け分析では、データクエリと意思決定をミリ秒スケールで完了し、大量のエージェントからの並行アクセスをサポートする必要があります。典型的なシナリオには、リアルタイム不正検出、インテリジェント広告配信、パーソナライズドレコメンデーションが含まれます。

Dorisは、高性能MPPアーキテクチャにより、これらのエージェント向け分析シナリオで優れた利点を実証します：

リアルタイム取り込み＆更新: エージェント決定が最新データに基づくことを保証、最小データレイテンシ ~ 1秒
超高速分析: 平均クエリレイテンシ < 100ms、エージェントのリアルタイム決定要件を満たす
高並行クエリ: 10,000+ QPSをサポート、大量のエージェント並行クエリを容易に処理
ネイティブエージェント統合: MCP サーバーを通じてAI エージェントとシームレスに統合、開発と統合ワークフローを簡素化

ハイブリッド検索・分析処理

半構造化データと非構造化データは、データ分析において第一級市民になりつつあります。顧客レビュー、チャットログ、プロダクションログ、車両信号、その他のデータが、ビジネス意思決定プロセスに深く統合されています。従来の構造化分析ソリューションには、全文検索とベクトル検索機能を組み込み、セマンティック検索をサポートしながら、同一プラットフォームで多次元分析と集計統計を可能にする必要があります。例えば：

顧客インサイト: レビューテキスト検索とユーザー行動分析を組み合わせ、顧客ニーズと満足度トレンドを正確に特定
スマートマニュファクチャリング: プロダクションログ全文検索、設備画像認識、IoTメトリクス分析を統合し、故障予測と品質最適化を実現
コネクテッドカー: 車両信号データ分析、ユーザーフィードバックテキストマイニング、運転行動ベクトル検索を総合し、スマートコックピット体験を向上

Dorisの高性能リアルタイム分析、テキストインデックス、ベクトルインデックス機能に基づいて上記シナリオ向けAIアプリケーションを構築することで、複数の利点が得られます：

統一アーキテクチャ: 構造化分析、全文検索、ベクトル検索を単一プラットフォームで処理、データ移行と異種システム統合を排除
ハイブリッドクエリ性能: 単一SQLでベクトル類似度検索、キーワードフィルタリング、集計分析を同時実行し、優秀なクエリ性能を実現
柔軟なスキーマサポート: VARIANTタイプが動的JSON構造をネイティブサポート、Light Schema Changeで秒レベルのフィールドとインデックス変更を可能に
フルスタック最適化: 転置インデックスとベクトルインデックスからMPP実行エンジンまでのエンドツーエンド最適化、検索精度と分析効率のバランスを実現

AI向けレイクハウス

AIモデルとアプリケーション開発には、大量のデータセットからトレーニングセットの準備、特徴エンジニアリング、データ品質評価が必要です。従来のアーキテクチャでは、データレイクと分析エンジン間での頻繁なデータ移行が必要でした。レイクハウスアーキテクチャは、データレイクのオープンストレージとリアルタイム分析エンジンを深く統合し、データ準備、特徴エンジニアリング、モデル評価の全ワークフローを統一プラットフォームでサポートし、データサイロを排除してAI開発イテレーションを加速します。

レイクハウス統一アーキテクチャ: オープンテーブル形式（Iceberg/Paimonなど）とカタログに基づくオープンlakehouseを構築、分析データとAIデータを統一管理
リアルタイム分析エンジン: Dorisがリアルタイム分析エンジンとして機能、インタラクティブクエリと軽量ETLをサポート、データ準備と特徴エンジニアリングに最速のSQL計算能力を提供
シームレスデータフロー: データ移動なしでデータレイクへの直接読み書き、ストレージ層での統一管理とコンピュート層での柔軟な加速

Dorisベースのレイクハウスアーキテクチャは、AI全体のワークフローを加速します：

大規模データ準備: Dorisの効率的なデータ処理能力を活用してPBスケールのデータレイクからデータをフィルタリング、サンプリング、クレンジングし、高品質なトレーニングデータセットを迅速構築
リアルタイム特徴エンジニアリング: Dorisのリアルタイム分析機能を活用してオンライン特徴抽出、変換、集計コンピューティングを実行し、モデルトレーニングと推論にリアルタイム特徴サービスを提供
品質評価: テストセットと本番データに対する多次元高速分析を実施し、モデル性能とデータドリフトを継続監視

RAG (Retrieval-Augmented Generation)

RAGは外部ナレッジベースから関連情報を取得し、大規模モデルにコンテキストを提供することで、モデルの幻覚と知識の時効性の問題を効果的に解決します。ベクトルエンジンはRAGシステムのコアコンポーネントであり、大量のナレッジベースから最も関連性の高い文書フラグメントを迅速に想起し、高並行ユーザークエリリクエストをサポートしてアプリケーションの応答性を確保する必要があります。

企業ナレッジ: 内部文書とマニュアルに基づくインテリジェントQ&Aシステムを構築、従業員が自然言語を通じて正確な回答を迅速取得可能
インテリジェント顧客サービスアシスタント: 製品ナレッジベースと過去事例を組み合わせ、顧客サービス担当者やチャットボットに正確な応答提案を提供
インテリジェント文書アシスタント: 大規模文書コレクション内の関連コンテンツを迅速特定し、研究、執筆、意思決定プロセスを支援

これらのシナリオでDorisベースのRAGアプリケーションを構築することで、以下の利点が得られます：

高並行性能: 分散アーキテクチャが高並行ベクトル検索をサポート、大規模並行ユーザーアクセスを容易に処理
ハイブリッド検索能力: 単一SQLでベクトル類似度検索とキーワードフィルタリングを同時実行、セマンティック想起と完全一致のバランスを実現
弾性スケーリング: クラスタ拡張に伴いクエリ性能が線形スケール、数百万から数百億ベクトルへのシームレス移行
統一ソリューション: ベクトルデータ、原文書、ビジネスデータを統一管理、RAGアプリケーションのデータアーキテクチャを簡素化

AI可観測性

AIモデルトレーニングイテレーションとアプリケーション運用は、大量のログ、メトリクス、トレーシングデータを生成します。問題を正確に特定し、性能を継続最適化するため、可観測性システムはAIインフラストラクチャの重要なコンポーネントとなっています。ビジネス規模の拡大に伴い、可観測性プラットフォームは、PBスケールデータの高スループット書き込み、ミリ秒レベル検索応答、コスト制御など複数の課題に直面しています。典型的なユースケースには以下が含まれます：

モデルトレーニング監視: トレーニングメトリクスとリソース消費をリアルタイム追跡、トレーニング異常と性能ボトルネックを迅速特定
推論サービストレーシング: 各推論リクエストの完全トレースを記録、レイテンシソースとエラーパターンを分析
AI****アプリケーションログ分析: 大量のアプリケーションログの全文検索と集計分析、トラブルシューティングと行動インサイトをサポート

DorisでAI可観測性を構築することで、以下の利点が得られます：

究極の性能: PB/日（10GB/s）の持続書き込みをサポート、転置インデックスがログ検索を加速し秒レベル応答を実現
コスト最適化: 5:1から10:1の圧縮率、ストレージコスト50%-80%削減、コールドデータの低コストストレージをサポート
柔軟なスキーマ: Light Schema Changeで秒レベルフィールド変更を可能に、VARIANTタイプが動的JSON構造をネイティブサポート
エコシステムフレンドリー: OpenTelemetryとELKエコシステムと互換、Grafana/Kibana可視化ツールとの統合をサポート

セマンティック検索

セマンティック検索は、ベクトル化技術を通じてテキストの深い意味を捉えます。クエリ用語が文書の文言と異なっていても、意味的に関連するコンテンツを検索できます。これは、多言語検索、類義語認識、意図理解などのシナリオにおいて重要であり、検索想起率とユーザー体験を大幅に改善します。典型的なユースケースには以下が含まれます：

企業文書検索: 従業員が自然言語で問題を記述し、システムが意図を理解して大量の文書から意味的に関連するポリシー、手順、ナレッジを想起
Eコマース製品検索: ユーザーが「夏に適した通気性の良い靴」と入力し、システムがニーズを理解して単なるキーワードマッチングではなく関連製品を想起
コンテンツレコメンデーション: 記事と動画のセマンティック類似度に基づくインテリジェントレコメンデーション、異なる文言で表現された潜在的興味コンテンツを発見

Dorisベースのセマンティック検索アプリケーション構築により、以下の利点が得られます：

高性能ベクトル検索: HNSWとIVFアルゴリズムをサポート、億スケールベクトルに対して1秒未満の応答、大規模セマンティック検索要件を容易に処理
強化されたハイブリッド検索: 単一SQLでセマンティック検索とキーワードフィルタリングを統合、必要な語彙ヒットを保証しながらセマンティック関連コンテンツを想起
マルチモーダル拡張: テキストセマンティック検索だけでなく、画像、音声などマルチモーダルコンテンツのセマンティック検索にも拡張可能
柔軟な量子化最適化: SQ/PQ量子化技術により、検索精度を維持しながらストレージと計算コストを大幅削減

エージェント向け分析​

ハイブリッド検索・分析処理​

AI向けレイクハウス​

RAG (Retrieval-Augmented Generation)​

AI可観測性​

セマンティック検索​