2.3 KiB
2.3 KiB
ウェブページからデータをインポート
Dify のナレッジベースでは、Firecrawl を利用してウェブページをスクレイピングし、解析したデータをMarkdownの形式でナレッジベースに取り込むことができます。
{% hint style="info" %} Firecrawl は、オープンソースのウェブページ解析ツールです。ウェブページをクリーンで大規模言語モデル(LLM)が扱いやすいMarkdown形式のテキストに変換します。また、使いやすいAPIサービスも提供しています。 {% endhint %}
設定方法
まず、DataSourceページでFirecrawlの認証情報を設定する必要があります。

Firecrawl 公式サイト にログインして登録を完了し、APIキーを取得してから入力し、保存します。

ナレッジベース作成のページでSync from websiteを選択し、スクレイピングの対象どしてのウェブページのURLを入力します。

网页抓取配置
設定項目には、サブページのスクレイピング、スクレイピングするページの上限、ページのスクレイピング深度、ページの除外、指定ページのみのスクレイピング、コンテンツの抽出などが含まれます。設定が完了したら Run をクリックし、解析結果のページをプレビューします。

执行抓取
解析されたテキストをナレッジベースのドキュメントにインポートし、結果を確認します。Add URL をクリックすると、新しいウェブページをさらにインポートできます。

解析されたウェブページのテキストをナレッジベースにインポート