✂️ RAGテキストチャンカー

🔒 Secure & Client-side

長いドキュメントを埋め込みベースの検索用に重複チャンクへ分割します。一定のサイズが必要な場合は文字モード、埋め込みモデルのコンテキスト制限に合わせるにはトークンモードを選択してください。すべてブラウザ内で処理されます。

トークンモードは近似値です(英語約4文字/トークン、CJK約1.5文字/トークン)。正確なトークン化には使用する埋め込みモデルのトークナイザーを利用してください。

使い方

  1. 元のドキュメントを貼り付けます。
  2. チャンクサイズと重複を入力します。よくある開始値: 文字モード512/50、トークンモード256/32。
  3. 一定のバイトサイズが必要な場合は文字、埋め込みモデルのコンテキスト制限に合わせるにはトークンを選択します。
  4. 分割をクリックするとチャンクが番号とサイズとともに表示されます。各チャンクをクリックして個別コピー、またはすべてコピー(JSON)で配列全体を取得できます。

なぜ重複が必要か? チャンク境界でのコンテキスト断絶を防ぎます — 途中で切れた文でもアンカーを失いません。一般的な比率: 重複 = チャンクサイズの10〜20%。

分割方式は単純なスライディングウィンドウで、意味的な境界検出は行いません。一般的な文章では通常問題ありません。コードや構造文書にはパーサーベースの分割ツールを検討してください。