✂️ RAG 텍스트 청크 분할기

🔒 Secure & Client-side

긴 문서를 임베딩 기반 검색용 겹침 청크로 분할합니다. 일정한 크기를 위해 문자 모드를, 임베딩 모델 컨텍스트 한계에 맞추려면 토큰 모드를 선택하세요. 모든 처리는 브라우저에서 이루어집니다.

토큰 모드는 근사치입니다(영문 약 4자/토큰, 한·중·일 약 1.5자/토큰). 정확한 토큰화는 사용하시는 임베딩 모델의 토크나이저를 이용하세요.

사용 방법

  1. 원본 문서를 붙여넣으세요.
  2. 청크 크기와 겹침을 입력하세요. 흔한 시작값: 문자 모드 512/50, 토큰 모드 256/32.
  3. 일정한 바이트 크기를 원하면 문자, 임베딩 모델 컨텍스트 한계에 맞추려면 토큰을 선택하세요.
  4. 분할을 누르면 청크가 번호와 길이로 표시됩니다. 각 청크 클릭으로 개별 복사, 전체 복사 (JSON)로 배열 전체를 복사할 수 있습니다.

왜 겹침이 필요한가? 청크 경계에서 문맥이 끊기는 것을 방지합니다 — 한 문장이 두 청크에 걸치더라도 양쪽에서 일부 맥락이 유지됩니다. 일반적으로 청크 크기의 10~20%를 겹침으로 설정합니다.

분할 방식은 단순 슬라이딩 윈도우입니다 — 의미 단위 인식은 하지 않습니다. 일반 산문에는 충분하지만 코드·구조 문서에는 파서 기반 분할기를 권장합니다.