Extraer texto de PDF

Extrae texto seleccionable de un PDF para copiarlo o descargarlo.

El procesamiento ocurre en tu navegador; no subimos tu archivo.

ActivaPDFGratis

Cargando herramienta...

Extraer texto usa pdfjs-dist. El snippet incluye la configuración del worker para Vite; en las notas están las alternativas (workerPort y CDN).

Extraer texto seleccionable de un PDF

Devuelve el texto por página y unido. Orientado a Vite + navegador moderno.

typescript

import * as pdfjsLib from "pdfjs-dist";
import workerUrl from "pdfjs-dist/build/pdf.worker.min.mjs?url";

pdfjsLib.GlobalWorkerOptions.workerSrc = workerUrl;

export async function extractPdfText(file: File): Promise<{ pages: string[]; text: string }> {
  const data = new Uint8Array(await file.arrayBuffer());
  const pdf = await pdfjsLib.getDocument({ data }).promise;
  const pages: string[] = [];

  for (let n = 1; n <= pdf.numPages; n += 1) {
    const page = await pdf.getPage(n);
    const content = await page.getTextContent();
    const pageText = content.items
      .map((item) => ("str" in item ? item.str : ""))
      .join(" ")
      .replace(/\s+/g, " ")
      .trim();
    pages.push(pageText);
  }

  await pdf.destroy();
  return { pages, text: pages.join("\n\n") };
}

Dependenciaspdfjs-dist

Notas de uso

La config de worker de arriba es para Vite (import con ?url).
Alternativa con bundler genérico (sin Vite): GlobalWorkerOptions.workerPort = new Worker(new URL('pdfjs-dist/build/pdf.worker.min.mjs', import.meta.url), { type: 'module' }).
Alternativa CDN: GlobalWorkerOptions.workerSrc = 'https://cdnjs.cloudflare.com/ajax/libs/pdf.js/<VERSION>/pdf.worker.min.mjs'.
Usá result.pages para el texto por página o result.text para el texto unido.

Limitaciones

No hace OCR: solo extrae texto ya seleccionable. Un PDF escaneado (imágenes) puede devolver vacío.
El orden y el espaciado son aproximados (sin reconstrucción de columnas ni saltos de línea de layout).
La versión del worker debe coincidir con la versión de pdfjs-dist instalada.

Acerca de esta herramienta

Extraer texto de PDF recupera el texto seleccionable de un documento para copiarlo o descargarlo como archivo TXT.

Cómo usarla

Cargá el PDF.
Opcional: activá conservar los saltos de línea aproximados para mantener mejor el formato.
Revisá el texto extraído por página.
Copiá el resultado o descargalo como TXT.

Casos de uso

Reutilizar el texto de un documento sin volver a tipearlo.
Citar o buscar contenido dentro de un PDF.
Pasar un documento a texto plano.

Límites

Solo recupera texto seleccionable; un PDF escaneado (imágenes) no tiene texto para extraer y la herramienta lo avisa.
Tamaño máximo del PDF: 50 MB.

Privacidad

El procesamiento ocurre en tu navegador; no subimos los archivos.

Errores comunes

El PDF parece escaneado y no tiene texto seleccionable.
Aparecen símbolos extraños cuando el PDF usa fuentes no estándar.

Notas técnicas

Usa pdf.js para leer el contenido de texto.
Detecta si el documento parece escaneado y avisa cuando hay símbolos problemáticos.

Herramientas relacionadas

PDF a imágenes Contador de palabras avanzado Limpiador de texto

Detalles técnicos

ID: extract-pdf-text
Slug: /herramientas/extraer-texto-de-pdf
Backend: No requerido
IA: No requerida
API: Planificada