- Inicio
- Habilidades
- Prompting
- Prompt de Extraccion de Datos
Prompt de Extraccion de Datos
Extrae datos estructurados de texto no estructurado con esquemas consistentes y parsing confiable.
El Problema
El texto no estructurado — emails, logs, documentos, tickets de soporte — contiene datos valiosos enterrados en lenguaje natural. La extraccion manual es lenta y propensa a errores. Regex falla con la variabilidad de la escritura humana. La IA sobresale entendiendo contexto y extrayendo datos estructurados, pero solo si defines el esquema de salida con precision y manejas los casos limite de antemano.
El Prompt
Extrae datos estructurados del siguiente texto. Devuelve SOLO JSON valido que coincida con el esquema de abajo.
ESQUEMA:
{
"entidades": [{
"campo1": "string — [descripcion y reglas de formato]",
"campo2": "string | null — [descripcion, null si no se encuentra]",
"campo3": "number — [descripcion, unidad, rango]",
"confianza": "number — 0.0-1.0, que tan seguro estas de esta extraccion"
}],
"sin_clasificar": "string[] — texto que parece relevante pero no encaja en el esquema"
}
REGLAS DE EXTRACCION:
- Extrae TODAS las entidades que coincidan, no solo la primera
- Usa null para campos que no estan presentes en el texto, nunca adivines
- Normaliza fechas al formato ISO 8601 (AAAA-MM-DD)
- Normaliza monedas a valores numericos con codigo de moneda
- Si un campo es ambiguo, extraelo Y establece confianza debajo de 0.7
- Incluye texto relevante sin clasificar para que nada se pierda silenciosamente
TEXTO PARA EXTRAER:
"""
[pega tu texto no estructurado aqui]
"""
Ejemplo de Salida
{
"entidades": [
{
"empresa": "Acme Corp",
"email_contacto": "jane@acme.com",
"valor_deal": 45000,
"moneda": "USD",
"fecha_cierre": "2026-06-15",
"etapa": "negociacion",
"confianza": 0.95
},
{
"empresa": "TechStart GmbH",
"email_contacto": null,
"valor_deal": 12000,
"moneda": "EUR",
"fecha_cierre": "2026-07-01",
"etapa": "propuesta",
"confianza": 0.82
}
],
"sin_clasificar": ["Se menciono posible partnership con DataFlow pero sin detalles del deal"]
}
Cuando Usar
Usa prompts de extraccion de datos para procesar emails en entradas de CRM, parsear archivos de log en incidentes estructurados, convertir reportes de texto libre en registros de base de datos, o cualquier flujo de trabajo donde la entrada no estructurada necesite convertirse en salida estructurada.
Tips Pro
- Incluye un score de confianza — esto te permite auto-aceptar extracciones de alta confianza y marcar las de baja confianza para revision humana.
- Agrega un campo “sin clasificar” — el texto que no encaja en tu esquema no deberia descartarse silenciosamente; capturalo para revision.
- Proporciona reglas de normalizacion — “convierte todas las fechas a ISO 8601” previene inconsistencia de formato entre extracciones.
- Prueba con datos reales desordenados — el modelo maneja texto limpio bien; prueba con abreviaciones, errores tipograficos y entradas incompletas para validar robustez.