Uso del análisis de medios adversos en flujos de trabajo de KYB y KYC
Publicado el: 2026-04-17 17:07:42
Por qué los medios adversos importan en KYB y KYC
Los medios adversos son uno de los pocos controles que pueden sacar a la luz un riesgo antes de que se refleje en pérdidas, casos de fraude, o hallazgos regulatorios. En KYB y KYC, ayudan a los equipos a identificar señales vinculadas con actividad delictiva, acciones regulatorias, corrupción, evasión de sanciones, fraude, y otros eventos negativos que quizá no aparezcan en fuentes de datos estructuradas.
El problema no es el concepto. Es el proceso.
Los equipos suelen depender de búsquedas manuales, reglas de palabras clave inconsistentes, y revisiones ad hoc. Eso genera tres fallos: riesgo no detectado, falsos positivos, y ausencia de un registro de auditoría. Un enfoque más sólido usa un flujo de decisión en dos etapas. Primero, marca rápidamente los resultados potencialmente relevantes. Después, analiza en profundidad solo los elementos marcados, usando el texto del artículo, indicaciones estructuradas, y resultados trazables.
Un flujo de trabajo práctico para la detección de medios adversos
El mejor diseño no es un solo modelo que intente resolverlo todo. Es una cadena de pasos deterministas. Cada paso tiene un propósito claro, entradas claras, y una salida clara. Eso aporta explicabilidad, ajustes más sencillos, y una mejor gestión de casos.
1. Busca ampliamente y luego acota con reglas
Empieza por la cobertura de búsqueda. SerpApi puede recuperar resultados de Google Search y Google News para un sujeto, lo que te da un primer barrido amplio de posibles menciones. Eso es útil porque los medios adversos no viven en un solo tipo de fuente. Aparecen en artículos de noticias, cobertura local, prensa, y páginas indexadas que quizá no sean obvias a partir de una sola consulta.
En esta etapa, el objetivo no es demostrar relevancia. Es recopilar candidatos. Usa nombres, alias, nombres de empresas, directores, UBOs, y otros identificadores conocidos. Luego ejecuta filtros basados en palabras clave para marcar los elementos probablemente adversos. Las palabras clave pueden incluir términos relacionados con fraude, arresto, imputación, soborno, investigación, blanqueo de capitales, evasión fiscal, y exposición política, según tu política.
Este primer paso debe ser deliberadamente amplio. Si es demasiado restrictivo, se pierden señales. Si es demasiado laxo, se satura la cola de revisión. El equilibrio adecuado depende de tu apetito de riesgo y de la población que examinas.
2. Usa lógica de palabras clave para un marcado determinista
La lógica de palabras clave sigue siendo importante. Es rápida, transparente, y fácil de auditar. Puedes explicar por qué un resultado fue marcado sin recurrir a una caja negra. Eso importa en flujos de trabajo regulados.
Las reglas típicas incluyen:
- Coincidencia exacta de nombre más palabra clave adversa en el título o fragmento
- Nombre de empresa más términos de aplicación de la ley o investigación
- Nombre de persona más términos de categoría delictiva
- Términos específicos por jurisdicción para la revisión en idioma local
- Umbrales de recencia para priorizar el riesgo actual
Estas reglas no deciden el caso. Deciden qué resultados merecen una revisión más profunda. Esa separación mantiene el proceso determinista y más fácil de mantener.
Por qué los LLMs pertenecen a la segunda etapa
La coincidencia de palabras clave por sí sola no puede decirte si un resultado trata realmente del sujeto. No puede distinguir entre dos personas con el mismo nombre. No puede decir si un artículo trata sobre una acusación penal, un nombramiento político, o un evento completamente ajeno que comparte una palabra clave.
Ahí es donde los LLMs son útiles. No como primer filtro. Sino como analizador de segunda etapa.
Usado correctamente, un LLM puede leer el artículo, extraer los hechos relevantes, clasificar la categoría, y devolver una respuesta estructurada. El prompt debe obligar al modelo a responder un conjunto cerrado de preguntas. Por ejemplo:
- ¿Este artículo trata sobre la entidad examinada?
- ¿La coincidencia es probablemente un falso positivo por mismo nombre?
- ¿Qué categoría adversa aplica, si corresponde?
- ¿Qué evidencia del artículo respalda esa conclusión?
- ¿Debería escalarse para revisión manual?
La salida debe ser estructurada. JSON funciona bien. También lo hacen campos fijos como match_status, risk_category, confidence, summary, y supporting_quotes. Esto hace que el resultado sea utilizable dentro de un flujo de gestión de casos sin análisis adicional ni suposiciones.
Cómo separar el riesgo real del ruido por mismo nombre
Los falsos positivos por mismo nombre son uno de los principales problemas en la detección de medios adversos. Un resultado de búsqueda puede contener el nombre correcto, pero la persona equivocada. En la práctica, eso ocurre con frecuencia. Los nombres comunes, las transliteraciones, y las coincidencias parciales aumentan el ruido.
Un buen flujo de trabajo usa varias comprobaciones en secuencia:
- Comparación de nombre e identificadores. Comprueba edad, ubicación, empleador, datos de registro de la empresa, cargo, y asociados conocidos.
- Contexto del artículo. Lee el artículo completo, no solo el fragmento o el titular.
- Resolución de entidades. Compara las referencias del texto con el registro de tu cliente o contraparte.
- Asignación de categoría. Decide si el evento es delictivo, político, legal, comercial, o irrelevante.
- Lógica de escalado. Envía solo los casos inciertos o de alto riesgo a revisión humana.
Los LLMs son más útiles cuando se limitan a resultados basados en evidencia. No deben inventar hechos. Deben resumir lo que hay presente, identificar la incertidumbre, y decir cuándo el artículo no respalda una coincidencia.
Por qué rastrear el artículo completo mejora la precisión
Los fragmentos de búsqueda no son suficientes. A menudo omiten los detalles que determinan la relevancia. SerpApi te da los enlaces, lo que permite recuperar el artículo completo y realizar un análisis más profundo del propio texto. Eso mejora la precisión de tres maneras.
Primero, puedes ver el contexto completo alrededor de la mención del nombre. Segundo, puedes comprobar si la historia trata de una acusación, una condena, una demanda, un nombramiento, u otro evento. Tercero, puedes extraer frases de apoyo para el expediente del caso.
Este segundo paso solo debe ejecutarse sobre los elementos marcados. Así se mantienen bajo control el coste y la latencia. También reduce el rastreo innecesario. La arquitectura es simple: buscar, marcar, enriquecer, analizar, resumir, almacenar.
Cuando rastrees el artículo, normaliza el texto antes del análisis. Elimina el ruido de navegación, el contenido repetitivo, y el contenido duplicado. Luego envía al modelo solo el cuerpo del texto relevante. Si el artículo es largo, divídelo en fragmentos y combina las salidas mediante un paso de agregación determinista.
Un flujo de decisión en dos etapas para medios adversos
En la práctica, la lógica de decisión debería verse así:
- Etapa 1: Buscar en la web y en fuentes de noticias la entidad.
- Etapa 2: Aplicar reglas deterministas de palabras clave para marcar candidatos.
- Etapa 3: Para los candidatos marcados, obtener el texto completo del artículo.
- Etapa 4: Usar un LLM con un prompt estructurado para clasificar la relevancia y la categoría.
- Etapa 5: Generar un resumen para la gestión de casos con evidencia, confianza, y justificación.
- Etapa 6: Escalar los casos inciertos o de alta severidad a un analista humano.
Esta secuencia evita la trampa habitual de pedirle a un modelo que haga a la vez recuperación y juicio. También hace que el ajuste sea más sencillo. Puedes mejorar los términos de búsqueda, las listas de palabras clave, el diseño del prompt, y los umbrales de forma independiente.
Qué debe contener la respuesta estructurada
Si quieres que la salida sirva para operaciones, el esquema debe ser estricto. El texto libre por sí solo no basta. Una respuesta útil puede incluir:
- entity_match: sí, no o incierto
- match_type: exacta, parcial, mismo nombre, alias o no relacionado
- risk_category: actividad delictiva, política, sanciones, fraude, litigio, regulatorio u otra
- severity: baja, media, alta
- confidence: puntuación numérica o banda fija
- summary: 2–4 frases en lenguaje claro
- evidence: pasajes citados del artículo
- recommended_action: claro, revisar o escalar
Esta estructura convierte un artículo en un artefacto de caso. Los analistas pueden revisarlo rápidamente. Los auditores pueden seguir su rastro. Los equipos de producto pueden supervisar los resultados. Y las reglas detrás del flujo de trabajo permanecen visibles.
Controles que importan en la revisión regulada
La detección de medios adversos toca cumplimiento, riesgo, y operaciones. Eso significa que los controles importan tanto como la cobertura.
Necesitas un rastro de decisión completo. Registra los términos de búsqueda, las URL de las fuentes, la regla de palabras clave que se activó, la versión del modelo, la versión del prompt, y la clasificación final. Si el resultado cambia más adelante, necesitas saber por qué.
También necesitas control de versiones para palabras clave y prompts. Un pequeño cambio en el prompt puede alterar el comportamiento de clasificación. Una actualización de palabras clave puede cambiar el tamaño de la cola. Trata ambos como conjuntos de reglas gobernadas, no como ediciones informales.
Por último, mantén la revisión humana en el circuito para los casos ambiguos. El modelo debe reducir el trabajo manual, no reemplazar la rendición de cuentas.
Errores comunes de implementación
Los equipos suelen fallar en los mismos puntos:
- Dependen de fragmentos del titular y nunca leen el artículo completo.
- Usan un solo prompt enorme para todos los casos, independientemente de la categoría.
- No separan el marcado del juicio final.
- Almacenan solo la respuesta final y pierden el rastro de evidencia.
- Ignoran la ambigüedad por mismo nombre y tratan todas las coincidencias como reales.
Cada uno de estos errores genera ruido evitable o riesgo no detectado. La solución es un flujo de trabajo por etapas con reglas explícitas y resultados trazables.
Cómo encaja esto en una pila más amplia de KYB/KYC
Los medios adversos no deben funcionar de forma aislada. Deben situarse junto a las comprobaciones de identidad, el cribado de sanciones, los datos del registro mercantil, la verificación de UBO, la inteligencia de dispositivos, y las señales de fraude. Juntas, estas fuentes crean una visión más sólida de la entidad y de su perfil de riesgo.
Eso es especialmente importante en KYB, donde los directivos, accionistas, y entidades relacionadas pueden ser relevantes. Un solo artículo adverso sobre un director puede cambiar el resultado del caso aunque el registro de la empresa parezca limpio.
Para KYC, el valor es similar. Una persona puede superar las comprobaciones básicas de alta y aun así arrastrar un riesgo mediático que merezca revisión. El flujo de trabajo debe detectarlo sin obligar a los analistas a leer cientos de resultados de búsqueda irrelevantes.
Resumen
El análisis de medios adversos funciona mejor cuando se trata como un flujo de decisión, no como una sola tarea de modelo. Usa SerpApi para recopilar resultados de Google Search y Google News. Aplica reglas de palabras clave para marcar posibles incidencias. Luego rastrea el artículo completo y usa un análisis estructurado con LLM para decidir si el elemento trata realmente del sujeto, a qué categoría pertenece, y si necesita escalado.
Ese enfoque mantiene el proceso determinista donde debe serlo, y flexible donde la comprensión del lenguaje aporta valor. También ofrece a los equipos de cumplimiento lo que necesitan: trazabilidad, explicabilidad, y una cola de casos más limpia.
Si lo construyes así, la detección de medios adversos se convierte en algo más que una tarea de búsqueda. Se convierte en un control repetible.