Evaluando los taninos

El término "cata" no es un concepto establecido formalmente en el campo de la IA. En la cata de vinos se evalúan las características de una pequeña muestra para inferir la calidad del producto completo. Aquí usamos el término para referirnos a la evaluación de una parte del funcionamiento de una IA conversacional para obtener una idea general de su rendimiento y precisión para una temática concreta. Aunque esto no es garantía de la calidad de las respuestas, sí nos permite, al menos, saber que el modelo de lenguaje puede contestar preguntas sobre el asunto en cuestión sin necesidad de inventar las respuestas.

Las catas a una IA conversacional implican seleccionar y utilizar preguntas clave, cuyas respuestas son conocidas y se han obtenido de fuentes fiables, y sirven como un estándar para medir la precisión y competencia de la IA en áreas concretas.

No lo llamamos "examen" porque el proceso de cata es menos exhaustivo y más focalizado, lo cual es particularmente valioso cuando se necesita una evaluación rápida pero representativa, como es el caso. El objetivo de las catas no es demostrar la infalibilidad de la IA, sino obtener alguna evidencia de que tiene algunos "conocimientos" sobre el asunto. 

La aplicación de catas es particularmente útil en campos muy específicos y sobre los que dudamos que el modelo de lenguaje tenga entrenamiento. No se trata de hacer catas cada vez que vamos a hacer una pregunta a la IA. Este método tiene más sentido cuando lo que necesitamos es algo más que resolver una duda.

Imaginemos que necesitamos información sobre conceptos relacionados con el pago de impuestos en nuestro país. No se trata de una mera pregunta, sino de una conversación en la que vamos a obtener bastante más información, que además resulta ser muy relevante para nosotros. Aunque no pretendemos que la IA nos haga la declaración (no es recomendable), debemos asegurarnos de que alberga información sobre impuestos válida en nuestro país y para el año en curso.

Prepararíamos algunas preguntas concretas sobre los impuestos en el país que nos interesa, y buscaríamos las respuestas en alguna fuente lo más confiable posible. Para el ejemplo que nos ocupa no habría mejor fuente que el organismo que se encarga de recaudar los impuestos en nuestro país. Si la IA responde a las preguntas según lo esperado estaremos en disposición de entablar una productiva conversación con ella.

Dado que estas pruebas se basan en un conjunto limitado de preguntas, los resultados no reflejarán la capacidad global del sistema sobre la temática consultada. Más aún, aunque el número de preguntas se contara por decenas, nunca está garantizado que la IA conversacional no tenga errores en sus respuestas.

Aquí os dejo algunos ejemplos prácticos de catas para ilustrar sus posibles aplicaciones:

  • Primeros Auxilios: "¿Cuáles son los pasos para realizar la reanimación cardiopulmonar (RCP) en adultos?" Las respuestas se contrastarían con las pautas de organizaciones de salud reconocidas como la Cruz Roja.
  • Nutrición: "¿Cuántas calorías aproximadamente tiene una manzana mediana?" La respuesta se confirmaría con la Agencia Española de Seguridad Alimentaria y Nutrición (AESAN), o con la base de datos del Departamento de Agricultura de los Estados Unidos (USDA) sobre alimentos.
  • Normativa de Tráfico: "¿Cuál es la velocidad máxima permitida en zonas urbanas en España?" La respuesta debería verificarse en el Código de Tráfico y Seguridad Vial de España, disponible en el sitio web de la Dirección General de Tráfico.
  • Literatura Contemporánea: "¿Quién ganó el Premio Cervantes en 2020 y por qué obra?" La fuente para verificar la respuesta podría ser el Sitio web oficial del Ministerio de Cultura y Deporte de España.






Comentarios

Entradas populares de este blog

Echando un vistazo al reverso

Innovar o proteger

Rebelión en el imperio de la IA