Lección 1 · No todas las IA “ven”, “leen” o “oyen” del mismo modo

Curso introductorio de Inteligencia Artificial

Cuando una persona usa una IA para escribir, analizar una imagen o generar un vídeo, puede tener la impresión de que el sistema trabaja siempre de la misma manera y simplemente cambia el tipo de contenido. En realidad, no es así. Aunque exista una lógica común de entrada, procesamiento y salida, la forma interna de representar la información cambia según el tipo de medio con el que la IA está trabajando.

El lenguaje, por ejemplo, suele tratarse como una secuencia estructurada de unidades —tokens— que el modelo procesa para relacionar unas partes con otras. Una imagen, en cambio, no se maneja como un texto: se representa como información visual, patrones espaciales, rasgos, formas, colores, texturas y relaciones entre regiones. El vídeo añade todavía otra capa de complejidad, porque no solo contiene imagen: contiene también continuidad entre fotogramas, movimiento, persistencia visual y cambios a lo largo del tiempo.

Por eso conviene abandonar una idea simplista bastante extendida: la de que existe una sola “IA universal” que simplemente cambia de formato según la petición. Lo más correcto es pensar en familias de sistemas y arquitecturas capaces de tratar modalidades distintas de información, a veces por separado y a veces combinadas.

Este módulo no busca entrar en detalles matemáticos, pero sí dejar una base sólida. Si el alumno comprende que texto, imagen y vídeo no se representan igual, entenderá mejor por qué la calidad, los límites y los resultados de la IA pueden variar tanto según la tarea.

📌

Idea clave

La IA no trata del mismo modo una frase, una imagen y una secuencia de vídeo. Cambia la representación de la información y cambia también la dificultad de la tarea.