#27 A ver, digo que se ha llegado al tope de lo que se puede hacer con la arquitectura actual de transformadores. Los LLMs actuales son muy buenos en imitar patrones y generar texto coherente, pero no tienen una comprensión profunda o "sentido común". No expresan sentido común. Responden basándose en correlaciones estadísticas más que en una verdadera comprensión del significado. La comprensión profunda implicaría una capacidad para razonar, entender contextos complejos, y aplicar conocimientos de manera flexible, algo que los modelos actuales no logran completamente. Los modelos actuales responden preguntas usando en el mejor de los casos búsqueda vectorial del coseno similar, es decir, aplican técnicas RAG en el que tú le das un contexto en forma de base de datos vectorial donde introduces tu dataset de alta calidad, y a partir de ahí, el LLM trata de escanear la respuesta a tu pregunta. Es como una forma de hacer bypass del entrenamiento inicial porque sabemos que dicho entrenamiento viene de todo internet, para lo bueno, y para lo malo. Internet es una gran biblioteca pero sin bibliotecario, por lo que han introducido mogollón de sesgos, información desactualizada, etc,...
Cuando digo que este modelo ha llegado a su fin es porque los investigadores reconocen que hay que ir por otro lado, por ejemplo, integrar el aprendizaje profundo con métodos de razonamiento simbólico. Los enfoques híbridos podrían combinar la capacidad de aprendizaje de patrones de los LLMs con el razonamiento basado en reglas y conocimientos explícitos. A día de hoy, aún no existen dichas matemáticas, se están investigando. Este modelo podría ofrecer una comprensión más profunda y una capacidad mejorada para manejar tareas que requieren razonamiento lógico y inferencias.
Otro enfoque es el basado en la biología, es decir, tomar inspiración de cómo funciona el cerebro humano y cómo procesamos y comprendemos información podría conducir a nuevas arquitecturas de IA más avanzadas.
Me baso también en que el consumo energético que necesita un modelo en modo cloud como GPT4 está en el orden de los 500 MW/hora, cuando los seres humanos funcionamos con apenas 20 Watios, eso indica que hay mucho trabajo por hacer y que este modelo es simplemente un gran avance, pero uno muy costoso.
Hay que, por poner una lista:
1) comprimir los modelos, hacer un pruning bestial, a ver si así conseguimos un consumo más manejable.
2) Hardware Especializado y Eficiente:
Chips Neuromórficos: Inspirados en la arquitectura del cerebro, estos chips están diseñados para ser extremadamente eficientes en términos de energía.
Optimizaciones en TPUs y GPUs: Las TPUs de Google y GPUs de Nvidia continúan mejorándose para ser más eficientes energéticamente, con cada nueva generación de hardware ofreciendo mejoras significativas.
Modelos Híbridos, más arriba los he introducido:
Integración Neuro-Simbólica: Combinar el aprendizaje profundo con el razonamiento simbólico puede mejorar la eficiencia y reducir la necesidad de cálculos intensivos.
Sistemas Multimodales: Integrar diferentes tipos de datos (texto, imágenes, audio) de manera eficiente puede mejorar el rendimiento general del sistema sin aumentar proporcionalmente el consumo energético. Esto es lo último que ha mostrado openAI, proveer de sentidos humanos a la IA.
Hay que ver el rendimiento de esto en producción, porque hemos visto demos muy controladas.
Centros de Datos Sostenibles: Utilizar energía renovable para alimentar los centros de datos puede mitigar el impacto ambiental del alto consumo energético.
Optimización del Enfriamiento y la Infraestructura: Mejorar la eficiencia de los centros de datos a través de tecnologías de enfriamiento avanzadas y la optimización de la infraestructura puede reducir el consumo total de energía.
Aprendizaje Continual: Desarrollar modelos que puedan aprender de manera incremental y actualizarse continuamente puede reducir la necesidad de entrenamientos completos repetidos.
Aprendizaje Federado: Permitir que los modelos aprendan de datos distribuidos sin necesidad de centralizarlos puede reducir el consumo de energía y mejorar la privacidad.
Algoritmos de Optimización: Innovaciones en algoritmos de optimización pueden hacer el entrenamiento más eficiente y rápido.
Reducción de Redundancias: Identificar y eliminar redundancias en los procesos de entrenamiento y inferencia puede conducir a ahorros significativos en términos de recursos computacionales y energéticos.
Ahora mismo estamos quemando muchísima energía en un momento especialmente peligroso para el clima, puede que si no resolvemos estos problemas antes, la IA se tenga que apagar.
Como ves, queda un montón.
Saludos.
#26, esto ya es opinable, para mí de GPT-3.5 a GPT-4, la mejora sí ha sido espectacular, a ver GPT-5. El caso es que si la tecnología no diera más de sí no habría ninguna mejora. Creo que estamos normalizando muy rápido lo que permite una tecnología que hace 5 años era incapaz de escribir una frase de 10 palabras sin dar pena. Decir que ya se ha llegado al tope, no tiene fundamento en mi opinión.