Huawei Lanza SINQ: Cuantización abierta que reduce el uso de memoria de LLMs hasta 70%

El laboratorio de Huawei en Zúrich acaba de lanzar SINQ, una técnica de cuantización de código abierto que promete reducir el uso de memoria en modelos de lenguaje grandes (LLM) hasta en un 60-70%, sin perder calidad en las respuestas. Imagínate poder ejecutar esos modelos monstruosos que antes necesitaban máquinas empresariales caras en hardware más accesible, como una sola GPU de consumo. Esto es un gran paso para democratizar la IA, especialmente para equipos en América Latina que no siempre pueden invertir en equipos de miles de dólares.

La cuantización reduce la precisión de los números en la red neuronal, pasando de flotantes a enteros de menor bit, lo que ahorra memoria y acelera cómputos, pero usualmente sacrifica un poco de exactitud. SINQ, o Sinkhorn-Normalized Quantization, evita eso al ser rápida, sin necesidad de calibración y fácil de integrar en flujos existentes. Por ejemplo, modelos que requerían más de 60 GB ahora corren en unos 20 GB, permitiendo usar GPUs como la Nvidia GeForce RTX 4090 (alrededor de 1600 dólares) en lugar de A100 de 80 GB que cuestan 19.000 dólares. En la nube, el ahorro es notable: instancias con A100 salen de 3 a 4,50 dólares por hora, mientras que con 24 GB como la RTX están entre 1 a 1,50 dólares. Para proyectos largos, esto suma ahorros de miles de dólares, ideal para startups o investigadores independientes.

Lo innovador de SINQ está en su escalado dual: en vez de un factor único para una matriz, usa vectores separados para filas y columnas, distribuyendo mejor los errores de cuantización y manejando valores atípicos. Además, incorpora una normalización estilo Sinkhorn-Knopp que equilibra las desviaciones estándar, minimizando desequilibrios que afectan la calidad. Esto lo hace superior a métodos como RTN, HQQ o cuantización basada en Hadamard en benchmarks. No depende de datos de calibración ni de dependencias entre capas, lo que lo vuelve plug-and-play. En resumen de sus ventajas, mantiene la fidelidad del modelo incluso en precisiones bajas de 4 bits o menos.

El logo de Huawei SINQ

En pruebas con arquitecturas variadas como Qwen3, LLaMA y DeepSeek, SINQ baja la perplejidad y tasas de error en datasets como WikiText2 y C4, acercándose a soluciones calibradas. Soporta esquemas no uniformes como NF4 y se combina con métodos como AWQ para una variante A-SINQ que cierra la brecha con la precisión completa. En eficiencia, cuantiza modelos dos veces más rápido que HQQ y 30 veces más que AWQ, perfecto para entornos de investigación o producción donde el tiempo cuenta. Esto facilita deployar LLMs en clústeres pequeños, workstations locales o setups de consumo que antes estaban limitados por memoria. Para nosotros en el sur del continente, donde el acceso a hardware top no es tan fácil, esto abre puertas a innovar sin barreras económicas.

Huawei ha liberado SINQ bajo licencia Apache 2.0, permisiva y amigable con empresas, con código en GitHub y Hugging Face para cuantizar modelos de HF con pocas líneas. Incluye herramientas para guardar y recargar pesos cuantizados, con parámetros personalizables como ancho de bit o tamaño de grupo. Hay integración con lm-eval para evaluaciones y planes para modelos pre-cuantizados en Hugging Face Hub. Esto lo hace accesible incluso para quienes no son expertos en optimización de modelos. Con actualizaciones futuras como integración en Transformers, SINQ se posiciona como una herramienta clave en el espacio de cuantización.

Fuente | VentureBeat