Ahora podemos entrenar grandes redes neuronales en dispositivos pequeños

Noticias

HogarHogar / Noticias / Ahora podemos entrenar grandes redes neuronales en dispositivos pequeños

Jun 13, 2024

Ahora podemos entrenar grandes redes neuronales en dispositivos pequeños

Los dispositivos que nos rodean aprenden constantemente sobre nuestras vidas. Los relojes inteligentes detectan nuestros signos vitales para realizar un seguimiento de nuestra salud. Los altavoces domésticos escuchan nuestras conversaciones para reconocer nuestras voces.

Los dispositivos que nos rodean aprenden constantemente sobre nuestras vidas. Los relojes inteligentes detectan nuestros signos vitales para realizar un seguimiento de nuestra salud. Los altavoces domésticos escuchan nuestras conversaciones para reconocer nuestras voces. Los teléfonos inteligentes juegan a ser gramáticos y observan lo que escribimos para corregir nuestros errores tipográficos idiosincrásicos. Apreciamos estas comodidades, pero la información que compartimos con nuestros dispositivos no siempre se mantiene entre nosotros y nuestros cuidadores electrónicos. El aprendizaje automático puede requerir hardware pesado, por lo que los dispositivos "periféricos", como los teléfonos, a menudo envían datos sin procesar a servidores centrales, que luego devuelven algoritmos entrenados. A algunas personas les gustaría que esa capacitación se impartiera localmente. Un nuevo método de entrenamiento de IA amplía las capacidades de entrenamiento de dispositivos más pequeños, lo que potencialmente ayuda a preservar la privacidad.

Los sistemas de aprendizaje automático más potentes utilizan redes neuronales, funciones complejas repletas de parámetros ajustables. Durante el entrenamiento, una red recibe una entrada (como un conjunto de píxeles), genera una salida (como la etiqueta "gato"), compara su salida con la respuesta correcta y ajusta sus parámetros para hacerlo mejor la próxima vez. Para saber cómo sintonizar cada uno de esos mandos internos, la red necesita recordar el efecto de cada uno, pero normalmente se cuentan por millones o incluso miles de millones. Eso requiere mucha memoria. Entrenar una red neuronal puede requerir cientos de veces la memoria requerida cuando simplemente se usa una (también llamado “inferencia”). En el último caso, la memoria puede olvidar lo que hizo cada capa de la red tan pronto como pasa información a la siguiente capa.

Para reducir la memoria necesaria durante la fase de entrenamiento, los investigadores han empleado algunos trucos. En uno, llamado paginación o descarga, la máquina mueve esas activaciones de la memoria a corto plazo a un tipo de memoria más lenta pero más abundante, como una flash o una tarjeta SD, y luego la recupera cuando es necesario. En otro, llamado rematerialización, la máquina elimina las activaciones y luego las vuelve a calcular. Anteriormente, los sistemas de reducción de memoria usaban uno de esos dos trucos o, dice Shishir Patil, científico informático de la Universidad de California, Berkeley, y autor principal del artículo que describe la innovación, se combinaban usando "heurísticas" que son " subóptimo”, que a menudo requiere mucha energía. La innovación reportada por Patil y sus colaboradores formaliza la combinación de paginación y rematerialización.

"Tomar estas dos técnicas, combinarlas bien en este problema de optimización y luego resolverlo es realmente bueno", dice Jiasi Chen, científico informático de la Universidad de California en Riverside, que trabaja en informática de punta pero no participó en el proyecto. trabajar.

En julio, Patil presentó su sistema, denominado POET (entrenamiento privado de energía óptima), en la Conferencia Internacional sobre Aprendizaje Automático, en Baltimore. Primero le da a POET los detalles técnicos de un dispositivo e información sobre la arquitectura de una red neuronal que quiere que entrene. Especifica un presupuesto de memoria y un presupuesto de tiempo. Luego le pide que cree un proceso de capacitación que minimice el uso de energía. El proceso podría decidir paginar ciertas activaciones que serían ineficaces de recalcular, pero rematerializar otras que son simples de rehacer pero que requieren mucha memoria para almacenar.

Una de las claves del avance fue definir el problema como un rompecabezas de programación lineal entera mixta (MILP), un conjunto de restricciones y relaciones entre variables. Para cada dispositivo y arquitectura de red, POET conecta sus variables al programa MILP hecho a mano por Patil y luego encuentra la solución óptima. "Un desafío principal es en realidad formular ese problema de una manera agradable para poder ingresarlo en un solucionador", dice Chen. "Entonces, se captura toda la dinámica realista del sistema, como la energía, la latencia y la memoria".

El equipo probó POET en cuatro procesadores diferentes, cuya RAM oscilaba entre 32 KB y 8 GB. En cada uno, los investigadores entrenaron tres arquitecturas de redes neuronales diferentes: dos tipos populares en reconocimiento de imágenes (VGG16 y ResNet-18), además de una popular red de procesamiento de lenguaje (BERT). En muchas de las pruebas, el sistema pudo reducir el uso de la memoria en aproximadamente un 80 por ciento, sin un gran aumento en el uso de energía. Métodos comparables no podrían hacer ambas cosas al mismo tiempo. Según Patil, el estudio demostró que BERT ahora se puede entrenar en los dispositivos más pequeños, lo que antes era imposible.

"Cuando empezamos, POET era principalmente una linda idea", dice Patil. Ahora, varias empresas se han puesto en contacto para utilizarlo y al menos una gran empresa lo ha probado en su altavoz inteligente. Una cosa que les gusta, dice Patil, es que POET no reduce la precisión de la red "cuantizando" o abreviando las activaciones para ahorrar memoria. Por lo tanto, los equipos que diseñan redes no tienen que coordinarse con los equipos que las implementan para negociar compensaciones entre precisión y memoria.

Patil señala otras razones para utilizar POET además de las preocupaciones por la privacidad. Algunos dispositivos necesitan entrenar redes localmente porque tienen poca o ninguna conexión a Internet. Estos incluyen dispositivos utilizados en granjas, submarinos o en el espacio. Otras configuraciones pueden beneficiarse de la innovación porque la transmisión de datos requiere demasiada energía. POET también podría hacer que los dispositivos grandes (servidores de Internet) sean más eficientes en memoria y energía. Pero en cuanto a mantener la privacidad de los datos, Patil dice: "Supongo que es muy oportuno, ¿verdad?"