Les chercheurs de Princeton ont totalement réinventé la physique de l’informatique pour créer une puce adaptée aux charges de travail modernes de l’IA, et avec le nouveau soutien du gouvernement américain, ils verront à quel point cette puce peut être rapide, compacte et économe en énergie. Un premier prototype est illustré ci-dessus. Crédit : Hongyang Jia/Université de Princeton
Le projet avancé de puce d’IA de Princeton, soutenu par DARPA et EnCharge AI, promet des améliorations significatives en termes d’efficacité énergétique et de puissance de calcul, visant à révolutionner l’accessibilité et les applications de l’IA.
Le plus grand organisme de recherche du ministère de la Défense s’est associé à un effort dirigé par Princeton pour développer des micropuces avancées pour l’intelligence artificielle.
Le nouveau matériel réinvente les puces IA pour les charges de travail modernes et peut exécuter de puissants systèmes IA en utilisant beaucoup moins d’énergie que les systèmes les plus avancés d’aujourd’hui. semi-conducteurs, selon Naveen Verma, professeur de génie électrique et informatique. Verma, qui dirigera le projet, a déclaré que les avancées franchissent les principaux obstacles qui ont bloqué les puces pour l’IA, notamment la taille, l’efficacité et l’évolutivité.
Révolutionner le déploiement de l’IA
Des puces qui nécessitent moins d’énergie peuvent être déployées pour exécuter l’IA dans des environnements plus dynamiques, des ordinateurs portables et téléphones aux hôpitaux et autoroutes en passant par l’orbite terrestre basse et au-delà. Les types de puces qui alimentent les modèles les plus avancés d’aujourd’hui sont trop encombrants et inefficaces pour fonctionner sur de petits appareils, et sont principalement réservés aux racks de serveurs et aux grands centres de données.
Aujourd’hui, la Defense Advanced Research Projects Agency, ou DARPA, a annoncé qu’elle soutiendrait les travaux de Verma, basés sur une suite d’inventions clés de son laboratoire, avec une subvention de 18,6 millions de dollars. Le financement de la DARPA permettra d’explorer la rapidité, la compacité et l’efficacité énergétique de la nouvelle puce.
« Il existe une limitation assez importante dans le fait que la meilleure IA disponible se trouve uniquement dans le centre de données », a déclaré Verma. « Vous débloquez cela et les façons dont nous pouvons tirer de la valeur de l’IA, je pense, explosent. »
Le professeur Naveen Verma dirigera un projet soutenu par les États-Unis visant à dynamiser le matériel d’IA basé sur une suite d’inventions clés de son laboratoire de Princeton. Crédit : Sameer A. Khan/Fotobuddy
Cette annonce s’inscrit dans le cadre d’un effort plus large de la DARPA visant à financer « les progrès révolutionnaires de la science, des appareils et des systèmes » pour la prochaine génération d’IA informatique. Le programme, appelé OPTIMA, comprend des projets dans plusieurs universités et entreprises. L’appel à propositions du programme estimait le financement total à 78 millions de dollars, bien que la DARPA n’ait pas divulgué la liste complète des institutions ni le montant total du financement que le programme a accordé à ce jour.
L’émergence d’EnCharge AI
Dans le cadre du projet dirigé par Princeton, les chercheurs collaboreront avec la startup de Verma, EnCharge AI. Basée à Santa Clara, en Californie, EnCharge AI commercialise des technologies basées sur les découvertes du laboratoire de Verma, y compris plusieurs articles clés qu’il a co-écrits avec des étudiants diplômés en génie électrique remontant jusqu’en 2016.
Encharge AI « apporte un leadership dans le développement et l’exécution d’architectures informatiques à signaux mixtes robustes et évolutives », selon la proposition de projet. Verma a cofondé l’entreprise en 2022 avec Kailash Gopalakrishnan, ancien IBM Fellow, et Echere Iroaga, leader dans la conception de systèmes à semi-conducteurs.
Gopalakrishnan a déclaré que l’innovation au sein des architectures informatiques existantes, ainsi que les améliorations de la technologie du silicium, ont commencé à ralentir exactement au moment où l’IA commençait à créer de nouvelles demandes massives en matière de puissance et d’efficacité de calcul. Même la meilleure unité de traitement graphique (GPU), utilisée pour exécuter les systèmes d’IA actuels, ne peut pas atténuer les goulots d’étranglement en matière de mémoire et d’énergie de calcul auxquels l’industrie est confrontée.
« Bien que les GPU soient le meilleur outil disponible aujourd’hui », a-t-il déclaré, « nous avons conclu qu’un nouveau type de puce sera nécessaire pour libérer le potentiel de l’IA ».
Transformer le paysage informatique de l’IA
Entre 2012 et 2022, la quantité de puissance de calcul requise par les modèles d’IA a augmenté d’environ 1 million de pour cent, selon Verma, qui est également directeur du Keller Center for Innovation in Engineering Education à université de Princeton. Pour répondre à la demande, les dernières puces contiennent des dizaines de milliards de transistors, chacun séparé par la largeur d’un petit virus. Et pourtant, la puissance de calcul des puces n’est toujours pas suffisamment dense pour répondre aux besoins modernes.
Les principaux modèles actuels, qui combinent de grands modèles de langage avec la vision par ordinateur et d’autres approches de apprentissage automatique, ont été développés en utilisant chacun plus d’un billion de variables. Les GPU conçus par Nvidia qui ont alimenté le boom de l’IA sont devenus si précieux que de grandes entreprises les transporteraient via des véhicules blindés. Les retards dans l’achat ou la location de ces puces s’étendent jusqu’à disparaître.
Lorsque Nvidia est devenue la troisième entreprise à atteindre une valorisation de 2 000 milliards de dollars, le Wall Street Journal a rapporté qu’une part en augmentation rapide des revenus de l’entreprise ne provenait pas du développement de modèles, appelés formation, mais de puces permettant l’utilisation de Systèmes d’IA une fois qu’ils sont déjà formés. Les technologues appellent cette étape de déploiement l’inférence. Et l’inférence est le domaine où Verma affirme que ses recherches auront le plus d’impact à court et moyen terme.
« Il s’agit avant tout de décentraliser l’IA, en la libérant du centre de données », a-t-il déclaré. « Il faut sortir du centre de données et aller vers des endroits où nous et les processus qui comptent pour nous pouvons accéder le plus possible à l’informatique, c’est-à-dire les téléphones, les ordinateurs portables, les usines, ce genre de choses. »
Technologie innovante de puce IA
Pour créer des puces capables de gérer les charges de travail d’IA modernes dans des environnements compacts ou à consommation énergétique limitée, les chercheurs ont dû réinventer complètement la physique de l’informatique tout en concevant et en emballant du matériel pouvant être fabriqué avec les techniques de fabrication existantes et pouvant bien fonctionner avec les technologies informatiques existantes. comme une unité centrale de traitement.
« Les modèles d’IA ont explosé en taille », a déclaré Verma, « et cela signifie deux choses ». Les puces d’IA doivent devenir beaucoup plus efficaces pour faire des mathématiques et bien plus efficaces pour gérer et déplacer des données.
Leur approche comporte trois parties clés.
L’architecture de base de pratiquement tous les ordinateurs numériques a suivi un modèle d’une simplicité trompeuse développé pour la première fois dans les années 1940 : stocker les données à un endroit, effectuer les calculs à un autre. Cela signifie faire la navette entre les cellules de mémoire et le processeur. Au cours de la dernière décennie, Verma a été un pionnier en matière de recherche sur une approche actualisée dans laquelle le calcul est effectué directement dans les cellules de mémoire, appelé calcul en mémoire. C’est la première partie. La promesse est que l’informatique en mémoire réduira le temps et l’énergie nécessaires au déplacement et au traitement de grandes quantités de données.
Mais jusqu’à présent, les approches numériques de l’informatique en mémoire ont été très limitées. Verma et son équipe se sont tournés vers une approche alternative : le calcul analogique. C’est la deuxième partie.
« Dans le cas particulier de l’informatique en mémoire, vous devez non seulement effectuer des calculs efficaces », a déclaré Verma, « vous devez également le faire avec une très haute densité, car il doit désormais tenir dans ces très petites cellules de mémoire ». Plutôt que de coder les informations dans une série de 0 et de 1 et de traiter ces informations à l’aide de circuits logiques traditionnels, les ordinateurs analogiques exploitent la physique plus riche des appareils. La courbure d’un engrenage. La capacité d’un fil à retenir une charge électrique.
Les signaux numériques ont commencé à remplacer les signaux analogiques dans les années 1940, principalement parce que le code binaire s’est mieux adapté à la croissance exponentielle de l’informatique. Mais les signaux numériques n’exploitent pas profondément la physique des appareils et, par conséquent, ils peuvent nécessiter davantage de stockage et de gestion de données. Ils sont alors moins efficaces. L’analogique tire son efficacité du traitement de signaux plus fins en utilisant la physique intrinsèque des appareils. Mais cela peut entraîner un compromis en termes de précision.
« La clé est de trouver la bonne physique pour le travail dans un dispositif qui peut être extrêmement bien contrôlé et fabriqué à grande échelle », a déclaré Verma.
Son équipe a trouvé un moyen d’effectuer des calculs très précis en utilisant le signal analogique généré par des condensateurs spécialement conçus pour s’allumer et s’éteindre avec une précision extrême. C’est la troisième partie. Contrairement aux dispositifs semi-conducteurs tels que les transistors, l’énergie électrique circulant dans les condensateurs ne dépend pas de conditions variables telles que la température et la mobilité électronique dans un matériau.
« Ils dépendent uniquement de la géométrie », a déclaré Verma. « Ils dépendent de l’espace entre un fil métallique et l’autre fil métallique. » Et la géométrie est une chose que les techniques actuelles de fabrication de semi-conducteurs les plus avancées peuvent extrêmement bien contrôler.
Crédit: Lien source


Les commentaires sont fermés.