$98777.721712 USD

2.53%

ethereum

$1860.886838 USD

2.21%

tether

$1.000198 USD

0.01%

xrp

$2.171331 USD

1.39%

bnb

$608.064054 USD

1.06%

solana

$150.182992 USD

2.92%

usd-coin

$1.000135 USD

0.01%

dogecoin

$0.177773 USD

4.19%

cardano

$0.701641 USD

4.02%

tron

$0.249462 USD

2.11%

sui

$3.587954 USD

6.89%

chainlink

$14.328735 USD

3.42%

avalanche

$20.069571 USD

1.40%

stellar

$0.267019 USD

2.34%

unus-sed-leo

$8.829380 USD

1.23%

Articles d’actualité sur les crypto-monnaies

Les chercheurs de l'Université Brown développent un modèle d'IA qui peut générer du mouvement dans les robots et les figures animées

May 09, 2025 at 03:08 am

Le modèle, appelé MotionGlot, permet aux utilisateurs de simplement taper une action - «avancer quelques étapes et prendre un droit» - et le modèle peut générer des représentations précises de ce mouvement pour commander un robot ou un avatar animé.

Researchers at Brown University have developed an artificial intelligence model that can generate movement in robots and animated figures in much the same way that AI models like ChatGPT generate text.

Des chercheurs de l'Université Brown ont développé un modèle d'intelligence artificielle qui peut générer du mouvement dans les robots et des figures animées de la même manière que les modèles d'IA comme Chatgpt génèrent du texte.

The model, called MotionGlot, enables users to simply type an action — “walk forward a few steps and take a right”— and the model can generate accurate representations of that motion to command a robot or animated avatar.

The model’s key advance, according to the researchers, is its ability to “translate” motion across robot and figure types, from humanoids to quadrupeds and beyond. That enables the generation of motion for a wide range of robotic embodiments and in all kinds of spatial configurations and contexts.

Selon les chercheurs, la clé du modèle est sa capacité à «traduire» le mouvement à travers les types de robot et de figures, des humanoïdes aux quadrupèdes et au-delà. Cela permet la génération de mouvement pour un large éventail de modes de réalisation robotiques et dans toutes sortes de configurations et de contextes spatiaux.

“We’re treating motion as simply another language,” said Sudarshan Harithas, a Ph.D. student in computer science at Brown, who led the work. “And just as we can translate languages — from English to Chinese, for example — we can now translate language-based commands to corresponding actions across multiple embodiments. That enables a broad set of new applications.”

«Nous traitons le mouvement comme une autre langue», a déclaré Sudarshan Harithas, un doctorat. Étudiant en informatique à Brown, qui a dirigé le travail. «Et tout comme nous pouvons traduire les langues - de l'anglais vers le chinois, par exemple - nous pouvons maintenant traduire des commandes basées sur la langue en actions correspondantes sur plusieurs modes de réalisation. Cela permet un large ensemble d'applications nouvelles.»

The research, which was supported by the Office of Naval Research, will be presented later this month at the 2025 International Conference on Robotics and Automation in Atlanta. The work was co-authored by Harithas and his advisor, Srinath Sridhar, an assistant professor of computer science at Brown.

La recherche, qui a été soutenue par l'Office of Naval Research, sera présentée plus tard ce mois-ci à la Conférence internationale de 2025 sur la robotique et l'automatisation à Atlanta. Le travail a été co-écrit par Harithas et son conseiller, Srinath Sridhar, professeur adjoint d'informatique chez Brown.

Large language models like ChatGPT generate text through a process called “next token prediction,” which breaks language down into a series of tokens, or small chunks, like individual words or characters. Given a single token or a string of tokens, the language model makes a prediction about what the next token might be. These models have been incredibly successful in generating text, and researchers have begun using similar approaches for motion. The idea is to break down the components of motion— the discrete position of legs during the process of walking, for example — into tokens. Once the motion is tokenized, fluid movements can be generated through next token prediction.

Des modèles de grands langues comme ChatGpt génèrent du texte via un processus appelé «Next Token Prediction», qui décompose le langage en une série de jetons ou de petits morceaux, comme des mots ou des personnages individuels. Compte tenu d'un seul jeton ou d'une chaîne de jetons, le modèle de langue fait une prédiction sur ce que pourrait être le jeton suivant. Ces modèles ont réussi à générer du texte, et les chercheurs ont commencé à utiliser des approches similaires pour le mouvement. L'idée est de briser les composantes du mouvement - la position discrète des jambes pendant le processus de marche, par exemple - en jetons. Une fois le mouvement à tokenisé, les mouvements fluides peuvent être générés par la prédiction du jetons suivant.

One challenge with this approach is that motions for one body type can look very different for another. For example, when a person is walking a dog down the street, the person and the dog are both doing something called “walking,” but their actual motions are very different. One is upright on two legs; the other is on all fours. According to Harithas, MotionGlot can translate the meaning of walking from one embodiment to another. So a user commanding a figure to “walk forward in a straight line” will get the correct motion output whether they happen to be commanding a humanoid figure or a robot dog.

Un défi avec cette approche est que les mouvements pour un type de corps peuvent être très différents pour un autre. Par exemple, lorsqu'une personne marche un chien dans la rue, la personne et le chien font tous les deux quelque chose appelé «marche», mais ses mouvements réels sont très différents. L'un est droit sur deux jambes; L'autre est à quatre pattes. Selon Harithas, MotionGlot peut traduire le sens de marcher d'un mode de réalisation à un autre. Ainsi, un utilisateur commandant une figure pour «avancer en ligne droite» obtiendra la sortie de mouvement correcte, qu'il soit commandant une figure humanoïde ou un chien de robot.

To train their model, the researchers used two datasets, each containing hours of annotated motion data. QUAD-LOCO features dog-like quadruped robots performing a variety of actions along with rich text describing those movements. A similar dataset called QUES-CAP contains real human movement, along with detailed captions and annotations appropriate to each movement.

Pour former leur modèle, les chercheurs ont utilisé deux ensembles de données, chacun contenant des heures de données de mouvement annotées. Quad-Loco présente des robots quadrupèdes en forme de chien effectuant une variété d'actions ainsi qu'un texte riche décrivant ces mouvements. Un ensemble de données similaire appelé Ques-Cap contient un véritable mouvement humain, ainsi que des légendes et des annotations détaillées appropriées à chaque mouvement.

Using that training data, the model reliably generates appropriate actions from text prompts, even actions it has never specifically seen before. In testing, the model was able to recreate specific instructions, like “a robot walks backwards, turns left and walks forward,” as well as more abstract prompts like “a robot walks happily.” It can even use motion to answer questions. When asked “Can you show me movement in cardio activity?” the model generates a person jogging.

En utilisant ces données de formation, le modèle génère de manière fiable des actions appropriées à partir d'invites de texte, même des actions qu'elle n'a jamais spécifiquement vues auparavant. Lors des tests, le modèle a pu recréer des instructions spécifiques, comme «un robot marche en arrière, se tourne à gauche et avance», ainsi que des invites plus abstraites comme «un robot marche joyeusement». Il peut même utiliser Motion pour répondre aux questions. Lorsqu'on lui a demandé "pouvez-vous me montrer un mouvement dans l'activité cardio?" Le modèle génère un jogging d'une personne.

“These models work best when they’re trained on lots and lots of data,” Sridhar said. “If we could collect large-scale data, the model can be easily scaled up.”

"Ces modèles fonctionnent mieux lorsqu'ils sont formés sur beaucoup, beaucoup de données", a déclaré Sridhar. «Si nous pouvions collecter des données à grande échelle, le modèle peut être facilement mis à l'échelle.»

The model’s current functionality and the adaptability across embodiments make for promising applications in human-robot collaboration, gaming and virtual reality, and digital animation and video production, the researchers say. They plan to make the model and its source code publicly available so other researchers can use it and expand on it.

Les fonctionnalités actuelles du modèle et l'adaptabilité entre les modes de réalisation font des applications prometteuses dans la collaboration, le jeu et la réalité virtuelle humaine, et l'animation numérique et la production vidéo, selon les chercheurs. Ils prévoient de rendre le modèle et son code source accessible au public afin que d'autres chercheurs puissent l'utiliser et l'expansion.

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur May 09, 2025

Plus