![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Inscripteur: un cadre pour le choix dynamiquement entre le raisonnement court et long dans les modèles de langues
May 23, 2025 at 01:59 pm
L'efficacité des modèles de langue repose sur leur capacité à simuler la déduction étape par étape de type humain. Cependant, ces séquences de raisonnement sont à forte intensité de ressources et peuvent être inutiles pour des questions simples qui ne nécessitent pas de calcul élaboré. Ce manque de conscience concernant la complexité de la tâche est l'un des principaux défis de ces modèles. Ils ont souvent par défaut un raisonnement détaillé, même pour les requêtes qui pourraient être répondues directement.
Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.
Des chercheurs de l'Université nationale de Singapour ont développé un nouveau cadre appelé Thinkless qui permet à un modèle de langue de décider de manière autonome pour utiliser le raisonnement court ou long, adaptant sa réponse à la complexité de la tâche à accomplir.
The framework, which is built on reinforcement learning, introduces two special control tokens:
Le cadre, qui est construit sur l'apprentissage du renforcement, présente deux jetons de contrôle spéciaux:
*
* Pour des réponses concises et
*
* Pour des réponses détaillées.
By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.
En incorporant un nouvel algorithme appelé optimisation de politique relative du groupe découplé (DEGRPO), Thinkless sépare la mise au point de la formation entre la sélection du mode de raisonnement et l'amélioration de la précision de la réponse générée.
This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.
Cette conception empêche le modèle de tomber dans un comportement unidimensionnel et permet un raisonnement adaptatif adapté à chaque requête.
The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.
La méthodologie implique deux étapes: la distillation de l'échauffement et l'apprentissage du renforcement. Dans la phase de distillation, Thinkless est formé à l'aide de sorties de deux modèles experts - l'un spécialisé dans les réponses courtes et l'autre dans un raisonnement détaillé. Cette étape aide le modèle à établir un lien ferme entre le jeton de contrôle et le format de raisonnement souhaité.
The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.
L'étape d'apprentissage du renforcement affine ensuite la capacité du modèle à décider quel mode de raisonnement utiliser. Degrpo décompose l'apprentissage en deux objectifs distincts: l'un pour la formation du jeton de contrôle et un autre pour affiner les jetons de réponse.
This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both
Cette approche évite les déséquilibres de gradient dans les modèles antérieurs, où les réponses plus longues domineraient le signal d'apprentissage, conduisant à un effondrement de la diversité du raisonnement. Thinkless garantit que les deux et les jetons reçoivent des mises à jour équilibrées, favorisant l'apprentissage stable entre les types de réponse.
When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the
Lorsqu'il est évalué, le réflexion considérable a considérablement réduit le raisonnement long tout en préservant une grande précision. Sur la référence Minerva Algebra, le modèle a utilisé le jeton dans seulement 25,88% des cas tout en atteignant une précision de 94,59%. En revanche, les modèles de raisonnement conventionnel devaient utiliser des chaînes de pensée étendues beaucoup plus fréquemment.
On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized
Sur l'ensemble de données AIME 2024, Thinkless a atteint un taux de précision de 27,33% avec une utilisation à 100% du mode de raisonnement, montrant qu'il pouvait maintenir les performances lorsque le raisonnement complet était nécessaire. Sur l'ensemble de données GSM8K, il a utilisé 13,31% du temps, mais a quand même atteint une précision de 84,18%.
These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.
Ces résultats reflètent la capacité du modèle à gérer les requêtes simples et complexes avec une profondeur de raisonnement appropriée, réduisant la génération de jetons inutile jusqu'à 90% dans certaines tâches.
This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.
Cette étude, intitulée «Thinkless: Equipping Language Models for Autonomous Profondeur Control in Reashing», est une contribution précieuse au domaine du traitement du langage naturel, présentant une méthode pratique et efficace pour optimiser les modèles de gros langues pour des tâches diverses et complexes.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
-
-
- Japon, Metaplanet et Bitcoin Acquisition: une nouvelle ère de trésorerie d'entreprise?
- Aug 04, 2025 at 01:53 pm
- La stratégie d'acquisition agressive de Bitcoin de Metaplanet au Japon indique un changement dans la gestion des trésors des entreprises, tirée par la confiance institutionnelle et le sentiment haussier du marché.
-
- Coinbase's Buy Rating & Bitcoin's Bold Future: A Canaccord Genuity Perspective
- Aug 04, 2025 at 01:48 pm
- Canaccord Genuity réaffirme sa note «acheter» pour Coinbase (Coin) au milieu de l'appel du PDG pour les réserves de Bitcoin, signalant un changement dans le rôle de la crypto dans la finance mondiale.
-
-
-
- Crypto Crate: la liste blanche de Moonbull, l'empire des Penguins grassouillants et la manie de la pièce de mème
- Aug 04, 2025 at 01:45 pm
- Explorez le monde sauvage de la crypto avec la frénésie de liste blanche exclusive de Moonbull, l'expansion de la marque des Penguins grassouillants et la manie globale de Meme Coin. Ne manquez pas!
-
-
- IA, crypto et projets: naviguer dans l'avenir des actifs numériques
- Aug 04, 2025 at 01:29 pm
- Explorez la convergence des projets d'IA et de crypto, en découvrant les tendances clés, les idées et les opportunités d'investissement potentielles dans cet espace dynamique. Des échanges alimentés par l'IA aux solutions de blockchain, découvrez l'avenir des actifs numériques.