$114785.940846 USD

1.16%

ethereum

$3573.788526 USD

3.85%

xrp

$3.013711 USD

6.60%

tether

$1.000073 USD

0.03%

bnb

$756.388099 USD

1.68%

solana

$164.326962 USD

2.31%

usd-coin

$0.999715 USD

-0.01%

tron

$0.327508 USD

1.24%

dogecoin

$0.202611 USD

3.35%

cardano

$0.739849 USD

3.73%

hyperliquid

$38.725434 USD

3.02%

stellar

$0.412791 USD

10.10%

sui

$3.499031 USD

2.58%

chainlink

$16.619697 USD

4.60%

bitcoin-cash

$552.204567 USD

4.30%

Nachrichtenartikel zu Kryptowährungen

Denklos: Ein Rahmen für die dynamische Wahl zwischen kurzem und langem Argumentation in Sprachmodellen

May 23, 2025 at 01:59 pm

Die Wirksamkeit von Sprachmodellen beruht auf ihrer Fähigkeit, einen Schritt-für-Schritt-Abzug von Menschen zu simulieren. Diese Argumentationssequenzen sind jedoch ressourcenintensiv und können für einfache Fragen verschwenderisch sein, die keine ausführliche Berechnung erfordern. Dieses mangelnde Bewusstsein für die Komplexität der Aufgabe ist eine der zentralen Herausforderungen in diesen Modellen. Sie sind häufig standardmäßig detaillierte Argumente für Fragen, die direkt beantwortet werden konnten.

Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.

Forscher der Nationalen Universität von Singapur haben ein neues Rahmen entwickelt, das als Thinkess bezeichnet wird und ein Sprachmodell autonom entscheidet, ob kurz- oder langformatige Argumentation verwendet werden soll, und die Reaktion auf die Komplexität der jeweiligen Aufgabe anpassen.

The framework, which is built on reinforcement learning, introduces two special control tokens:

Das Rahmen, das auf Verstärkungslernen basiert, führt zwei spezielle Kontroll -Token ein:

* for concise answers and

* Für präzise Antworten und

* for detailed responses.

* Für detaillierte Antworten.

By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.

Durch die Einbeziehung eines neuartigen Algorithmus namens entkoppelter Gruppenrelatik -Richtlinienoptimierung (DEGRPO) trennt Thinklose den Trainingsfokus zwischen der Auswahl des Argumentationsmodus und der Verbesserung der Genauigkeit der generierten Reaktion.

This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.

Dieses Design verhindert, dass das Modell in eindimensionales Verhalten fällt, und ermöglicht das auf jede Abfrage zugeschnittene adaptive Argumentation.

The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.

Die Methodik umfasst zwei Phasen: Aufwärmendestillation und Verstärkungslernen. In der Destillationsphase wird Thinklose unter Verwendung von Outputs aus zwei Expertenmodellen trainiert - einer, die sich auf kurze Antworten spezialisiert haben, und das andere in detailliertem Denken. Diese Phase hilft dem Modell dabei, eine feste Verbindung zwischen dem Kontroll -Token und dem gewünschten Argumentationsformat herzustellen.

The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.

Die Verstärkungslernenstufe stimmt dann die Fähigkeit des Modells, zu entscheiden, welchen Argumentationsmodus verwendet werden soll. DeGrpo zersetzt das Lernen in zwei getrennte Ziele: eine zum Training des Kontrolltipps und eines zur Verfeinerung der Reaktions -Token.

This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both and tokens receive balanced updates, promoting stable learning across response types.

Dieser Ansatz vermeidet die Gradiententlegungen in früheren Modellen, bei denen längere Antworten das Lernsignal überwältigen würden, was zu einem Zusammenbruch der Argumentation der Vielfalt führt. Thinkess stellt sicher, dass beide und Token ausgewogene Updates erhalten und ein stabiles Lernen über die Antworttypen hinweg fördern.

When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the token in only 25.88% of cases while achieving 94.59% accuracy. In contrast, conventional reasoning models had to use extended chains of thought much more frequently.

Bei der Bewertung verringerte Denklose den Langformpunkt signifikant, während sie eine hohe Genauigkeit bewahrt. Auf der Benchmark von Minerva Algebra verwendete das Modell das Token in nur 25,88% der Fälle und erreichte gleichzeitig 94,59% Genauigkeit. Im Gegensatz dazu mussten herkömmliche Argumentationsmodelle erweiterte Denkketten viel häufiger verwenden.

On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized 13.31% of the time, yet still achieved 84.18% accuracy.

Auf dem Datensatz von Aime 2024 erreichte Thinkless eine Genauigkeitsrate von 27,33% mit 100% der Argumentationsmodus, was zeigt, dass es die Leistung beibehalten könnte, wenn die volle Argumentation erforderlich war. Auf dem GSM8K -Datensatz verwendete es 13,31% der Fälle, erreichte jedoch eine Genauigkeit von 84,18%.

These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.

Diese Ergebnisse spiegeln die Fähigkeit des Modells wider, einfache und komplexe Abfragen mit angemessener Argumentationstiefe zu behandeln und die unnötige Token -Generation bei einigen Aufgaben um bis zu 90% zu senken.

This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.

Diese Studie mit dem Titel "Thinkess: Requaling Sprachmodelle für die autonome Tiefenkontrolle im Argument" ist ein wertvoller Beitrag zum Gebiet der natürlichen Sprachverarbeitung und präsentiert eine praktische und effiziente Methode zur Optimierung großer Sprachmodelle für verschiedene und komplexe Aufgaben.

Originalquelle：marktechpost

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Aug 04, 2025

Mehr