![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Denklos: Ein Rahmen für die dynamische Wahl zwischen kurzem und langem Argumentation in Sprachmodellen
May 23, 2025 at 01:59 pm
Die Wirksamkeit von Sprachmodellen beruht auf ihrer Fähigkeit, einen Schritt-für-Schritt-Abzug von Menschen zu simulieren. Diese Argumentationssequenzen sind jedoch ressourcenintensiv und können für einfache Fragen verschwenderisch sein, die keine ausführliche Berechnung erfordern. Dieses mangelnde Bewusstsein für die Komplexität der Aufgabe ist eine der zentralen Herausforderungen in diesen Modellen. Sie sind häufig standardmäßig detaillierte Argumente für Fragen, die direkt beantwortet werden konnten.
Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.
Forscher der Nationalen Universität von Singapur haben ein neues Rahmen entwickelt, das als Thinkess bezeichnet wird und ein Sprachmodell autonom entscheidet, ob kurz- oder langformatige Argumentation verwendet werden soll, und die Reaktion auf die Komplexität der jeweiligen Aufgabe anpassen.
The framework, which is built on reinforcement learning, introduces two special control tokens:
Das Rahmen, das auf Verstärkungslernen basiert, führt zwei spezielle Kontroll -Token ein:
*
* Für präzise Antworten und
*
* Für detaillierte Antworten.
By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.
Durch die Einbeziehung eines neuartigen Algorithmus namens entkoppelter Gruppenrelatik -Richtlinienoptimierung (DEGRPO) trennt Thinklose den Trainingsfokus zwischen der Auswahl des Argumentationsmodus und der Verbesserung der Genauigkeit der generierten Reaktion.
This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.
Dieses Design verhindert, dass das Modell in eindimensionales Verhalten fällt, und ermöglicht das auf jede Abfrage zugeschnittene adaptive Argumentation.
The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.
Die Methodik umfasst zwei Phasen: Aufwärmendestillation und Verstärkungslernen. In der Destillationsphase wird Thinklose unter Verwendung von Outputs aus zwei Expertenmodellen trainiert - einer, die sich auf kurze Antworten spezialisiert haben, und das andere in detailliertem Denken. Diese Phase hilft dem Modell dabei, eine feste Verbindung zwischen dem Kontroll -Token und dem gewünschten Argumentationsformat herzustellen.
The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.
Die Verstärkungslernenstufe stimmt dann die Fähigkeit des Modells, zu entscheiden, welchen Argumentationsmodus verwendet werden soll. DeGrpo zersetzt das Lernen in zwei getrennte Ziele: eine zum Training des Kontrolltipps und eines zur Verfeinerung der Reaktions -Token.
This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both
Dieser Ansatz vermeidet die Gradiententlegungen in früheren Modellen, bei denen längere Antworten das Lernsignal überwältigen würden, was zu einem Zusammenbruch der Argumentation der Vielfalt führt. Thinkess stellt sicher, dass beide und Token ausgewogene Updates erhalten und ein stabiles Lernen über die Antworttypen hinweg fördern.
When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the
Bei der Bewertung verringerte Denklose den Langformpunkt signifikant, während sie eine hohe Genauigkeit bewahrt. Auf der Benchmark von Minerva Algebra verwendete das Modell das Token in nur 25,88% der Fälle und erreichte gleichzeitig 94,59% Genauigkeit. Im Gegensatz dazu mussten herkömmliche Argumentationsmodelle erweiterte Denkketten viel häufiger verwenden.
On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized
Auf dem Datensatz von Aime 2024 erreichte Thinkless eine Genauigkeitsrate von 27,33% mit 100% der Argumentationsmodus, was zeigt, dass es die Leistung beibehalten könnte, wenn die volle Argumentation erforderlich war. Auf dem GSM8K -Datensatz verwendete es 13,31% der Fälle, erreichte jedoch eine Genauigkeit von 84,18%.
These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.
Diese Ergebnisse spiegeln die Fähigkeit des Modells wider, einfache und komplexe Abfragen mit angemessener Argumentationstiefe zu behandeln und die unnötige Token -Generation bei einigen Aufgaben um bis zu 90% zu senken.
This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.
Diese Studie mit dem Titel "Thinkess: Requaling Sprachmodelle für die autonome Tiefenkontrolle im Argument" ist ein wertvoller Beitrag zum Gebiet der natürlichen Sprachverarbeitung und präsentiert eine praktische und effiziente Methode zur Optimierung großer Sprachmodelle für verschiedene und komplexe Aufgaben.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Wie Krypto Washington eroberte und die Bühne für die nächste Blase stellte
- Jun 07, 2025 at 11:50 pm
- Am 11. Februar 2025 stellte der Vertreter Sean Casten, ein Demokrat in Illinois, der im Ausschuss für Finanzdienstleistungen des House Financial Services steht, die Führungskräfte der Kryptoindustrie bei einer öffentlichen Anhörung über die Gefahren des Präsidenten der Vereinigten Staaten in Frage, der eine Memecoin startete. Diese Krypto-Token sind auch als „Shitcoins“ bekannt, da sie weithin als wertlos angesehen werden, ein Werkzeug für Pump-and-Dump-Schemata. Da sich die Regeln des Kongresses nicht den vulgären Konventionen der Finanztechnologien des 21. Jahrhunderts untergebracht hatten, musste Casten seine Frage sorgfältig formulieren.
-
-
- Guti hatte die perfekte Antwort bereit für Jota Jordis Beschwerden über den Schiedsrichter
- Jun 07, 2025 at 11:45 pm
- Jota Jordi weinte über den Schiedsrichter auf El Chiringuito. Er gratulierte Real Madrid zu dem einzigen Titel von sieben, der gestern in San Siro gewonnen hat (er vergaß den europäischen Superpokal und den Intercontinental Cup).
-
-
-
- Binance Launchpad Delays Its Second Launchpad Airdrop of MOVE Tokens Until the Movement Project Has More Clarity
- Jun 07, 2025 at 11:35 pm
- Binance will delay its second Launchpad airdrop for MOVE tokens until the Movement project has more clarity on its future. The tokens for the airdrop were sent to Binance's wallets recently, setting expectations for the event.
-
-