$107167.915651 USD

-1.23%

ethereum

$2484.735224 USD

-0.65%

tether

$1.000551 USD

0.03%

xrp

$2.227485 USD

1.25%

bnb

$657.234657 USD

0.38%

solana

$153.359085 USD

0.76%

usd-coin

$1.000234 USD

0.03%

tron

$0.279694 USD

1.12%

dogecoin

$0.164283 USD

-2.04%

cardano

$0.566559 USD

-0.46%

hyperliquid

$39.355826 USD

-3.77%

bitcoin-cash

$520.939018 USD

3.97%

sui

$2.773602 USD

-2.77%

chainlink

$13.247285 USD

-2.04%

unus-sed-leo

$9.098882 USD

-0.71%

Nachrichtenartikel zu Kryptowährungen

Bleistift: Lange Gedanken mit kurzer Erinnerung

May 13, 2025 at 08:26 am

Jüngste Großsprachenmodelle (LLMs) - wie O1/O3 von OpenAI, Deepseeks R1 und Claude 3.7 von Anthropic - zeigen, dass das Modell, das das Modell tiefer und länger in der Testzeit hält, die Argumentationsfähigkeit des Modells erheblich verbessern kann.

Recent large language models (LLMs) — such as OpenAI’s o1/o3, DeepSeek’s R1 and Anthropic’s Claude 3.7— demonstrate that allowing the model to think deeper and longer at test time can significantly enhance model’s reasoning capability. The core approach underlying their deep thinking capability is called chain-of-thought (CoT), where the model iteratively generates intermediate reasoning steps and appends them to the current context until producing the final answer.

Jüngste Großsprachenmodelle (LLMs) - wie O1/O3 von OpenAI, R1 von Deepseek und Claude 3.7 von Anthropic - zeigen, dass das Modell, das das Modell tiefer und länger in der Testzeit hält, die Argumentationsfähigkeit des Modells erheblich verbessern kann. Der Kernansatz, der ihrer tiefen Denkfähigkeit zugrunde liegt, wird als Kette (COT) bezeichnet, wobei das Modell iterativ intermediate Argumentationsschritte erzeugt und an den aktuellen Kontext angehängt wird, bis die endgültige Antwort erstellt wird.

However, as tasks become increasingly complex, the steps needed to solve them grow dramatically. For instance, consider solving NP-hard problems using CoT — the reasoning trace would inevitably span exponential steps, assuming a fixed-size Transformer as the base model and P ≠ NP. This raises an important question:

Wenn die Aufgaben jedoch immer komplexer werden, wachsen die Schritte, die zur Lösung von ihnen erforderlich sind, dramatisch. Erwägen Sie beispielsweise die Lösung von NP-HART-Problemen mit COT-Die Argumentationspfalle würde unweigerlich exponentielle Schritte umfassen, wobei ein Transformator mit fester Größe als Basismodell und P ≠ NP angenommen wird. Dies wirft eine wichtige Frage auf:

Will CoT-based test-time scaling hit hard ceilings?

Wird Cot-basierte Testzeit-Skalierung mit harten Decken treffen?

Unfortunately, probably yes. Various limitations will emerge for harder tasks: (1) chains will inevitably exceed model’s context windows, (2) critical information becomes buried and nearly impossible to retrieve from numerous preceding tokens, and (3) the self-attention complexity makes generating each new token prohibitively expensive.

Leider wahrscheinlich ja. Für härtere Aufgaben werden verschiedene Einschränkungen entstehen: (1) Ketten werden zwangsläufig die Kontextfenster des Modells überschreiten, (2) kritische Informationen werden vergraben und fast unmöglich, von zahlreichen vorhergehenden Token abzurufen, und (3) die Komplexität der Selbstbekämpfung lässt die Erzeugung jedes Neu Token verboten.

In this article, we challenge the conventional “write-only” CoT reasoning paradigm that dominates current LLM architectures, from both theoretical and practical perspectives. Furthermore, we will explore a fundamentally different reasoning approach that allows LLM to not only generate thoughts, but also erase thoughts. This capacity for thought erasure not only offers significant practical benefits in performance and efficiency, but proves fundamental for achieving optimal reasoning efficiency from a computational theory perspective.

In diesem Artikel fordern wir das konventionelle Paradigma für „Schreibschreiber“ COT-Argumentation heraus, das die aktuellen LLM-Architekturen sowohl aus theoretischen als auch aus praktischen Perspektiven dominiert. Darüber hinaus werden wir einen grundlegend unterschiedlichen Argumentationsansatz untersuchen, der es LLM ermöglicht, nicht nur Gedanken zu erzeugen, sondern auch Gedanken zu löschen. Diese Löschung für Gedankenkapazität bietet nicht nur erhebliche praktische Vorteile in Bezug auf Leistung und Effizienz, sondern zeigt sich auch für die optimale Argumentationseffizienz aus der Sicht der Computertheorie.

This post is based on the paper C. Yang et al., “PENCIL: Long thoughts with short memory” accepted in International Conference on Machine Learning 2025, a collaboration with Nathan Srebro, David McAllester, Zhiyuan Li. Code is also available.

Dieser Beitrag basiert auf dem Papier C. Yang et al., „Bleistift: Long Thoughts with Short Memory“, der in der Internationalen Konferenz über maschinelles Lernen 2025, einer Zusammenarbeit mit Nathan Srebro, David McAllester, Zhiyuan Li, akzeptiert wurde. Code ist ebenfalls verfügbar.

Not Everything Needs to Be Remembered

Nicht alles muss in Erinnerung bleiben

The idea of selectively discarding information has deep roots in computer science history, from the earliest computational models to modern systems. The classic Turing machine overwrites symbols on its tape rather than preserving every state; programming languages reclaim memory through stack frames that are automatically released when functions complete their execution; and modern garbage collectors continuously identify and remove objects no longer accessible to the program. These mechanisms weren’t merely efficiency optimizations — they were essential design choices that made complex computation possible within finite resources.

Die Idee, Informationen selektiv zu verwerfen, hat tiefe Wurzeln in der Informatikgeschichte, von den frühesten Rechenmodellen bis hin zu modernen Systemen. Die klassische Turing -Maschine überschreibt Symbole auf seinem Band, anstatt jeden Zustand zu erhalten. Programmiersprachen ermitteln den Speicher durch Stapelrahmen zurück, die automatisch freigegeben werden, wenn Funktionen ihre Ausführung abschließen. und moderne Müllsammler identifizieren und entfernen kontinuierlich Objekte, die nicht mehr für das Programm zugänglich sind. Diese Mechanismen waren nicht nur Effizienzoptimierungen - sie waren wesentliche Designentscheidungen, die eine komplexe Berechnung innerhalb der endlichen Ressourcen ermöglichten.

This idea also applies to human reasoning. In theorem proving, once a lemma is established, we discard its detailed derivation while preserving the result; when exploring problem-solving approaches, we simply mark unproductive paths as “failed” without retaining their full traces. Throughout complex reasoning, we naturally compress information, retaining conclusions while discarding the scaffolding used to reach them.

Diese Idee gilt auch für menschliches Denken. Im Satz, der nachgewiesen hat, sobald ein Lemma festgelegt ist, verwerfen wir seine detaillierte Ableitung und bewahren gleichzeitig das Ergebnis auf. Bei der Erforschung der Ansätze zur Problemlösung markieren wir einfach unproduktive Wege als „gescheitert“, ohne ihre vollständigen Spuren beizubehalten. Im gesamten komplexen Denken komprimieren wir natürlich Informationen und behalten Schlussfolgerungen bei, während wir das Gerüst abwerfen, das verwendet wird, um sie zu erreichen.

✏️ PENCIL: A New Reasoning Paradigm

✏️ Bleistift: Ein neues Argumentationsparadigma

Therefore, we propose ✏️ PENCIL, a new reasoning paradigm for LLMs. Unlike ✒️ CoT that only generates thoughts, PENCIL recursively generates and erases thoughts until reaching the final answer. It maintains only the minimal context required for generating future thoughts, so the model can think longer and deeper to solve harder tasks using shorter working memory. The following figure illustrates how PENCIL works

Daher schlagen wir ✏️ Bleistift vor, ein neues Argumentationsparadigma für LLMs. Im Gegensatz zu ✒️ COT, das nur Gedanken erzeugt, erzeugt und löscht Bleistift rekursiv und löscht Gedanken, bis sie die endgültige Antwort erreicht. Es behält nur den minimalen Kontext bei, der für die Erzeugung zukünftiger Gedanken erforderlich ist, sodass das Modell länger und tiefer nachdenken kann, um härtere Aufgaben mit kürzerem Arbeitsgedächtnis zu lösen. Die folgende Abbildung zeigt, wie Bleistift funktioniert

How Do Models Erase Thoughts?

Wie löschen Modelle Gedanken?

PENCIL’s erasure mechanism draws on two classical ideas. First, from rewriting rules in logic and classical automated theorem proving, which continuously apply predefined rules to simplify complex logical or arithmetic expressions into canonical forms until reaching a final answer. Second, from functional programming languages, which creates stack frames to store local variables when calling functions and releases corresponding memory when functions return, automatically discarding intermediate states that are no longer needed.

Der Löschmechanismus von Pencil stützt sich auf zwei klassische Ideen. Erstens aus Umschreibung von Regeln in logischen und klassischen automatisierten Theoreme, die kontinuierlich vordefinierte Regeln anwenden, um komplexe logische oder arithmetische Ausdrücke in kanonische Formen zu vereinfachen, bis eine endgültige Antwort erreicht ist. Zweitens aus funktionalen Programmiersprachen, die Stapelrahmen zum Speichern lokaler Variablen beim Aufrufen von Funktionen und Freisetzung entsprechender Speicher bei der Rückgabe von Funktionen erstellen, und die nicht mehr benötigten Zwischenzustände abwerfen.

Specifically, we introduce three special tokens, called [CALL], [SEP], and [RETURN], and use the following reduction rule to implement erasure:

Insbesondere führen wir drei spezielle Token mit, genannt [CALL], [SEP] und [Return], und verwenden die folgende Reduktionsregel, um die Löschung umzusetzen:

where C stands for context, T stands for intermediate thoughts, and A stands for answer. Whenever the generated sequence completely matches the pattern on the left, PENCIL triggers the reduction rule, erasing thoughts and merging the answer back into the context. It is important to note that C, T and A can themselves contain special tokens, thereby supporting recursive structures similar to nested function calls — for example, C may contain another [CALL] token, indicating that a new thinking subroutine has been initiated.

Wo C für den Kontext steht, steht T für Intermediate -Gedanken und A steht für Antwort. Immer wenn die erzeugte Sequenz dem Muster links vollständig übereinstimmt, löst Bleistift die Reduktionsregel aus, löscht Gedanken und verschmilzt die Antwort wieder in den Kontext. Es ist wichtig zu beachten, dass C, T und A -Dose selbst spezielle Token enthalten, wodurch rekursive Strukturen ähnlich wie verschachtelte Funktionsaufrufe unterstützt werden.

How to Use PENCIL?

Wie benutze ich Bleistift?

PENCIL’s erasure mechanism flexibly supports various reasoning patterns, such as:

Der Löschmechanismus von Pencil unterstützt flexibel verschiedene Argumentationsmuster, wie z. B.:

1️⃣ Task Decomposition: Using [CALL] to initiate subproblems, generate intermediate results, and then use [SEP] and [RETURN] to merge outputs and erase subproblem reasoning details;

1️⃣ Aufgabenabteilung: Verwenden von [Anruf] zur Initiierung von Teilproblemen, die Generierung von Zwischenergebnissen und dann [SEP] und [Return], um Ausgänge zu verschmelzen und Subproblem -Argumentationsdetails zu löschen;

2️⃣ Branch and Backtrack: Using a [CALL], [SEP], [RETURN] triplet to manage an exploration branch in a search tree, erasing invalid paths upon conflicts or failures.

2️⃣ Branch und Backtrack: Verwenden eines [Anrufs], [SEP], [Return] Triplet, um einen Explorationszweig in einem Suchbaum zu verwalten und ungültige Pfade auf Konflikten oder Fehlern zu löschen.

3️⃣ Summarization / Tail Recursion: Condensing a lengthy reasoning trace into concise summary, similar to tail recursion optimization in programming:

3️⃣ Zusammenfassung / Schwanzrekursion: Verdichtung einer langwierigen Argumentationspur in präzise Zusammenfassung, ähnlich der Schwanzrekursion -Optimierung in der Programmierung:

where T represents the original complex reasoning process (or a more difficult problem), and T' represents the summarized or simplified

wobei t den ursprünglichen komplexen Argumentationsprozess (oder ein schwierigeres Problem) darstellt und T 'die zusammengefasste oder vereinfachte repräsentiert

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Jul 01, 2025

Mehr