![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
言語モデルの有効性は、人間のようなステップバイステップ控除をシミュレートする能力に依存しています。ただし、これらの推論シーケンスはリソース集約的であり、手の込んだ計算を必要としない簡単な質問には無駄になる可能性があります。タスクの複雑さに関するこの認識の欠如は、これらのモデルの中心的な課題の1つです。多くの場合、直接回答できる質問でも、詳細な推論にデフォルトです。
Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.
シンガポール国立大学の研究者は、言語モデルが短いまたは長い形式の推論を使用するかどうかを自律的に決定し、手元のタスクの複雑さに対する応答を調整することを可能にするThinklessという新しいフレームワークを開発しました。
The framework, which is built on reinforcement learning, introduces two special control tokens:
強化学習に基づいて構築されたフレームワークでは、2つの特別なコントロールトークンを紹介します。
*
*簡潔な答えと
*
*詳細な回答については。
By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.
デカップレッドグループの相対ポリシー最適化(DEGRPO)と呼ばれる新しいアルゴリズムを組み込むことにより、Thinklessは、推論モードを選択して生成された応答の精度を改善することとの間でトレーニングの焦点を分離します。
This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.
この設計により、モデルが1次元の動作に陥るのを防ぎ、各クエリに合わせた適応的推論を可能にします。
The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.
方法論には、ウォームアップ蒸留と強化学習の2つの段階が含まれます。蒸留フェーズでは、Thinklessは2つの専門家モデルからの出力を使用して訓練されています。1つは短い応答に特化し、もう1つは詳細な推論に特化しています。この段階は、モデルがコントロールトークンと目的の推論形式との間にしっかりしたリンクを確立するのに役立ちます。
The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.
その後、強化学習段階は、使用する推論モードを決定するモデルの能力を微調整します。 Degrpoは、学習を2つの別個の目的に分解します。1つはコントロールトークンをトレーニングするため、もう1つは応答トークンを改良するためです。
This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both
このアプローチは、より長い応答が学習信号を圧倒し、推論の多様性の崩壊につながる初期のモデルの勾配の不均衡を回避します。 Thinklessは、両方とTokensがバランスの取れた更新を受け取り、応答タイプ全体で安定した学習を促進することを保証します。
When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the
評価されたとき、思考のないことは、高精度を維持しながら、長い形式の推論を大幅に減らしました。 Minerva代数ベンチマークでは、モデルは94.59%の精度を達成しながら、ケースの25.88%のみでトークンを使用しました。対照的に、従来の推論モデルは、より頻繁に拡張された思考チェーンを使用する必要がありました。
On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized
AIME 2024データセットでは、Thinklessが推論モードを100%使用して27.33%の精度に達し、完全な推論が必要なときにパフォーマンスを維持できることを示しました。 GSM8Kデータセットでは、13.31%の時間を利用しましたが、84.18%の精度を達成しました。
These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.
これらの結果は、適切な推論の深さでシンプルで複雑なクエリを処理するモデルの能力を反映しており、一部のタスクでは不要なトークン生成を最大90%削減します。
This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.
「Thinkless:Reconsingにおける自律的な深度制御のための言語モデルの装備」というタイトルのこの研究は、自然言語処理の分野に貴重な貢献であり、多様で複雑なタスクのために大規模な言語モデルを最適化するための実用的で効率的な方法を提示します。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。
-
- Bitcoin (BTC), Ethereum (ETH), XRP, and Meme Coins Under Pressure as Whales Dump Holdings
- 2025-06-08 05:10:14
- Cryptocurrency whales have recently made headlines by selling off significant portions of their holdings after a period of accumulation. This trend has particularly impacted major tokens like Bitcoin (BTC), Ethereum (ETH), XRP, and even meme coins like Shiba Inu (SHIB) and Official Trump (TRUMP). As the market reacts, analysts are closely monitoring the implications of these movements.
-
-
-
-
-
-
-
-