![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
大規模な言語モデルは、流fluentな応答を生成し、トーンをエミュレートし、複雑な指示に従うことさえできます。しかし、彼らは複数のセッションで情報を保持するのに苦労しています。
Large language models (LLMs) are revolutionizing natural language processing (NLP) with their ability to generate fluent responses, emulate tone, and follow complex instructions. However, these models still struggle with a critical limitation: they have difficulty retaining information across multiple sessions.
大規模な言語モデル(LLM)は、流fluent応答を生成し、トーンをエミュレートし、複雑な指示に従う能力を備えた自然言語処理(NLP)に革命をもたらしています。ただし、これらのモデルは依然として重要な制限と格闘しています。複数のセッションで情報を保持するのが困難です。
This limitation becomes increasingly pressing as LLMs are integrated into applications that require long-term engagement with users. From personal assistance and health management to tutoring and more specialized tasks, the seamless flow of conversation is paramount. In real-life conversations, people recall preferences, infer behaviors, and construct mental maps over time. A person who mentioned their dietary restrictions last week expects those to be taken into account the next time food is discussed. Similarly, a user who described their hometown yesterday anticipates the LLM to recognize it and use it in later greetings. Without mechanisms to store and retrieve such details across conversations, AI agents fail to offer the consistency and reliability expected from them, ultimately undermining user trust.
LLMがユーザーとの長期的な関与を必要とするアプリケーションに統合されるため、この制限はますます差し迫っています。個人的な支援と健康管理から個別指導、より専門的なタスクまで、会話のシームレスな流れが最重要です。現実の会話では、人々は好みを思い出し、行動を推測し、時間の経過とともに精神マップを構築します。先週、食事制限について言及した人は、次回の食べ物が議論されるときに考慮されることを期待しています。同様に、昨日故郷を説明したユーザーは、LLMがそれを認識し、後で挨拶で使用すると予想しています。会話全体でそのような詳細を保存して取得するメカニズムがなければ、AIエージェントは、最終的にユーザーの信頼を損なう一貫性と信頼性を提供することができません。
The central challenge with today’s LLMs lies in their inability to persist relevant information beyond the boundaries of a conversation’s context window. These models rely on a limited capacity for tokens, which are units of language used by the model, with some models having a capacity of as high as 128K or 200K tokens. However, when long interactions span days or weeks, even these expanded windows become insufficient. More critically, the quality of attention—the model’s ability to focus on and process specific tokens—degrades over more distant tokens, rendering it harder for the model to locate or utilize earlier context effectively. For instance, a user may personally introduce themselves, switch to a completely different topic like astronomy, and only much later return to the original subject to ask for the personally mentioned fact. Without a robust memory system, the AI will likely ignore the previously mentioned details and instead answer based on the last 10 messages, which in this case would be about astronomy, leading to an incorrect reply. This creates friction and inconvenience, especially in scenarios where continuity and accuracy are crucial. The issue is not just about the model forgetting information, but also about it potentially retrieving the wrong information from irrelevant parts of the conversation history due to token overflow and thematic drift.
今日のLLMSとの中心的な課題は、会話のコンテキストウィンドウの境界を超えて関連情報を持続できないことにあります。これらのモデルは、モデルで使用される言語単位であるトークンの限られた容量に依存しており、一部のモデルは128Kまたは200Kトークンの容量を持っています。ただし、長い相互作用が数日または数週間にわたって、これらの拡張されたウィンドウでさえ不十分になります。さらに重要なことは、注意の質(特定のトークンに焦点を合わせて処理するモデルの能力)が、より遠いトークンの上に脱線し、モデルが以前のコンテキストを効果的に見つけたり利用したりすることをより困難にします。たとえば、ユーザーは個人的に自己紹介し、天文学のようなまったく異なるトピックに切り替えることができ、その後は元の被験者に戻って、個人的に言及された事実を求めます。堅牢なメモリシステムがなければ、AIは前述の詳細を無視し、代わりに最後の10のメッセージに基づいて回答します。この場合、この場合は天文学に関するもので、誤った返信につながります。これにより、特に継続性と精度が重要なシナリオでは、摩擦と不便が生じます。問題は、モデルが情報を忘れるだけでなく、トークンのオーバーフローとテーマのドリフトのために、会話履歴の無関係な部分から間違った情報を取得する可能性があることについてもあります。
Several attempts have been made to address this memory gap. Some systems, like those from Google AI and Stanford, rely on retrieval-augmented generation (RAG) techniques. These systems use a separate component to search for and retrieve relevant text chunks from a large knowledge base or prior conversations using similarity searches. Another category of systems employs full-context approaches, where the entire conversation history is simply re-fed into the model at the beginning of each turn. Finally, there are proprietary memory solutions like OpenAI’s Memory API and open-source alternatives like PEGASO, which try to store past exchanges in specialized vector databases or structured formats. However, these methods often lead to inefficiencies. For instance, RAG systems can retrieve excessive irrelevant information, while full-context approaches increase latency and token costs. Proprietary and open-source solutions may struggle to consolidate updates to existing memories in a meaningful way, and they lack effective mechanisms to detect conflicting data or prioritize newer updates. This fragmentation of memories hinders the models’ ability to reason reliably over time.
この記憶のギャップに対処するためのいくつかの試みがなされています。 Google AIやStanfordのような一部のシステムは、検索された世代(RAG)テクニックに依存しています。これらのシステムは、別のコンポーネントを使用して、類似性検索を使用して、大規模な知識ベースまたは以前の会話から関連するテキストチャンクを検索して取得します。システムの別のカテゴリは、各ターンの開始時に会話の履歴全体がモデルに再び導入されるだけで、フルコンテキストアプローチを採用しています。最後に、OpenaiのメモリAPIやPegasoのようなオープンソースの代替品のような独自のメモリソリューションがあります。Pegasoは、特殊なベクトルデータベースまたは構造化された形式に過去の交換を保存しようとします。ただし、これらの方法はしばしば非効率性につながります。たとえば、RAGシステムは過度の無関係な情報を取得できますが、フルコンテキストアプローチはレイテンシとトークンコストを増加させます。独自のオープンソースソリューションは、既存のメモリへの更新を意味のある方法で統合するのに苦労する可能性があり、競合するデータを検出したり、新しい更新を優先する効果的なメカニズムがありません。この記憶の断片化は、時間の経過とともに確実に推論するモデルの能力を妨げます。
To address these limitations, a research team from Mem0.ai developed a novel memory-focused system called Mem0. This architecture introduces a more dynamic mechanism to extract, consolidate, and retrieve information from conversations as they unfold. The design of Mem0 enables the system to systematically identify useful facts from ongoing interactions, assess their relevance and uniqueness, and integrate them into a persistent memory store that can be consulted in future sessions. In essence, Mem0 is capable of "listening" to conversations, extracting key facts, and updating a central memory with these facts. The researchers also proposed a graph-enhanced version of the system, denoted as Mem0g, which builds upon the base system by structuring information in relational formats, connecting facts through entities and their properties.
これらの制限に対処するために、MEM0.AIの研究チームは、MEM0と呼ばれる新しいメモリ中心のシステムを開発しました。このアーキテクチャは、会話が展開されたときに情報を抽出、統合、および取得するためのより動的なメカニズムを導入します。 MEM0の設計により、システムは進行中の相互作用から有用な事実を体系的に識別し、それらの関連性と一意性を評価し、将来のセッションで相談できる永続的なメモリストアに統合することができます。本質的に、MEM0は会話を「聞いて」、重要な事実を抽出し、これらの事実で中央のメモリを更新することができます。また、研究者は、MEM0Gとして示されるグラフ強化バージョンのシステムを提案しました。これは、関係形式の情報を構成することにより、エンティティとそのプロパティを介した事実を接続することにより、ベースシステムに基づいています。
These models were tested using the LOCOMO benchmark, a standard framework for evaluating conversational memory systems. They compared six categories of memory-enabled systems: memory-augmented agents, RAG methods with varying configurations, full-context approaches, and both open-source and proprietary tools. The goal was to assess these systems' ability to process a wide range of question types, from single-hop factual lookups to multi-hop and open-domain queries.
これらのモデルは、会話型メモリシステムを評価するための標準的なフレームワークであるMocomoベンチマークを使用してテストされました。メモリ対応システムの6つのカテゴリを比較しました。メモリ濃縮エージェント、さまざまな構成を備えたRAGメソッド、フルコンテキストアプローチ、およびオープンソースと独自のツールの両方です。目標は、シングルホップの事実の検索からマルチホップやオープンドメインクエリまで、これらのシステムの幅広い質問タイプを処理する能力を評価することでした。
The core of the Mem0 system involves two operational stages. In the first phase, the model processes pairs of messages, typically a user’s question and the assistant’s response, along with summaries of recent conversations. A combination of a global conversation summary over the last hour and the last 10 messages serves as the input for a large language model (LLM) that extracts salient facts. For instance, if the user asks "What is the capital of France?" and the assistant responds with "The capital of France is Paris," the fact extractor would identify "capital_of(France,
MEM0システムのコアには、2つの動作段階が含まれます。最初のフェーズでは、モデルはメッセージのペア、通常はユーザーの質問とアシスタントの回答を処理し、最近の会話の要約とともに処理します。最後の1時間にわたるグローバルな会話の概要と最後の10のメッセージの組み合わせは、顕著な事実を抽出する大規模な言語モデル(LLM)の入力として機能します。たとえば、ユーザーが「フランスの首都は何ですか?」と尋ねる場合、そして、アシスタントは「フランスの首都はパリ」で応答します。事実抽出器は「Capital_of(フランス、
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。