![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
GTE-ModernColbert-V1: Un nouveau modèle de pointe pour la récupération sémantique à longue durée
May 12, 2025 at 02:08 am
Cet article présente GTE-ModernColbert-V1, un nouveau modèle qui s'appuie sur l'architecture Colbert et intègre la Fondation Modernbert
Researchers from LightOn AI have presented GTE-ModernColBERT-v1, a model that builds upon the ColBERT architecture and integrates the ModernBERT foundation developed by Alibaba-NLP. Their aim was to distill knowledge from a base model and optimize it on the MS MARCO dataset, hoping to overcome limitations related to context length and semantic preservation. The model was trained using 300-token document inputs but demonstrated the ability to handle inputs as large as 8192 tokens, making it suitable for indexing and retrieving longer documents with minimal information loss. This work was deployed through PyLate, a library that simplifies the indexing and querying of documents using dense vector models. The model performs token-level semantic matching using the MaxSim operator, which evaluates similarity between individual token embeddings rather than compressing them into a single vector.
Des chercheurs de Lighton AI ont présenté GTE-ModernColbert-V1, un modèle qui s'appuie sur l'architecture Colbert et intègre la Fondation Modernbert développée par Alibaba-NLP. Leur objectif était de distiller les connaissances d'un modèle de base et de l'optimiser sur l'ensemble de données MS Marco, dans l'espoir de surmonter les limites liées à la longueur du contexte et à la préservation sémantique. Le modèle a été formé à l'aide d'entrées de document à 300 tonnes, mais a démontré la possibilité de gérer les entrées aussi grandes que les jetons 8192, ce qui le rend adapté à l'indexation et à la récupération de documents plus longs avec une perte d'informations minimale. Ce travail a été déployé via Pylate, une bibliothèque qui simplifie l'indexation et l'interrogation de documents à l'aide de modèles vectoriels denses. Le modèle effectue une correspondance sémantique au niveau du jeton à l'aide de l'opérateur MaxSim, qui évalue la similitude entre les incorporations de jetons individuelles plutôt que de les compresser en un seul vecteur.
GTE-ModernColBERT-v1 transforms text into 128-dimensional dense vectors and uses the MaxSim function for computing semantic similarity between query and document tokens, preserving granular context and enabling more refined retrieval. It integrates with PyLate’s Voyager indexing system, which manages large-scale embeddings using an efficient HNSW (Hierarchical Navigable Small World) index. Once documents are embedded and stored, users can retrieve the top-k most relevant documents using the ColBERT retriever. This process supports full pipeline indexing and lightweight reranking for first-stage retrieval systems. PyLate offers flexibility in modifying document length during inference, allowing users to handle texts much longer than the model was originally trained on, an advantage rarely seen in standard embedding models.
GTE-ModernColbert-V1 transforme le texte en vecteurs denses à 128 dimensions et utilise la fonction maxsim pour calculer la similitude sémantique entre la requête et les jetons de document, la préservation du contexte granulaire et permettant une récupération plus raffinée. Il s'intègre au système d'indexation Voyager de Pylate, qui gère des intégres à grande échelle en utilisant un indice HNSW efficace (Hiérarchical Navigable Small World). Une fois que les documents sont intégrés et stockés, les utilisateurs peuvent récupérer les documents les plus pertinents des K à l'aide du Colbert Retriever. Ce processus prend en charge l'indexation complète des pipelines et le rediffusion légère pour les systèmes de récupération en première étape. Pylate offre une flexibilité dans la modification de la longueur du document pendant l'inférence, permettant aux utilisateurs de gérer les textes beaucoup plus longtemps que le modèle a été initialement formé, un avantage rarement vu dans les modèles d'intégration standard.
On the NanoClimate dataset, the model achieved a MaxSim Accuracy@1 of 0.360, Accuracy@5 of 0.780, and Accuracy@10 of 0.860. Precision and recall scores were consistent, with MaxSim Recall@3 reaching 0.289 and Precision@3 at 0.233. These scores highlight the model’s capability to retrieve accurate results even in longer-context retrieval scenarios.
Sur l'ensemble de données nanoclimat, le modèle a obtenu une précision maxsim @ 1 sur 0,360, la précision à 5 de 0,780 et la précision à 10 sur 0,860. Les scores de précision et de rappel étaient cohérents, avec un rappel MaxSim @ 3 atteignant 0,289 et précision @ 3 à 0,233. Ces scores mettent en évidence la capacité du modèle à récupérer des résultats précis même dans des scénarios de récupération de contexte plus long.
When evaluated on the BEIR benchmark, GTE-ModernColBERT outperformed previous models, including ColBERT-small. It scored 54.89 on the FiQA2018 dataset, 48.51 on NFCorpus, and 83.59 on the TREC-COVID task. The average performance across these tasks was significantly higher than baseline ColBERT variants. Notably, in the LongEmbed benchmark, the model scored 88.39 in Mean score and 78.82 in LEMB Narrative QA Retrieval, surpassing other leading models such as voyage-multilingual-2 (79.17) and bge-m3 (58.73). These results suggest that the model offers robust generalization and effective handling of long-context documents, outperforming many contemporaries by almost 10 points on long-context tasks. It is also highly adaptable to different retrieval pipelines, supporting both indexing and reranking implementations, making it a versatile solution for scalable semantic search.
Lorsqu'il est évalué sur la référence Beir, GTE-Moderncolbert a surpassé les modèles précédents, y compris Colbert-Small. Il a marqué 54,89 sur l'ensemble de données FIQA2018, 48,51 sur NFCORPUS et 83,59 sur la tâche TREC-COVID. Les performances moyennes entre ces tâches étaient significativement plus élevées que les variantes de base de Colbert. Notamment, dans la référence à Longled, le modèle a marqué 88,39 en score moyen et 78,82 dans la récupération du NARRATION NARRATIVE LEMB, dépassant d'autres modèles de premier plan tels que le voyage-multi-multi-utiling-2 (79.17) et le BGE-M3 (58,73). Ces résultats suggèrent que le modèle offre une généralisation robuste et une gestion efficace des documents à long contexte, surpassant de nombreux contemporains de près de 10 points sur les tâches à long contexte. Il est également très adaptable à différents pipelines de récupération, prenant en charge à la fois des implémentations d'indexation et de réinstallation, ce qui en fait une solution polyvalente pour la recherche sémantique évolutive.
Several Key Highlights from the Research on GTE-ModernColBERT-v1 include:This research provides a meaningful contribution to long-document semantic retrieval. By combining the strengths of token-level matching with scalable architecture, GTE-ModernColBERT-v1 addresses several bottlenecks that current models face. It introduces a reliable method for processing and retrieving semantically rich information from extended contexts, significantly improving precision and recall in longer-context retrieval scenarios.
Plusieurs faits saillants clés de la recherche sur GTE-ModernColbert-V1 incluent: Cette recherche fournit une contribution significative à la récupération sémantique à long document. En combinant les forces de la correspondance au niveau des jetons avec une architecture évolutive, GTE-ModernColbert-V1 aborde plusieurs goulots d'étranglement auxquels les modèles actuels sont confrontés. Il introduit une méthode fiable pour traiter et récupérer des informations sémantiquement riches à partir de contextes étendus, améliorant considérablement la précision et le rappel dans des scénarios de récupération de contexte plus long.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
-
-
-
-
-
- La mise à niveau de PECTRA d'Ethereum déclenche une surtension dans les solutions de couche 2 Arbitrum (ARB), Starknet (STRK) et Mantle (MNT)
- May 14, 2025 at 05:35 am
- Entrée: la mise à niveau de PECTRA d'Ethereum, lancée il y a quelques jours, a déjà déclenché une poussée conséquente de la valeur marchande de la crypto-monnaie. Au-delà de l'ETH lui-même, un analyste crypto a maintenant mis en évidence quelques-uns des Altcoins basés sur Ethereum, en particulier des solutions de couche 2, qui subiraient un coup de pouce significatif après la dernière mise à niveau.
-
- La SEC des États-Unis a officiellement reconnu le dossier ETF de Dogecoin Spot de 21Shares
- May 14, 2025 at 05:30 am
- La United States Securities and Exchange Commission (SEC) a officiellement reconnu le dossier ETF de Dogecoin Spot de 21Shares, une mise à jour qui a fixé le prix Doge lors d'une conduite haussée.
-
- Malgré les critiques, les réserves XRP substantielles de Ripple pourraient être l'un de ses plus grands actifs stratégiques
- May 14, 2025 at 05:30 am
- Le contrôle substantiel de Ripple sur l'offre de XRP a souvent été critiqué comme un risque pour la décentralisation. Cependant, les arguments récents des voix de l'industrie suggèrent que cette réserve pourrait être l'un des actifs stratégiques les plus solides de l'entreprise dans la conduite de l'utilité et de la valeur marchande à long terme de XRP.
-
- SEC reconnaît la demande de 21Shares pour un ETF de Dogecoin, mise en place du processus d'examen
- May 14, 2025 at 05:25 am
- La Commission américaine des valeurs mobilières et de l'échange (SEC) a officiellement reconnu une demande ETF de DoGECOIN déposée par 21Shares. Ce dossier de DoGECOIN ETF initie un processus d'examen structuré, plaçant l'application dans le pipeline réglementaire formel.