![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Identifier le client associé à un document juridique
Nov 19, 2024 at 05:02 am
L’objectif principal était d’identifier le(s) client(s) associé(s) à chaque document grâce à l’un des identifiants suivants :
The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
L'objectif était d'extraire les noms des clients des documents juridiques à l'aide de la reconnaissance d'entités nommées (NER). Voici comment j'ai abordé la tâche :
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
Données : J'avais une collection de documents juridiques au format PDF. La tâche consistait à identifier les clients mentionnés dans chaque document à l'aide de l'un des identifiants suivants :
Approximate client name (e.g., "John Doe")
Nom approximatif du client (par exemple, « John Doe »)
Precise client name (e.e., "Doe, John A.")
Nom précis du client (ee, « Doe, John A. »)
Approximate firm name (e.g., "Doe Law Firm")
Nom approximatif du cabinet (par exemple, « Doe Law Firm »)
Precise firm name (e.g., "Doe, John A. Law Firm")
Nom précis du cabinet (par exemple, « Doe, John A. Law Firm »)
About 5% of the documents didn't include any identifying entities.
Environ 5 % des documents ne comportaient aucune entité permettant d'identifier les personnes.
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
Ensemble de données : Pour développer le modèle, j'ai utilisé 710 « vrais » documents PDF, qui ont été divisés en trois ensembles : 600 pour la formation, 55 pour la validation et 55 pour les tests.
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
Étiquettes : j'ai reçu un fichier Excel avec des entités extraites sous forme de texte brut, qui devaient être étiquetées manuellement dans le texte du document. En utilisant le format de balisage BIO, j'ai effectué les étapes suivantes :
Mark the beginning of an entity with "B-
Marquez le début d'une entité avec "B-".
Continue marking subsequent tokens within the same entity with "I-
Continuez à marquer les jetons suivants au sein de la même entité avec "I-".
If a token doesn't belong to any entity, mark it as "O".
Si un jeton n'appartient à aucune entité, marquez-le comme "O".
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
Approche alternative : des modèles tels que LayoutLM, qui prennent également en compte les cadres de délimitation pour les jetons d'entrée, pourraient potentiellement améliorer les performances de la tâche NER. Cependant, j'ai choisi de ne pas utiliser cette approche car, comme c'est souvent le cas, j'avais déjà consacré la majorité du temps du projet à préparer les données (par exemple, reformater les fichiers Excel, corriger les erreurs de données, étiqueter). Pour intégrer des modèles basés sur des boîtes englobantes, j'aurais dû y consacrer encore plus de temps.
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
Bien que les expressions rationnelles et les heuristiques puissent théoriquement être appliquées pour identifier ces entités simples, j'anticipais que cette approche serait peu pratique, car elle nécessiterait des règles trop complexes pour identifier précisément les entités correctes parmi d'autres candidats potentiels (par exemple, le nom de l'avocat, le numéro de dossier, d'autres participants à la procédure). En revanche, le modèle est capable d’apprendre à distinguer les entités pertinentes, rendant superflu le recours à l’heuristique.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Whales, Trump Coin et Crypto: une minute de New York sur ce qui est chaud (et ce qui ne l'est pas)
- Sep 27, 2025 at 09:52 am
- Plongez dans le monde sauvage de la crypto où les baleines font des mouvements. Est-ce que Trump Coin Tanking? Les pandas gras sont-ils la prochaine grande chose? Découvrez ce qui se passe!
-
-
- Bullzilla Crypto Prévente: Passant à travers la jungle de pièces de monnaie meme
- Sep 27, 2025 at 09:15 am
- La prévente de Bullzilla fait des vagues, avec une approche unique qui mélange la culture des mèmes avec un potentiel de retour sur investissement sérieux. Est-ce la meilleure prévente de crypto à rejoindre ce mois-ci?
-
-
- Bitcoin, or, stocks: naviguer dans les sables changeants de l'investissement en 2025
- Sep 27, 2025 at 09:00 am
- Déballer les dernières tendances du Bitcoin, de l'or et des stocks. Découvrez comment les données économiques, les changements réglementaires et les technologies émergentes remodèlent les stratégies d'investissement.
-
- Bitcoin, Cardano et Crypto Presales: Bullzilla est-elle la prochaine grande chose?
- Sep 27, 2025 at 08:30 am
- Bitcoin et Cardano Face Market Tests, mais le modèle de prévente de Bullzilla attire l'attention avec son potentiel de retour sur investissement élevé. Est-ce la meilleure prévente 1000x crypto de 2025?
-
- Moonbull, Crypto et Snek Cheems: naviguer dans la manie de la pièce de mèmes en 2025
- Sep 27, 2025 at 08:15 am
- Débordez les dernières tendances des pièces MEME avec Moonbull menant la charge, aux côtés de mises à jour sur Snek et Cheems. Découvrez ce qui fait de Moonbull un concurrent de haut niveau pour 2025.
-
- Rocky Road de Dogecoin: résistance et baisse des prix - quelle est la prochaine étape?
- Sep 27, 2025 at 08:02 am
- Dogecoin fait face à la résistance et aux baisses de prix, mais l'activité des baleines et l'intérêt des ETF ajoutent une nouvelle couche à son récit de marché. Doge peut-il surmonter les obstacles?
-