Version 2019-2
24/12/2019- La version 2019.2 de ConSoRe, destinée aux centres pilotes, a été livrée à l’Institut Curie le 20/09/2019
- Elle intègre différentes évolutions présentées dans ce document
- Certaines évolutions fonctionnelles sont facilement visibles (ex: nouvelle source « Essai clinique »)
- D’autres évolutions visent à une amélioration de la qualité ou une meilleure maintenabilité
- Pour rendre à César ce qui est à César on précise via quel projet ces évolutions ont été réalisées et quel acteur les a financées
- Les évolutions de cette version seront intégrées, avec d’autres, dans la version 2019.3 qui sera déployée dans tous les établissement en fin d’année
- FUSPAT : Fusion des documents des patients
- Permet de gérer de manière transparente les fusions de patients et de leurs documents
- SOUCLI : Inclusion dans des essais cliniques
- Nouvelle source de données permettant de savoir qu’un patient est inclus dans un essai clinique
- 1ère source au format CSV nécessitant un effort d’intégration minimal pour les Centres
- ORGDOC : Gestion de l’origine des documents
- Permet de distinguer plusieurs établissements au sein d’un centre
- Utile par exemple pour l’Institut Curie et l’hôpital Saint-Cloud
- SEQTRT : Nouvelles définitions des séquences de traitement
- Refonte complète des séquences et de la manière dont elles sont calculées pour améliorer la qualité des séquences détectées
- OPTITEXT : Optimisation des recherches plein texte
- Permet d’effectuer des recherches plein texte en ignorant les négations, hypothèses, antécédents familiaux
- Permet de bénéficier de la puissance du TALN dans le plein texte
- STOPTT : Amélioration de la structuration des traitements de chimio
- Meilleure détection des dates de début et de fin de traitement
- Nouvelles règles de structuration des traitements de chimio pour diminuer le bruit
- DATEANTEC : Datage automatique des antécédents
- Permet de dater les phrases sans date de la section antécédent
- Moins de bruit dans la détection du cancer, des métastases, des traitements
- COUSURV : Courbes de survie
- Calcul des durées de survie globale, sans récidive, sans métastase
- Affichage de courbes de survie de plusieurs cohortes ou recherches enregistrées (à livrer en octobre)
Modèles de Machine Learning
- Passage d’un modèle multi-classes unique à 5 modèles de Texcat et 5 de NER
- Amélioration maintenabilité / évolutivité
- Objectif d’éviter les effets de bords sur la détection d’autres types d’entités lors de l’enrichissement d’un modèle
- Amélioration de la détection des entêtes dans les documents
- Amélioration qualité
- L’objectif de la détection des entêtes est d’éviter des contresens dans la détection de concepts médicaux qu’on rattacherait au patient
- Vecteurs de mots calculés sur le corpus de Curie
- Amélioration qualité
- Meilleure détection des concepts médicaux via des modèles entraînés avec un vocabulaire spécifique cancérologie
- Amélioration du modèle métastase
- Amélioration qualité
- Réentrainement pour les termes localisation, ganglions ,…
- Amélioration du modèle NER des protocoles ambigüs
- Amélioration qualité
- Réentrainement & Validation des protocoles trouvés par rapport à une liste
- Amélioration du modèle de classification des antécédents familiaux
- Amélioration qualité
Référentiels et Règles TALN
- Ré-accentuation automatique des concepts extraits et mal accentués
- Amélioration qualité
- Limitation du bruit dans la détection des morphologies
- Détection des codes postaux et communes pour ne pas les considérer comme des codes Snomed
- Remplacement d’une expression régulière par une liste de codes pour détecter les codes ADICAP à amélioration qualité: meilleure précision
- Codes ADICAP correspondant à des ganglions métastatiques plus pris en compte à Amélioration qualité: éviter le bruit
- Travail sur les localisations
- tissus adipeux devient proche de toutes les autres à Amélioration qualité: éviter le bruit (fausses métastases)
- Ajout de localisations : sternum, manubrium, « pyramide basal », pleuropulmonaire, … à Amélioration qualité: éviter silences sur la détection de métastases
- Amélioration de la détection des phrases courtes
- Amélioration qualité: éviter des silences dans la détection de concepts médicaux dans des phrases de trois mots ou moins
- Amélioration règles de rattachement des localisations
- Amélioration qualité: éviter des silences dans l’association entre morphologie et localisation
- Amélioration règles de rattachement des dates aux évènements
- Anonymisation du NIR (contrainte CNIL)
- Conformité RGPD
Règles de structuration et portail
- Dans le requêteur: limitation des suggestions au contexte sélectionné (radiothérapie, types de traitement,…)
- Amélioration GoldStandard des cancers :
- Amélioration périmètre des tests de qualité
- Mesure du bruit
- Règles de validité améliorées (côté, …)
- Amélioration affichage des attributs des objets composites (cancers, traitements, …)
Travaux essentiellement relatifs au Traitement du Langage :
- Réponse au traitement
- Détection des réponses aux traitements dans les compte rendus (modèle Machine Learning NER + règles)
- Niveaux de réponse : Progression, Stabilité, Réponse complète…
- Type de réponse : Morphologique, Métabolique , Etat Général
- Taux de rappel satisfaisant mais précision à améliorer
- Travail en cours pour limiter le bruit dans les réponses morphologiques
- Détection des réponses aux traitements dans les compte rendus (modèle Machine Learning NER + règles)
- Toxicité
- Intégration du référentiel CTCAE utilisé pour classifier les toxicités
- Les référentiels CIM10 et CHIMIO sont utilisés pour piloter la détection de concepts
- Correspondance établie entre la CIM10 et CTCAE pour les toxicités les plus courantes
- En cas de détection d’un arrêt de traitement à proximité d’une toxicité, ajout d’un lien de causalité
- Intégration du référentiel CTCAE utilisé pour classifier les toxicités
Travail de correspondance avec la CIM10 à poursuivre
Les éléments repérés sont déjà mis en évidence dans les documents pour permettre l’analyse