Commit a2eb593e authored by Quentin's avatar Quentin
Browse files

Delete useless file

parent 6508e87c
INPUT:
article1.txt
article2.txt
article3.txt
Collection corpus:
[Documents][3]
Documents 1:
documentid
INPUT : C'est possible d'avoir plusieurs fichiers
PROCESSUS/ PIPELINE : C'est mieux de rassembler en un unique fichier texte "corpus"
( fusion + concatenation, perte de l'arborescence )
VISUALISATION: Il faut retrouver l'arborescence et un format de lecture pour chaque fichier
( retour vers le source décrit lors de la création du corpus, ou division des documents à partir du conllu )
Corpus public:
type: public
createdBy: jojo
creationDate: osef
metadata: osef
documents[]
Où est contenu le texte de ce corpus ?
MetaCollection PipelineXCorpus:
pipelineId
corpusId
conllu
outputs[]
annotations[]
Documents:
documentid
source1 (path vers un fichier)
source2 (dérivation du conllu)
conlluBuffer (tokenization) [1 COLONNE: FORME, avec indexligne = token ()]
Source1 peut etre de différent types : XML, HTML, txt, pdf
Pour passer au conllu, on passe par un format String
Input:
article1.txt
article2.txt
article3.txt
Pipeline: p1
Validate
-> Creation de Corpus:
corpusId: _c1_
createdBy: moi
creationDate: now
type: private
{metadata } : null
documents:[
{
documentid: _d1_,
source: article1.txt,
conlluBuffer: null
},
{
documentid: _d2_,
source: article2.txt,
conlluBuffer: null
},
{
documentid: _d3_,
source: article3.txt,
conlluBuffer: null
}
]
-> Creation de pipeline: pipelineId: _p1_
-> Construction de conlluBuffer
À partir des fichiers sources on construit ConlluBuffer qui n'est d'autre que le fichier source tokenisé.
Donc une seule colonne qui correspond au token/forme
_c1_.documents[0].conlluBuffer= translatedAsConllu(article1.txt)
-> Construction de CorpusProcess
CorpusProcess est l'assemblage d'un corpus & d'une pipeline, lancé par un utilisateur.
Durant l'initialisation, il y a concaténation des différents conlluBuffer de chaque document du corpus afin
de créer un unique fichier conllu.
corpusProcessId: _cp1_
corpusId: _c1_
pipelineId: _p1_
userId: moi
conllu: { // On concatène les conllu buffer des différents Documents pour créer cette propriété
[{
columnId: _conllu1_,
columnTitle: FORM
columnContent: .... // tokenization de l'ensemble des documents du corpus
}],
annotatedDocuments: [{
documentId: _d1_,
corpusProcessId: _cp1_,
annotations: []
},
{
documentId: _d2_,
corpusProcessId: _cp1_,
annotations: []
},
{
documentId: _d3_,
corpusProcessId: _cp1_,
annotations: []
}],
outputs: [],
currentProcessingModule: null,
status: Not started yet
}
-> Démarrage de la chaine de traitement
En suivant les instructions de la pipeline _p1_, on démarre le premier module avec les paramètres correspondant.
_cp1_ est mis à jour
currentProcessingModule: _m1_,
status: Started
conllu: ajouter à la liste
{
columnId: _conllu2_,
columnTitle: Module1,
columnContent: Annotations du Module1
}
outputs: ajouter à la liste
{
processId: _process1_,
moduleName: Module1,
content: Output éventuellement retourné par Module1
}
-> Prochain module... & fin de la pipeline
Une fois un process terminé, on peut démarrer le suivant et updater _cp1_.currentProcessingModule.
Quand la pipeline est terminée sans erreur, _cp1_.status est mis à jour: Finished
-> Construction des annotations
À partir de la propriété conllu de _cp1_, on peut construire pour chaque colonne les annotations.
On sépare donc la colonne conllu en documents, puis on construit le format annotation.
On l'ajoute ensuite aux documents respectifs:
Ajout à _cp1_.annotatedDocuments[0].annotations:
{
processId: _process1_,
columnId: _conllu2_,
moduleName: Module1,
content: {
title: Annotation du Module1,
description: Voicil'annotation.,
data: annotationData du Module1
},
color: blue
}
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment