Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Sign in
Toggle navigation
Menu
Open sidebar
Jorge Garcia flores
ChêneTAL
Commits
a2eb593e
Commit
a2eb593e
authored
Feb 12, 2021
by
Quentin
Browse files
Delete useless file
parent
6508e87c
Changes
1
Hide whitespace changes
Inline
Side-by-side
INPUT:
deleted
100644 → 0
View file @
6508e87c
INPUT:
article1.txt
article2.txt
article3.txt
Collection corpus:
[Documents][3]
Documents 1:
documentid
INPUT : C'est possible d'avoir plusieurs fichiers
PROCESSUS/ PIPELINE : C'est mieux de rassembler en un unique fichier texte "corpus"
( fusion + concatenation, perte de l'arborescence )
VISUALISATION: Il faut retrouver l'arborescence et un format de lecture pour chaque fichier
( retour vers le source décrit lors de la création du corpus, ou division des documents à partir du conllu )
Corpus public:
type: public
createdBy: jojo
creationDate: osef
metadata: osef
documents[]
Où est contenu le texte de ce corpus ?
MetaCollection PipelineXCorpus:
pipelineId
corpusId
conllu
outputs[]
annotations[]
Documents:
documentid
source1 (path vers un fichier)
source2 (dérivation du conllu)
conlluBuffer (tokenization) [1 COLONNE: FORME, avec indexligne = token ()]
Source1 peut etre de différent types : XML, HTML, txt, pdf
Pour passer au conllu, on passe par un format String
Input:
article1.txt
article2.txt
article3.txt
Pipeline: p1
Validate
-> Creation de Corpus:
corpusId: _c1_
createdBy: moi
creationDate: now
type: private
{metadata } : null
documents:[
{
documentid: _d1_,
source: article1.txt,
conlluBuffer: null
},
{
documentid: _d2_,
source: article2.txt,
conlluBuffer: null
},
{
documentid: _d3_,
source: article3.txt,
conlluBuffer: null
}
]
-> Creation de pipeline: pipelineId: _p1_
-> Construction de conlluBuffer
À partir des fichiers sources on construit ConlluBuffer qui n'est d'autre que le fichier source tokenisé.
Donc une seule colonne qui correspond au token/forme
_c1_.documents[0].conlluBuffer= translatedAsConllu(article1.txt)
-> Construction de CorpusProcess
CorpusProcess est l'assemblage d'un corpus & d'une pipeline, lancé par un utilisateur.
Durant l'initialisation, il y a concaténation des différents conlluBuffer de chaque document du corpus afin
de créer un unique fichier conllu.
corpusProcessId: _cp1_
corpusId: _c1_
pipelineId: _p1_
userId: moi
conllu: { // On concatène les conllu buffer des différents Documents pour créer cette propriété
[{
columnId: _conllu1_,
columnTitle: FORM
columnContent: .... // tokenization de l'ensemble des documents du corpus
}],
annotatedDocuments: [{
documentId: _d1_,
corpusProcessId: _cp1_,
annotations: []
},
{
documentId: _d2_,
corpusProcessId: _cp1_,
annotations: []
},
{
documentId: _d3_,
corpusProcessId: _cp1_,
annotations: []
}],
outputs: [],
currentProcessingModule: null,
status: Not started yet
}
-> Démarrage de la chaine de traitement
En suivant les instructions de la pipeline _p1_, on démarre le premier module avec les paramètres correspondant.
_cp1_ est mis à jour
currentProcessingModule: _m1_,
status: Started
conllu: ajouter à la liste
{
columnId: _conllu2_,
columnTitle: Module1,
columnContent: Annotations du Module1
}
outputs: ajouter à la liste
{
processId: _process1_,
moduleName: Module1,
content: Output éventuellement retourné par Module1
}
-> Prochain module... & fin de la pipeline
Une fois un process terminé, on peut démarrer le suivant et updater _cp1_.currentProcessingModule.
Quand la pipeline est terminée sans erreur, _cp1_.status est mis à jour: Finished
-> Construction des annotations
À partir de la propriété conllu de _cp1_, on peut construire pour chaque colonne les annotations.
On sépare donc la colonne conllu en documents, puis on construit le format annotation.
On l'ajoute ensuite aux documents respectifs:
Ajout à _cp1_.annotatedDocuments[0].annotations:
{
processId: _process1_,
columnId: _conllu2_,
moduleName: Module1,
content: {
title: Annotation du Module1,
description: Voicil'annotation.,
data: annotationData du Module1
},
color: blue
}
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment