+infos (gedcom) : Différence entre versions

De WikiGenWeb
Aller à : navigation, rechercher
(Calendriers internationaux)
(Détails pour l'écriture d'une date)
Ligne 923 : Ligne 923 :
 
=Détails    pour l'écriture d'une date=  
 
=Détails    pour l'écriture d'une date=  
  
La grammaire Gedcom est très complète pour représenter    les dates avec différents calendriers avec les formats spécifiques    à chacun. Dans une première partie la forme la plus usuelle est    exposée. <br/>Elle utilise le calendrier Grégorien et a été    retenue pour application dans les utilitaires de ce site.  La seconde partie cite les autres éléments avec un commentaire    justificatif.
+
La grammaire Gedcom est très complète pour représenter    les dates avec différents calendriers avec les formats spécifiques    à chacun. Dans une première partie la forme la plus usuelle est    exposée. <br/>Elle utilise le [[calendrier]] Grégorien et a été    retenue pour application dans les utilitaires de ce site.  La seconde partie cite les autres éléments avec un commentaire    justificatif.
  
 
==CALENDRIER GREGORIEN==  
 
==CALENDRIER GREGORIEN==  

Version du 21 février 2011 à 18:05

GEDCOM et ses dialectes

La majorité des logiciels de généalogie propose des fonctions Gedcom. Malheureusement les fichiers produits ne respectent pas rigoureusement les règles et les variations constituent de véritables dialectes. Cependant le format texte utilisé par Gedcom autorise une investigation facile. Ce site réunit les informations utiles pour une intervention optimale.

Gedcom expliqué aux impatients

La réussite d'un transfert de données par un fichier gedcom dépend essentiellement du logiciel de départ et du logiciel d'arrivée. A cela deux raisons essentielles:

  • - la spécification Gedcom est rigoureuse dans son expression mais souple dans son application
  • - les éditeurs de logiciel n'ont pas tous la même interprétation pour le même type de données

Chaque logiciel utilise en fait une sorte de DIALECTE, au lieu du modèle Gedcom conçu pour être universel.


Dire que l'on échange un fichier Gedcom n'est pas explicite. Il convient de toujours préciser son contenu. Dans le cas où le fichier contient plus d'informations, qu'il n'est nécessaire, elles sont simplement ignorées. Si des données ne peuvent pas être traduites, elles sont également ignorées.

Définitions

Gedcom est un protocole destiné à transférer les données entre les logiciels de généalogie qui offrent les fonctions dites gedcom. Le contenant intermédiaire est un fichier informatique. Il est écrit par le logiciel exportateur. Il sera lu par le logiciel importateur.


Ce fichier est transmis par les moyens habituels : disquettes et autres supports physiques ou par connexion électronique dont bien sûr le Net.


Le format fait appel au mode texte. Toutes les données sont représentées par des caractères alpha numériques. Ce fichier peut donc être lu/ouvert par un éditeur pratiquement sur toutes machines et tout 'operating system'.


Pour exploiter ces données elles doivent être organisées ( structurées ) selon une procédure connue de tous. C'est l'objet de la grammaire.


Structure du fichier

Chaque ensemble de caractères constituant une donnée doit occuper une ligne de longueur maximale de 255 caractères. Chaque ligne débute par un signet (tag) représentatif de la nature des informations. Elle a une place unique dans une structure arborescente dont les niveaux sont repérés par un numéro, croissant selon une hiérarchie décroissante.


La racine étant le fichier on trouve d'abord 10 types d'enregistrements repérés par le niveau 0. Ensuite chaque enregistrement reçoit une référence pour distinguer chaque utilisation. Par convention cette référence est encadrée par le signe @.


Voici les 10 types d'enregistrement avec le tag conventionnel et la nature des données: HEAD en tête du fichier avec les paramètres FAM enregistrement de données pour une famille INDI enregistrement de données pour un individu NOTE enregistrement de données pour une note SOUR enregistrement de données pour une source REPO enregistrement de données pour une archive OBJE enregistrement de données pour un document SUBM enregistrement de données pour un rédacteur SUBN enregistrement de données pour soumission TRLR marque de fin de fichier


Ce qui conduit à une première ligne d'un enregistrement par exemple

0 @xxxx@ INDI 
0 @xxxxxxx@ SOUR

A la suite viendront des lignes de détail au niveau 1 puis à l'intérieur de chaque niveau 1 des compléments affectés au niveau 2. Pour une personne on peut écrire

  0 @xxxxx@ INDI (création d'un enregistrement d'individu)
  1 NAME prénom/nom/ (indication du prénom et du nom)
  1 BIRT (les données du niveau supérieur concernent la naissance)
  2 DATE jj MMM aaaa (la date de naissance)
  2 PLAC village (le lieu de naissance)
  1 DEAT ( les données du niveau supérieur concernent le décès)
  ...
  0 @xxx@ INDI ( une autre personne)

Les textes entre parenthèses ne seront pas présents dans le fichier, ce sont des commentaires pour la compréhension.


Ce schéma simple permet de décrire parfaitement l'ensemble des informations. Un ensemble de tags est défini dans les règles gedcom pour couvrir les besoins. Cependant il ne permet pas de représenter des liens par exemple entre personnes.


Ainsi une famille est composée d'un homme et d'une femme, alors au lieu de reprendre les données de chaque personne il sera fait appel seulement à leur référence.

  0 @fxxx@ FAM (création d'un enregistrement famille)
  1 HUSB @ind215@ (l'époux est la personne décrite dans l'enregistrement    @ind215@ )
  1 WIFE @ind12@ (l'épouse est la personne décrite dans l'enregistrement    @ind12@ )
  1 MARR (éléments concernant le mariage)
  2 DATE jj MMM aaaa (date)
  2 plac un village (lieu)
  1 ......


Nous disposons maintenant d'un moyen pour écrire toutes les relations dans nos généalogies en imbriquant ce mécanisme de pointage dans l'arbre des données.


Un fichier complet
Il contient successivement:
  • un enregistrement d'en tête unique et obligatoire HEAD
  • des enregistrements FAM INDI SOUR REPO NOTE OBJE
  • un enregistrement SUBM décrivant l'expéditeur ou rédacteur du fichier
  • un enregistrement SUBN décrivant la soumission à LDS
  • un enregistrement de fin unique et obligatoire TRLR


L'ordre des enregistrements peut être quelconque ainsi que le nombre mais sans fractionnement sauf les deux obligatoires HEAD en début et TRLR en fin. Un enregistrement commence toujours par un niveau 0 pour définir sa référence. L'ordre n'est pas imposé pour les niveaux supérieurs de même valeur.

  0 @fxxx@ FAM (création d'un enregistrement famille)
  1 HUSB @ind215@ (l'époux est la personne décrite dans l'enregistrement    @ind215@ )
  1 WIFE @ind12@ (l'épouse est la personne décrite dans l'enregistrement    @ind12@ )
  1 MARR (éléments concernant le mariage)
  2 DATE jj MMM aaaa (date)
  2 plac un village (lieu)
  1 ......

Ce fichier est grammaticalement correct. DEAT est avant BIRT ne respectant pas la chronologie. DATE et PLAC sont inversés. FAM apparait avant le deuxième individu. Ceci dit et sans obligation ce serait une bonne idée de respecter une logique pour faciliter la consultation à l'écran d'un fichier.

Résumé du concept

Le fondement et seul principe du gedcom c'est: une structure arborescente complétée par un dispositif de pointage entre les branches.


Le mécanisme de pointage fait appel à la référence d'un enregistrement, choisie librement, mais unique par rapport à l'ensemble du fichier. Elle est identifiée par deux @ qui l'encadrent : @ref@. Quand elle apparait dans la première ligne d'un enregistrement c'est un identificateur et quand elle apparait dans une citation c'est un pointeur.

  0 @R001@ REPO crée la référence @R001@ et l'utilise comme    identificateur
  ....
  0 @.........
  1 SOUR @R001@ utilise la référence @R001@ pour constituer un pointeur,    c'est une citation


L'identificateur apparait une seule fois dans la première ligne d'un enregistrement.


Le pointeur est utilisé dans le corps d'un enregistrement pour définir un lien. Un même enregistrement peut contenir plusieurs pointeurs si nécessaire. Le pointeur est la première ligne d'une citation qui englobe les lignes de niveau supérieur suivant celle qui contient le pointeur.


Il ne reste plus rien à comprendre. Il faut maintenant savoir, connaitre des conventions de détail. Elles sont détaillées dans le document encore en vigueur publié le 2 janvier 1996, dont il existe une version informatique.

Le format d'enregistrement

Il s'agit du format informatique retenu pour l'enregistrement du fichier à ne pas confondre avec le modèle , parfois désigné format des données, qui constitue la syntaxe. Un fichier gedcom est un texte accesible par de multiples éditeurs ou traitement de texte. Il contient autant de lignes que nécessaires d'une longueur maximale de 255 caractères.


Séparateur de lignes

La règle prévoit soit un saut de ligne, soit un retour chariot, soit les deux dans un ordre quelconque. De facto la combinaison retour chariot + saut de ligne est largement généralisée en enregistrement, tandis qu'en lecture certains éditeurs acceptent le saut de ligne seul, mais sauvegardent avec la combinaison complète. Pour les exemples et utilitaires de ce site il est implicite que le séparateur de ligne est: retour chariot + saut de ligne.


Jeu de caractères

Gedcom recommande deux jeux de caractères ANSEL et ANSI. ANSEL est universel et présente tous les caractères internationaux avec une représentation sur deux octets, donc plus encombrante. ANSI est retenu dans toutes les applications Windows et constitue de fait le standard de par sa position dominante. Dans les exemples et utilitaires de ce site, seul le jeu de carctères ANSI est utilisé.


Conversion

Pour exploiter les données d'un fichier gedcom il n'est pas toujours possible d'obtenir le format souhaité. Dans cette situation nous signalons un utilitaire de conversion pour modifier le séparateur de lignes et/ou le jeu de caractères. Voir le descriptif CONVANSEL avec lien pour téléchargement.

Description du modèle gedcom

Principe

Certains avouent ne pas comprendre le modèle gedcom. Je voudrais essayer de vous apportez un moyen pour mieux cerner le principe. Les Mormons ont choisi une structure arborescente, ce qui ne devrait pas déstabiliser des généalogistes. Ce modèle nous est familier, c'est celui de l'explorateur Windows.


La racine est le fichier gedcom lui même qui contient toutes les données. Puis on trouve des catégories de données qui chacune sont dans un répertoire, par exemple les individus, les familles. Ensuite dans un sous répertoire, de chacun des répertoires précédents, des données plus détaillées. Nouvel exemple: pour un individu sa naissance , son décès. Avec le même principe des détails plus fins concernant sa naissance sont placés dans un sous répertoire du précédent. On imagine bien que le procédé puisse se continuer sans limite de principe et permette l'organisation de TOUTES les données.


L'objet du format est de transmettre aisément cette structure. Un support simple et généralisé est celui des fichiers texte, c'est à dire une suite de caractères. Ce type de fichier est lisible par quasiment toutes les machines sur beaucoup de support. Quelle que soit l'évolution des technologies l'accès aux données est garanti. Au fil du temps les logiciels applicatifs continueront d'évoluer et offriront de meilleures performances de traitement. Ainsi le capital des données du chercheur sera préservé.


Ces données généalogiques sont déjà du texte, il reste à les étiqueter pour traduire la hiérarchie de la structure. Par convention les répertoires sont numérotés de façon croissante depuis le plus global vers le plus détaillé; ces repères seront identifiés dans la suite par le mot : niveau. Il est indispensable de préciser la nature des données, par exemple un nom, une date, un lieu pour indiquer au logiciel le traitement à appliquer aux caractères qui constituent chaque donnée. Ceci est obtenu par l'utilisation d'un signet, choisi court pour ne pas surcharger la taille du fichier. Ce signet est une abréviation du nom anglais de la nature. On le désigne aussi par TAG, et on utilise fréquemment ce mot, strictement équivalent. Par exemple un nom a pour signet NAME, une date DATE, un lieu PLAC. En fait c'est un code alphabétique plus évocateur que des chiffres et son origine anglaise n'est pas une difficulté, même pour les francophones, car les tags sont peu nombreux et par conséquent très fréquents.


Le principe du format gedcom est maintenant complètement défini. Un fichier dit gedcom est une suite de lignes de texte commençant par un chiffre, suivi d'un signet représentatif d'une nature de données et terminée par la donnée elle même.


Mise en oeuvre

-> Convention pour les niveaux

Les catégories les plus globales ont reçu le niveau 0, puis les sous catégories le niveau 1, et ainsi de suite. En pratique pour définir l'application à la généalogie un ensemble de tags est déterminé en précisant la hiérarchie des données. Le modèle est désigné comme la grammaire. Il propose les combinaisons adaptées à chaque situation pour atteindre la répétitivité et concevoir un traitement automatisé.


-> Convention pour les types de données

Les données peuvent être groupées par catégories et plusieurs types sont définis au niveau 0, par exemple celles concernant une personne ou une famille. Chaque ensemble est désigné enregistrement ou structure. Pour chaque type il existera plusieurs enregistrements correspondants aux données spécifiques, par exemple pour chaque personne. Les enregistrements de même type seront distingués par l'attribution d'une référence unique, désignant de façon rigoureuse un enregistrement par rapport à tous ceux présents dans un fichier.

  0 @2846@ INDI 

sera la première ligne d'un enregistrement contenant les données relatives à la personne référencée 2846 qui doit s'enregistrer entre deux @, qui signifie c'est une référence

  0 @22@ FAM 

sera la première ligne d'un enregistrement contenant les données relatives à une famille référencée 22 qui doit s'enregistrer entre deux @, qui signifie c'est une référence


Le fichier contiendra à la suite les uns des autres tous les enregistrements de chaque type identifiables par une référence, désignée parfois 'cross-reference'.


-> Convention pour les liens

La structure arborescente convient pour les données descriptives attachées à un enregistrement mais la généalogie est avant tout une indication de liens, tout d'abord de sang, par exemple la filiation. Dans ce cas le lien est à établir entre une personne et une famille constituée par le couple des parents. La méthode retenue est celle de la citation qui consiste à indiquer la nature du lien et à préciser l'enregistrement lié en le désignant par sa référence.


Si la personne 2846 est issue de la famille 22 on trouvera

  0 @2846@ INDI
  1 FAMC @22@

la seconde ligne se lit 'FAMC= enfant de' et la référence 22 désigne la famille des parents.


C'est également par citation que la composition de la famille apparaît

  0 @22@ FAM 
  1 HUSB @xxxx@
  1 WIFE @yyyy@

HUSB désigne l'époux référencé xxxx et WIFE l'épouse référencée yyyy


-> Données répétitives

Certains groupes de données s'appliquent à plusieurs enregistrements. Pour ne pas les reproduire en totalité chaque fois que nécessaires on peut créer un enregistrement type avec une référence. Alors il suffira de citer l'enregistrement au lieu de le reproduire et d'alourdir le fichier.


Par exemple une source concernant plusieurs personnes et/ou événements fera l'objet d'un enregistrement 0 @48..4@ SOUR suivi de toutes les caractéristiques sera citée dans tous les enregistrements par une ligne n SOUR @48..4@ dans laquelle n indique le niveau, cette valeur dépendant de la donnée à qualifier


-> Contenu d'un fichier gedcom

Chaque fichier commence par un enregistrement d'en tête, qui marque le début et donne des renseignements généraux. Et chaque fichier doit contenir un dernier enregistrement qui marque la fin de fichier. Tous les autres enregistrements doivent être placés entre ces deux marques, sans contrainte d'ordre mais sans fractionnement.


marque début 0 HEAD suivie de lignes détails


marque fin 0 TRLR ligne unique


-> Exemple

Cet exemple est le texte d'un fichier. Vous pouvez le coller dans un fichier pour test. Il contient outre l'en tête et la fin obligatoires, trois enregistrements de personnes, un enregistrement de famille et trois enregistrements sources.

  0 HEAD
  1 SOUR PAF
  2 NAME Personal Ancestral File
  2 VERS 4.0.4.16
  2 CORP The Church of Jesus Christ of Latter-day Saints
  3 ADDR 50 East North Temple Street
  4 CONT Salt Lake City, UT 84150
  1 DEST PAF
  1 DATE 13 MAY 2001
  2 TIME 16:11:56
  1 FILE depaf.ged
  1 GEDC
  2 VERS 5.5
  2 FORM LINEAGE-LINKED
  1 CHAR ANSI
  1 LANG French
  0 @4993I@ INDI
  1 NAME Claude Marie/VERGOS/
  1 SEX M
  1 BIRT
  2 DATE 4 MAY 1752
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  2 SOUR @8103S@
  2 SOUR @7942S@
  1 OCCU cultivateur
  1 FAMC @6579U@
  0 @6579U@ FAM
  1 HUSB @5176I@
  1 WIFE @6576I@
  1 CHIL @4993I@
  1 MARR
  2 DATE 22 NOV 1745
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  1 CHAN 
  2 DATE 22 AUG 2000
  0 @5176I@ INDI
  1 NAME Trémeur/VERGOS/
  1 SEX M
  1 BIRT
  2 DATE 17 FEB 1715
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8103S@
  2 SOUR @8021S@
  1 DEAT
  2 DATE 11 FEB 1777
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  1 FAMS @6579U@
  0 @6576I@ INDI
  1 NAME Françoise/BODENEZ/
  1 SEX F
  1 BIRT
  2 DATE ABT 1724
  2 PLAC Loperhet,Finistère
  2 SOUR @8021S@
  1 DEAT
  2 DATE 12 JUL 1763
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8103S@
  2 SOUR @8021S@
  1 FAMS @6579U@
  0 @8103S@ SOUR
  1 PUBL André GENTRIC
  1 REFN Internet
  0 @8021S@ SOUR
  1 PUBL Jean-Pierre CARIOU
  0 @7942S@ SOUR
  1 PUBL Roscanvel REC/DEC
  1 REFN 1831
  0 TRLR

Codification

Les principes exposés sont présentés en détail dans un texte diffusé par les Mormons. Ce texte désigné parfois recommandations, parfois règles, contient une liste des tags et des combinaisons usuelles. Ainsi la version actuelle 5.5, datée de 1996, contient plus de 3000 combinaisons dites licites ou légales. Cela couvre la quasi totalité des besoins des généalogistes, mêmes exceptionnels. En pratique une centaine de tags combinés suffisent pour traduire un fichier bien documenté.


Dialectes

Malgré le large choix des règles gedcom certains fichiers font appel à d'autres combinaisons. Tout simplement la première cause est une erreur soit dans l'interprétation des règles, soit dans la production d'un mauvais codage du fichier.


La possibilité de créer des tags originaux est prévue et certains éditeurs de logiciels en usent. Mais seuls les utilisateurs du même logiciel peuvent alors échanger convenablement leurs données. Dans ce dernier cas le fichier gedcom est un moyen de sauvegarde des données, complémentaire à celui du format spécifique au logiciel.


Quelle que soit la raison le non respect des règles conduit à un dialecte, inspiré de gedcom, mais qui ne permet d'atteidre l'indépendance des logiciels généalogiques. Cet objectif est cependant recherché par la plupart des chercheurs généalogistes.

Grammaire gedcom

Liste et usage des tags
Pour la désignation des types d'enregistrement 8 tags sont prévus
  • FAM enregistrement de données pour une famille
  • INDI enregistrement de données pour un individu
  • NOTE enregistrement de données pour une note
  • SOUR enregistrement de données pour une source
  • REPO enregistrement de données pour une archive
  • OBJE enregistrement de données pour un document
  • SUBM enregistrement de données pour un rédacteur
  • SUBN enregistrement de données pour soumission


Avec HEAD pour l'en tête et TRLR pour la fin de fichier ce sont 10 TAGS de niveau 0 en usage.

Pour les types de données 123 tags sont utilisés ( de niveau 1 à niveau 5 ). Le tableau précise pour chacun à quel niveau ils peuvent apparaitre et indique le nombre d'utilisations à ce niveau. Au total ce sont 4132 combinaisons tag&niveau qui constituent le vocabulaire de référence.

niveau1 niveau2 niveau3 niveau4 niveau5 total
ABBR 1 1
ADDR 2 47 1 50
ADOP 1 1 2
ADR1 2 47 1 50
ADR2 2 47 1 50
AFN 1
AGE 47 22 69
AGNC 48 48
ALIA 1 1
ANCE 1 1
ANCI 1 1
ANUL 1 1
ASSO 1 34 35
AUTH 1 1
BAPL 1 1
BAPM 1 1
BARM 1 1
BASM 1 1
BIRT 1 1
BLES 1 1
BURI 1 1
CALN 1 1
CAST 1 1
CAUS 47 47
CENS 2 2
CHAN 7 7
CHAR 1 1
CHIL 1 1
CHR 1 1
CHRA 1 1
CITY 2 47 1 50
CONC 1 27 130 238 103 499
CONF 1 1
CONL 1 1
CONT 1 29 177 239 103 549
COPR 1 1 2
CORP 1 1
CREM 1 1
CTRY 2 47 1 50
DATA 1 5 54

60
DATE 1 59 6 54
120
DEAT 1



1
DESC 1



1
DESI 1



1
DEST 1



1
DIV 1



1
DIVF 1



1
DSCR 1



1
EDUC 1



1
EMIG 1



1
ENDL 1



1
ENGA 1



1
EVEN 2 5 54

61
FAMC 1 4


5
FAMF 1



1
FAMS 1



1
FCOM 1



1
FILE 2 4 50 49
105
FORM
7 97 49
153
GEDC 1



1
GIVN
1


1
GRAD 1



1
HUSB 1 11


12
IDNO 1



1
IMMI 1



1
LANG 2



2
MARB 1



1
MARC 1



1
MARL 1



1
MARR 1



1
MARS 1



1
MEDI

1

1
NAME 3 1


4
NATI 1



1
NATU 1



1
NCHI 1



1
NICK
1


1
NMR 1



1
NOTE 11 145 360 98
614
NPFX
1


1
NSFX
1


1
OBJE 8 100 98

206
OCCU 1



1
ORDI 1



1
ORDN 1



1
PAGE
4 54

58
PEDI
1


1
PHON 2 47 1

50
PLAC 1 52 1

54
POST
2 47 1
50
PROB 1



1
PROP 1



1
PUBL 1



1
QUAY
4 54

58
REFN 6



6
RELA
1 34

35
RELI 1



1
REPO 2



2
RESI 1



1
RESN 2



2
RETI 1



1
RFN 2



2
RIN 8



8
ROLE

4 54
58
SEX 1



1
SLGC 1



1
SLGS 1



1
SOUR 9 112 106 180 49 456
SPFX
1


1
SSN 1



1
STAE
2 47 1
50
STAT
5


5
SUBM 5



5
SUBN 1 1
SURN 1 1
TEMP 1 5 6
TEXT 1 4 58 54 117
TIME 1 7 8
TITL 2 5 50 49 106
TYPE 54 1 55
VERS 3 3
WIFE 1 11 12
WILL 1 1
total 153 949 1704 1070 255 4132

Basé sur les spécifications version5.5 publiées le 2 janvier 1996.

Le contenu d'un fichier gedcom - l'Ecriture des données

Dialectes

Malgré le large choix des règles gedcom certains fichiers font appel à d'autres combinaisons. Tout simplement la première cause est une erreur soit dans l'interprétation des règles, soit dans la production d'un mauvais codage du fichier. La possibilité de créer des tags originaux est prévue et certains éditeurs de logiciels en usent. Mais seuls les utilisateurs du même logiciel peuvent alors échanger convenablement leurs données. Dans ce dernier cas le fichier gedcom est un moyen de sauvegarde des données, complémentaire à celui du format spécifique au logiciel.

Synoptique d'un fichier

Pour passer de la théorie à la pratique voici des tableaux décrivant chacun des types d'enregistrement que peut contenir un fichier gedcom. Toutes les possibilités du modèle ne sont pas exploitées mais ce synoptique couvre les fonctions disponibles dans la majorité des logiciels proposés aux généalogistes.

  Enregistrement d'une famille 
  Enregistrement d'une personne 
  Enregistrement d'une note
  Enregistrement d'une source 
  Enregistrement d'une archive 
  Citation d'une source 
  Enregistrement d'un objet 'media' 


En particulier la capacité de transmettre: pour la même personne plusieurs noms, prénoms des événements illimités en nombre et types ( alors que profession est généralement unique ) des caractéristiques illimitées en nombre et types des événements familiaux illimités en nombre et types les sources sous forme de texte ( à éviter ) ou sous forme tabulaire pour citer la même source pour plusieurs événements et décrire un événement par plusieurs sources les notes sous forme de texte ( à éviter ) ou sous forme tabulaire pour citer la même note pour plusieurs événements et décrire un événement par plusieurs notes les liens sans limitation de nombre vers des personnes ou des familles la certitude des faits selon la qualité des sources

En un mot cela démontre que si toutes les données que contient votre logiciel ne sont pas exportées, c'est que ce logiciel ne met pas à profit le potentiel du modèle gedcom. Inversement un fichier très complet risque de ne pas être lu complètement à cause des limitations du logiciel importateur.

Enregistrement d'une personne

  0 @...@ INDI définition de la référence de la personne    décrite 
  1 NAME prénom(s)/nom/
  2 GIVN prénom(s) seul(s)
  2 SURN nom seul
  2 SOUR @...@ citation par référence d'une source
  3 PAGE 
  3 QUAY 
  2 NOTE @...@ citation par référence d'une note
  1 SEX M=masculin F=féminin U=inconnu 
  1 FAMS @...@ citation par référence de la famille dont la personne    est époux 
  1 FAMC @...@ citation par référence de la famille des parents

liste des tags d'événements ou caractéristiques prédéterminés

  1 un des tags suivant : 
  BIRT DEAT BURI OCCU ADOP BARM BASM BLES CAST CENS CHR    
  CHRA CONF CREM DSCR EDUC EMIG FCOM GRAD IDNO IMMI NATI NATU NCHI NMR ORDN PROB    
  PROP RELI RESI RETI SSN TITL WILL 
  2 DATE 
  2 PLAC 
  2 SOUR @...@
  3 PAGE 
  3 QUAY 
  2 NOTE @...@
  2 NOTE 
  3 CONC 
  3 CONT

données de détails d'un événement

  1 EVEN
  2 TYPE description (nom) de l'événement
  2 DATE date
  2 PLAC lieu
  2 SOUR @...@ citation de la source dans un enregistrement séparé
  3 PAGE 
  3 QUAY 
  2 NOTE @...@ citation d'une note dans un enregistrement séparé 
           ou intégration des notes pour cet événement
  2 NOTE 
  3 CONC 
  3 CONT 

notes et commentaires concernant la personne

  1 NOTE @...@ citation d'une note dans un enregistrement séparé 
           ou intégration des notes dans l'enregistrement de la personne
  1 NOTE 
  2 CONC 
  2 CONT 

données source concernant la personne

  1 SOUR @...@ citation d'une source dans un enregistrement séparé 
       ou intégration des données source dans l'enregistrement de la    personne 
  2 PAGE 
  2 QUAY
  1 SOUR texte donnant le titre de la source et autres détails
  2 CONC suite concaténée
  2 CONT suite à la ligne
  2 TEXT texte de la source
  3 CONC suite concaténée
  3 CONT suite à la ligne
  2 NOTE texte de la note
  3 CONC suite concaténée
  3 CONT suite à la ligne

données précisant un lien avec une autre personne

  1 ASSO @...@ citation par référence de la personne associée
  2 RELA 
  2 TYPE description de la relation
  2 SOUR @...@ objet du lien ( FAM ou INDI )
  3 PAGE citation par référence de la source 
  3 QUAY 
  2 NOTE
  1 CHAN
  2 DATE date de denière mise à jour de l'enregistrement de cette    personne

Enregistrement d'une famille

  0 @...@ FAM définition de la référence de la famille décrite    
  1 HUSB @...@ citation par référence de l'époux 
  1 WIFE @...@ citation par référence de l'épouse 
  1 CHIL @...@ citation par référence d'un enfant de la famille  

-> liste des tags d'événements prédéterminés

 1 un des tags suivant MARR (mariage) ANUL (annulation du mariage) CENS (recensement) 
         DIV (divorce) DIVF (demande de divorce) MARB (publication des bans) MARC (contrat    de mariage) 
         MARL (autorisation de mariage) MARS (promesse de mariage) ENGA (fiançailles)
  2 DATE 
  2 PLAC 
  2 SOUR @...@
  3 PAGE 
  3 QUAY 
  2 NOTE @...@

  2 NOTE 
  3 CONC 
  3 CONT 


-> détails d'un événement concernant la famille

  1 EVEN
  2 TYPE description (nom) de l'événement
  2 DATE date
  2 PLAC lieu 
  2 SOUR @...@ citation de la source dans un enregistrement séparé
  3 PAGE 
  3 QUAY 
  2 NOTE @...@ citation d'une note dans un enregistrement séparé    
        ou intégration des notes pour cet événement
  2 NOTE 
  3 CONC 
  3 CONT 

-> notes et commentaires concernant la famille

  1 NOTE @...@ citation d'une note dans un enregistrement séparé    
        ou intégration des données note dans l'enregistrement de la famille
  1 NOTE 
  2 CONC 
  2 CONT 

-> données source concernant la famille

  1 SOUR @...@ citation d'une source dans un enregistrement séparé    
       ou intégration des données source dans l'enregistrement de la    famille
  2 PAGE 
  2 QUAY
  1 SOUR texte donnant le titre de la source et autres détails
  2 CONC suite concaténée
  2 CONT suite à la ligne
  2 TEXT texte de la source
  3 CONC suite concaténée
  3 CONT suite à la ligne
  2 NOTE texte de la note
  3 CONC suite concaténée
  3 CONT suite à la ligne
  1 CHAN date de dernière mise à jour de l'enregistrement de cette    famille
  2 DATE

Citation d'une source

La citation d'une source est prévue dans plusieurs types de données.
Le principe décrit dans le tableau se réfère au niveau, désigné par n, dépendant de l'objet concerné. La page est une localisation de l'information constituant une source dans le cas d'un document volumineux.

Le tag QUAY contient une appréciation, par l'utilisateur, de la certitude de la déduction découlant de la source citée. Il ne faut pas confondre avec la véracité du document constituant la source.
Souvent un document relate ou constate plusieurs événements ou faits, dont la certitude n'est pas identique. Les valeurs de code sont celles prévues dans les règles gedcom.
En prévoir d'autres nuirait à la généralité de la capacité à échanger des fichiers.

  n - SOUR @...@ citation d'une source par sa référence 
  n+1 - PAGE repérage dans l'archive ( page du document ) ne pas confondre    
           avec la cote indiquée dans la source 
  n+1 QUAY avec : 
  0 =source non fiable ou estimation
  1 =fiabilité douteuse
  2 =source indirecte
  3 =preuve indiscutable  

Enregistrement d'une source

  0 @...@ SOUR définition de la référence de la source décrite    
  1 TITL titre ou désignation 
  1 ABBR abréviation pour tri ou classement 
  1 AUTH auteur ou rédacteur 
  1 REFN numéro ou référence de l'utilisateur 
  1 PUBL détails de publication date, lieu, ...  


-> Citation de l'archive dépositaire de la source

  1 REPO @...@ lien vers archive
  2 CALN cote de la source dans cette archive
  3 MEDI support: livre, photo, registre ... 
  1 TEXT texte de la source autant de lignes que nécessaires
  2 CONC 
  2 CONT
  1 NOTE @...@ citation d'une note séparée ou note intégrée    autant de lignes que nécessaires
  1 NOTE 
  2 CONT 
  2 CONC
  1 CHAN date de dernière mise à jour de cet enregistrement 
  2 DATE 

Enregistrement d'une archive

  0 @...@ REPO définition de la référence de l'archive décrite    
  1 NAME nom ou désignation 
  1 ADDR ligne d'adresse 
  2 CONT nouvelle ligne 
  2 CONT nouvelle ligne 
  1 PHON numéro de téléphone 
  1 CHAN
  2 DATE date de dernière mise à jour de cet enregistrement 

Enregistrement d'une note

  0 @...@ NOTE définition de la référence de la note 
  1 CONT texte à la ligne 
  1 CONC texte à combiner 
  1 CHAN
  2 DATE date de dernière mise à jour de cet enregistrement  

Enregistrement d'un objet 'media' Ce type d'enregistrement permet de référencer des supports graphiques photos ou reproduction de documents entre autres. Malheureusement chaque logiciel applique une méthode spécifique et je n'ai pas encore identifié une tendance cohérente pour proposer une méthode unifiée. En fait l'illustration des données n'est pas vraiment la généalogie et elle peut être réalisée par d'excellents logiciels de gestion d'images. Il reste beaucoup à faire pour le traitement des données et je m'y consacre, exclusivement pour l'instant.

L'utilitaire GedProfil analyse le fichier et relève tous les types de tags mis en oeuvre. De plus la liste indique le nombre d'apparition de chacun des tags. Vous pouvez apprécier l'importance de la part illégale et préparer efficacement la correction.

Autres protocoles de transfert

Gedcom est largement utilisé à travers le monde entier, mais d'autres sont envisageables.

Fichiers texte

Certains logiciels et utilitaires proposent l'exportation des données dans des fichiers tabulaires en mode texte. Cela conduit à des fichiers peu volumineux et consultables dans un simple éditeur de texte.

Très séduisant pourvu que les fichiers soient organisés sur le même plan : nombre de colonnes et nature des données. Ce n'est pas le cas.

Cependant pour des utilisateurs expérimentés capables de transformer ces fichiers, cette méthode sera retenue exceptionnellement pour un sauvetage.

Fichiers XML

Cette technologie est très prometteuse. Pour l'immédiat aucun logiciel usuel ne la propose.

Le seul que je connaisse actuellement est en version de base. Il tourne sous Linux avec licence GNU. L'équipe de conception est dynamique et réactive. Il s'appelle GRAMPS. La documentation, les sources et le produit sont disponibles sur le site d'entrée http://web.archive.org/web/20040728024203/http://sourceforge.net/ Initiative à suivre.

Début 2002 les Mormons ( The Church of Jesus Christ of Latter-day Saints ) ont publié un projet pour la révision Gedcom XML 6.
La version finale n'est pas encore disponible. En effet le projet est controversé si l'on en croit les rares communications accessibles sur le Web.

Extrait de la préface:
"This draft is not a complete specification. However, the Document Type Definition (DTD) and extensive examples are included. We feel that is enough to give a reasonable understanding of the specification."


Entre temps, il nous reste à maitriser la 5.5 !

Lieux et adresses

Le tag PLAC débute une ligne indiquant un lieu.

Les composantes hiérarchiques ou administratives sont notées selon un ordre croissant séparées par une virgule. La norme ne précise pas le nombre de niveaux. En pratique la valeur de six est utilisée par quelques logiciels, dont Heredis. De son coté GMX est limité à quatre.


L'en tête du fichier précise dans un tag FORM la séquence des éléments du lieu, exemple :

2 FORM Town , Area code , County , Region , Country, Subdivision


d'où dans le corps du fichier:

2 PLAC Annonay,07100,Ardèche,Rhône-Alpes,F,Hôpital
2 PLAC Lalouvesc,07520,Ardèche,Rhône-Alpes,F,
2 PLAC Saint-Pierre-sur-Doux,07,Ardèche,Rhône-Alpes,F,


En important un fichier du genre dans le logiciel rédacteur vous aurez la surprise de devoir répondre aux questions sur l'organisation des lieux. A quoi bon ce tag FORM documenté en anglais. De plus la virgule finale sans élément n'est pas justifiée et perturbe certains logiciels.


Cette manière de renseigner les lieux indique une confusion entre le nom et l'adresse d'un lieu. Ce qui importe dans une base c'est de mentionner le nom. Son adresse correspond à d'autres utilisations. Un logiciel de généalogie n'est pas un agenda.


Je trouve dommage d'encombrer les écrans ou les états par la répétition des régions, du pays et des départements sous forme numérique et littérale. Eventuellement le département sous l'une des deux formes suffit à localiser le village tandis que le lieu-dit est indispensable pour restituer l'atmosphère d'une famille.

Gestion des sources

Comment concilier les extrèmes, PAF avec l'abondance de détails et GMX sans détails.
Paf est très riche c'est presque un logiciel de documentaliste avec une source principale et une source spécifique tout en respectant l'étendue de la grammaire. Il est probablement le seul. Lors d'un transfert il y a perte de données.
GMX ne retient qu'un titre et un texte. Il y a insuffisance de données.
En intermédiaire Heredis transmet un compromis raisonnable pour ce qui est des valeurs mais il reste fantaisiste dans l'attribution des valeurs face à la nature des tags.

Extraction de données

Pour envoyer des données à un autre généalogiste, il faut extraire une partie de votre base pour isoler une branche ou un groupe de personnes répondant à certaines caractéristiques. Les logiciels proposent cette fonction et l'expérience montre que la réussite est rarement totale.


Parmi les défauts
les liens vers des personnes hors de l'extraction restent dans le fichier les relations des personnes sont bien transmises mais pas les personnes liées la totalité des sources est transférée au lieu d'une sélection ajustée


Pour les médias il faut envoyer les documents en plus du gedcom avec l'indication des répertoires destinataires pour avoir quelque chance que votre correspondant s'y retrouve. Si son logiciel traite les médias c'est alors gagné. Si les médias ne sont pas reconnus une nouvelle saisie manuelle rétablira la situation.

Ordres des enregistrements

La règle est simple et claire : l'ordre d'écriture des enregistrements peut être quelconque. Un enregistrement appartient à l'un des huit types FAM INDI SOUR NOTE REPO OBJE SUBM SUBN. Le niveau en début de ligne est toujours 0 par convention. Cependant un enregistrement ne doit pas être fractionné.


exemple réel dans l'un des logiciels testés


l'importation déclenchait des messages d'erreurs : ' référence vers individu absent'. Tout simplement des enregistrements INDI étaient après des enregistrements FAM. Le logiciel devrait charger entièrement les enregistrements avant d'établir les liens. Dépannage évident : déplacer les enregistrements perturbants avec un éditeur de texte.


Référence des enregistrements
Elle peut contenir 22 caractères alpha-numériques. Elle doit être unique pour chaque type d'enregistrements.


En pratique la majorité des logiciels impose la propriété  : unique, par rapport à tout le fichier. L'inconvénient reste mineur car souvent une référence contient un caractère lié au type d'enregistrement et de facto la condition est remplie. Cest une bonne pratique qui facilite la consultation visuelle du fichier gedcom. Pourquoi ne pas utiliser le type d'enregistrement, ce qui serait plus lisible comme @FAM12345@ ou @INDI123456789012345678@ ; pas plus de 18 chiffres et ça devrait suffire.


Ordres des structures Dans le corps d'un enregistrement les structures de même niveau ne sont pas ordonnées. Elles doivenr être imbriquées dans la structure de niveau précédent, dans laquelle elles débutent. Il ne faut pas confondre le niveau hierarchique et le nombre caractérisant un niveau. Une structure supérieure est repérée par un nombre inférieur. Une ligne est la structure de plus petite taille qui suit cette règle.

exemple réel dans l'un des logiciels testés:

  0 @....@ INDI
  ...
  1 CENS
  2 DATE 1901
  2 PLAC Great Coates, Lincs.
  2 NOTE aged 1, at home.
  2 SOUR @S341@
  1 EVEN
  ...
  0 @......


La source n'était pas traitée quand elle se présentait après une note. C'est une erreur incontestable. Les quatre lignes niveau 2 doivent s'interpréter quel que soit l'ordre. Elles sont correctement imbriquées dans la structure de niveau 1, elle même imbriquée dans le niveau 0 de l'enregistrement.

Dépannage possible : permuter les lignes en cause avec un éditeur de texte. Mais cela requiert beaucoup d'attention et de soin, d'autant plus que le fichier est gros.

Types de Caractères dans les documents généalogiques

Les informations sont contenues dans des fichiers ou des tables selon un format spécifique à chaque logiciel. En particulier les caractères utilisés pour représenter ces données sont codés ce qui définit une page de caractères. Malheureusement il n'existe pas une page universelle, mais les pages les plus usuelles sont peu nombreuses. Cela permet de décrire la très large majorité des documents pour les ordinateurs de la famille PC à partir de deux types:

  • - fonctionnant sous DOS, la page type désignée par OEM
  • - fonctionnant sous WINDOWS, la page type désignée par ANSI

Cette disposition fonctionne correctement si le logiciel émetteur et le logiciel récepteur utilisent la même langue. Pour obtenir un résultat indépendant de la langue, une grille contenant tous les caractères mondiaux a été publiée, désignée par ANSEL. Ainsi avec un tableau de conversion pour chaque langue le document de référence est exploitable par tous les logiciels comportant cette option.

Conversion des caractères : Méthode

Le convertisseur couvre les besoins à partir de la page de caractères de Windows ANSI de très loin la plus fréquente en offrant:

  • conversion ANSI <-> oem dans les deux sens
  • conversion ANSI <-> ANSEL dans les deux sens

Tous les documents de type texte peuvent ainsi être traités et visualisés quel que soit l'environnement, si l'alphabet de référence est le français.

Dans le cas spécifique des fichiers Gedcom il convient de mettre à jour l'en tête de fichier pour mentionner la page de caractères pour la lecture. Le convertisseur comporte cette option. Le convertisseur est téléchargeable librement à : http://www.chez.com/ocado/convansel/index.html

Exemples de conversion des caractères Ce tableau est un extrait de conversions appliquées à la langue française

  ansi ansel IBMPC
  é âe ,
  è áe Š
  ê ãe ˆ
  ë èe
  ó âo
  ò áo 
  ô ão â 
  ö èo 
  á âa 
  à áa … 
  â ãa ƒ
  ä èa 
  ú âu 
  ù áu 
  û ãu – 
  ü èu 
  í âi 
  ì ái 
  î ãi Œ 
  ï èi ‹ 
  ý ây 
  ÿ èy 
  ç ðc ‡ 
  ñ ~n 

Conversion ANSI <---> ANSEL <---> IBMPC

Détails pour l'écriture d'une date

La grammaire Gedcom est très complète pour représenter les dates avec différents calendriers avec les formats spécifiques à chacun. Dans une première partie la forme la plus usuelle est exposée.
Elle utilise le calendrier Grégorien et a été retenue pour application dans les utilitaires de ce site. La seconde partie cite les autres éléments avec un commentaire justificatif.

CALENDRIER GREGORIEN

La valeur 'date' doit être au format : jj mmm aaaa

avec 1 ou 2 chiffres pour jj
trois lettres pour le mois abrégé : [ JAN | FEB | MAR | APR | MAY | JUN | JUL | AUG | SEP | OCT | NOV | DEC ]
4 chiffres pour l'année
Pour représenter une date exacte et complète tous les éléments sont requis.
Pour une indication partielle l'année seule ou une combinaison mois année peut être utilisée.
Il est également possible de qualifier une date avec un des préfixes:

ABT <DATE> | EST <DATE> la date est approximative
CAL <DATE> la date est calculée à partir d'un autre événement ou selon l'age lors de l'événement
BEF <DATE> | TO <DATE> date au plus tard d'un événement
AFT <DATE> | FROM <DATE> date au plus tôt d'un événement
FROM <DATE> TO <DATE> date dans la période incluant les bornes
BET <DATE> AND <DATE> date dans l'intervalle excluant les limites

Pour l'enregistrement d'une date autre que pour un événement seule la forme exacte est utilisable. En particulier cette forme est utilisée pour la date de mise à jour d'un enregistrement.

AUTRES CALENDRIERS

Calendrier révolutionnaire français

L'histoire n'en fait usage que pour une dizaine d'années. Actuellement la compréhension des dates sous cette forme n'est plus intuitive et ce calendrier est un obstacle pour un traitement efficace des dates.

Tous les logiciels de généalogie offrent la possibilité de notes qui peuvent recevoir la mention des dates sous la forme originale. Et comme il existe des convertisseurs il est facile de traduire en une date grégorienne.

Calendrier Julien

Son usage s'est éteint au XVI ème siècle en France. Par ailleurs les sources traitant de cette époque mentionnent rarement jour et mois et la différence d'une petite quinzaine de jours n'est pas significative. Pour les cas rigoureux il reste, comme ci dessus, la possibilité de convertir.

Calendriers internationaux

La portée des règles Gedcom est internationale et d'autres expressions de dates sont possibles. L'utilisation de ces calendriers vise des logiciels écrits pour des langues se référant à ces calendriers. Si une généalogie rédigée en français cite des dates de ce type, la conversion s'impose.

Auteur

  • Ensemble de page réalisées par Sylvain Peyrichou (décédé en 2005).

Son site a fermé mais il est encore consultable dans les archives du web

  • http://web.archive.org/web/20041015225404/
  • http://perso.club-internet.fr/sypey/

et il a aussi été intégralement repris à l'identique par un de ses amis,

  • Jean-Pierre Stremler : http://www.sypey.org/