+infos (gedcom)

De WikiGenWeb
Révision de 20 février 2011 à 23:33 par Purdey (discussion | contributions) (Page créée avec « =GEDCOM et ses dialectes= La majorité des logiciels de généalogie propose des fonctions Gedcom. Malheureusement les fichiers produits ne respectent pas rigoureusemen... »)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

GEDCOM et ses dialectes

La majorité des logiciels de généalogie propose des fonctions Gedcom. Malheureusement les fichiers produits ne respectent pas rigoureusement les règles et les variations constituent de véritables dialectes. Cependant le format texte utilisé par Gedcom autorise une investigation facile. Ce site réunit les informations utiles pour une intervention optimale.

Gedcom expliqué aux impatients

La réussite d'un transfert de données par un fichier gedcom dépend essentiellement du logiciel de départ et du logiciel d'arrivée. A cela deux raisons essentielles:

  • - la spécification Gedcom est rigoureuse dans son expression mais souple dans son application *- les éditeurs de logiciel n'ont pas tous la même interprétation pour le même type de données

Chaque logiciel utilise en fait une sorte de DIALECTE, au lieu du modèle Gedcom conçu pour être universel.


Dire que l'on échange un fichier Gedcom n'est pas explicite. Il convient de toujours préciser son contenu. Dans le cas où le fichier contient plus d'informations, qu'il n'est nécessaire, elles sont simplement ignorées. Si des données ne peuvent pas être traduites, elles sont également ignorées.

Définitions Gedcom est un protocole destiné à transférer les données entre les logiciels de généalogie qui offrent les fonctions dites gedcom. Le contenant intermédiaire est un fichier informatique. Il est écrit par le logiciel exportateur. Il sera lu par le logiciel importateur.


Ce fichier est transmis par les moyens habituels : disquettes et autres supports physiques ou par connexion électronique dont bien sûr le Net.


Le format fait appel au mode texte. Toutes les données sont représentées par des caractères alpha numériques. Ce fichier peut donc être lu/ouvert par un éditeur pratiquement sur toutes machines et tout 'operating system'.


Pour exploiter ces données elles doivent être organisées ( structurées ) selon une procédure connue de tous. C'est l'objet de la grammaire.


Structure du fichier Chaque ensemble de caractères constituant une donnée doit occuper une ligne de longueur maximale de 255 cractères. Chaque ligne débute par un signet (tag) représentatif de la nature des informations. Elle a une place unique dans une stucture arborescente dont les niveaux sont repérés par un numéro, croissant selon une hiérarchie décroissante.


La racine étant le fichier on trouve d'abord 10 types d'enregistrements repérés par le niveau 0. Ensuite chaque enregistrement reçoit une référence pour distinguer chaque utilisation. Par convention cette référence est encadrée par le signe @.


Voici les 10 types d'enregistrement avec le tag conventionnel et la nature des données: HEAD en tête du fichier avec les paramètres FAM enregistrement de données pour une famille INDI enregistrement de données pour un individu NOTE enregistrement de données pour une note SOUR enregistrement de données pour une source REPO enregistrement de données pour une archive OBJE enregistrement de données pour un document SUBM enregistrement de données pour un rédacteur SUBN enregistrement de données pour soumission TRLR marque de fin de fichier


Ce qui conduit à une première ligne d'un enregistrement par exemple 0 @xxxx@ INDI 0 @xxxxxxx@ SOUR


A la suite viendront des lignes de détail au niveau 1 puis à l'intérieur de chaque niveau 1 des compléments affectés au niveau 2. Pour une personne on peut écrire


0 @xxxxx@ INDI (création d'un enregistrement d'individu) 1 NAME prénom/nom/ (indication du prénom et du nom) 1 BIRT (les données du niveau supérieur concernent la naissance) 2 DATE jj MMM aaaa (la date de naissance) 2 PLAC village (le lieu de naissance) 1 DEAT ( les données du niveau supérieur concernent le décès) ... 0 @xxx@ INDI ( une autre personne)


Les textes entre parenthèses ne seront pas présents dans le fichier, ce sont des commentaires pour la compréhension.


Ce schéma simple permet de décrire parfaitement l'ensemble des informations. Un ensemble de tags est défini dans les règles gedcom pour couvrir les besoins. Cependant il ne permet pas de représenter des liens par exemple entre personnes.


Ainsi une famille est composée d'un homme et d'une femme, alors au lieu de reprendre les données de chaque personne il sera fait appel seulement à leur référence.


0 @fxxx@ FAM (création d'un enregistrement famille) 1 HUSB @ind215@ (l'époux est la personne décrite dans l'enregistrement @ind215@ ) 1 WIFE @ind12@ (l'épouse est la personne décrite dans l'enregistrement @ind12@ ) 1 MARR (éléments concernant le mariage) 2 DATE jj MMM aaaa (date) 2 plac un village (lieu) 1 ......


Nous disposons maintenant d'un moyen pour écrire toutes les relations dans nos généalogies en imbriquant ce mécanisme de pointage dans l'arbre des données.


Un fichier complet Il contient successivement:

  • un enregistremet d'en tête unique et obligatoire HEAD
  • des enregistrements FAM INDI SOUR REPO NOTE OBJE
  • un enregistrement SUBM décrivant l'expéditeur ou rédacteur du fichier
  • un enregistrement SUBN décrivant la soumission à LDS
  • un enregistrement de fin unique et obligatoire TRLR


L'ordre des enregistrements peut être quelconque ainsi que le nombre mais sans fractionnement sauf les deux obligatoires HEAD en début et TRLR en fin. Un enregistrement commence toujours par un niveau 0 pour définir sa référence. L'ordre n'est pas imposé pour les niveaux supérieurs de même valeur.

0 HEAD 0 @...@ INDI 1 DEAT 2 DATE 2 PLAC 1 BIRT 2 PLAC 2 DATE 0 @...@ SOUR ... 0 @...@ FAM ... 0 @...@ INDI ... 0 @...@ REPO ... 0 TRLR


Ce fichier est grammaticalement correct. DEAT est avant BIRT ne respectant pas la chronologie. DATE et PLAC sont inversés. FAM apparait avant le deuxième individu. Ceci dit et sans obligation ce serait une bonne idée de respecter une logique pour faciliter la consultation à l'écran d'un fichier.


Résumé du concept Le fondement et seul principe du gedcom c'est: une structure arborescente complétée par un dispositif de pointage entre les branches.


Le mécanisme de pointage fait appel à la référence d'un enregistrement, choisie librement, mais unique par rapport à l'ensemble du fichier. Elle est identifiée par deux @ qui l'encadrent : @ref@. Quand elle apparait dans la première ligne d'un enregistrement c'est un identificateur et quand elle apparait dans une citation c'est un pointeur. 0 @R001@ REPO crée la référence @R001@ et l'utilise comme identificateur .... 0 @......... 1 SOUR @R001@ utilise la référence @R001@ pour constituer un pointeur, c'est une citation


L'identificateur apparait une seule fois dans la première ligne d'un enregistrement.


Le pointeur est utilisé dans le corps d'un enregistrement pour définir un lien. Un même enregistrement peut contenir plusieurs pointeurs si nécessaire. Le pointeur est la première ligne d'une citation qui englobe les lignes de niveu supérieur suivant celle qui contient le pointeur.


Il ne reste plus rien à comprendre. Il faut maintenant savoir, connaitre des conventions de détail. Elles sont détaillées dans le document encore en vigueur publié le 2 janvier 1996, dont il existe une version informatique.


Le format d'enregistrement

Il s'agit du format informatique retenu pour l'enregistrement du fichier à ne pas confondre avec le modèle , parfois désigné format des données, qui constitue la syntaxe. Un fichier gedcom est un texte accesible par de multiples éditeurs ou traitement de texte. Il contient autant de lignes que nécessaires d'une longueur maximale de 255 caractères.


Séparateur de lignes

La règle prévoit soit un saut de ligne, soit un retour chariot, soit les deux dans un ordre quelconque. De facto la combinaison retour chariot + saut de ligne est largement généralisée en enregistrement, tandis qu'en lecture certains éditeurs acceptent le saut de ligne seul, mais sauvegardent avec la combinaison complète. Pour les exemples et utilitaires de ce site il est implicite que le séparateur de ligne est: retour chariot + saut de ligne.


Jeu de caractères

Gedcom recommande deux jeux de caractères ANSEL et ANSI. ANSEL est universel et présente tous les caractères internationaux avec une représentation sur deux octets, donc plus encombrante. ANSI est retenu dans toutes les applications Windows et constitue de fait le standard de par sa position dominante. Dans les exemples et utilitaires de ce site, seul le jeu de carctères ANSI est utilisé.


Conversion

Pour exploiter les données d'un fichier gedcom il n'est pas toujours possible d'obtenir le format souhaité. Dans cette situation nous signalons un utilitaire de conversion pour modifier le séparateur de lignes et/ou le jeu de caractères. Voir le descriptif CONVANSEL avec lien pour téléchargement.

Description du modèle gedcom

Principe Certains avouent ne pas comprendre le modèle gedcom. Je voudrais essayer de vous apportez un moyen pour mieux cerner le principe. Les Mormons ont choisi une structure arborescente, ce qui ne devrait pas déstabiliser des généalogistes. Ce modèle nous est familier, c'est celui de l'explorateur Windows.


La racine est le fichier gedcom lui même qui contient toutes les données. Puis on trouve des catégories de données qui chacune sont dans un répertoire, par exemple les individus, les familles. Ensuite dans un sous répertoire, de chacun des répertoires précédents, des données plus détaillées. Nouvel exemple: pour un individu sa naissance , son décès. Avec le même principe des détails plus fins concernant sa naissance sont placés dans un sous répertoire du précédent. On imagine bien que le procédé puisse se continuer sans limite de principe et permette l'organisation de TOUTES les données.


L'objet du format est de transmettre aisément cette structure. Un support simple et généralisé est celui des fichiers texte, c'est à dire une suite de caractères. Ce type de fichier est lisible par quasiment toutes les machines sur beaucoup de support. Quelle que soit l'évolution des technologies l'accès aux données est garanti. Au fil du temps les logiciels applicatifs continueront d'évoluer et offriront de meilleures performances de traitement. Ainsi le capital des données du chercheur sera préservé.


Ces données généalogiques sont déjà du texte, il reste à les étiqueter pour traduire la hiérarchie de la structure. Par convention les répertoires sont numérotés de façon croissante depuis le plus global vers le plus détaillé; ces repères seront identifiés dans la suite par le mot : niveau. Il est indispensable de préciser la nature des données, par exemple un nom, une date, un lieu pour indiquer au logiciel le traitement à appliquer aux caractères qui constituent chaque donnée. Ceci est obtenu par l'utilisation d'un signet, choisi court pour ne pas surcharger la taille du fichier. Ce signet est une abréviation du nom anglais de la nature. On le désigne aussi par TAG, et on utilise fréquemment ce mot, strictement équivalent. Par exemple un nom a pour signet NAME, une date DATE, un lieu PLAC. En fait c'est un code alphabétique plus évocateur que des chiffres et son origine anglaise n'est pas une difficulté, même pour les francophones, car les tags sont peu nombreux et par conséquent très fréquents.


Le principe du format gedcom est maintenant complètement défini. Un fichier dit gedcom est une suite de lignes de texte commençant par un chiffre, suivi d'un signet représentatif d'une nature de données et terminée par la donnée elle même.


Mise en oeuvre -> Convention pour les niveaux

Les catégories les plus globales ont reçu le niveau 0, puis les sous catégories le niveau 1, et ainsi de suite. En pratique pour définir l'application à la généalogie un ensemble de tags est déterminé en précisant la hiérarchie des données. Le modèle est désigné comme la grammaire. Il propose les combinaisons adaptées à chaque situation pour atteindre la répétitivité et concevoir un traitement automatisé.


-> Convention pour les types de données

Les données peuvent être groupées par catégories et plusieurs types sont définis au niveau 0, par exemple celles concernant une personne ou une famille. Chaque ensemble est désigné enregistrement ou structure. Pour chaque type il existera plusieurs enregistrements correspondants aux données spécifiques, par exemple pour chaque personne. Les enregistrements de même type seront distingués par l'attribution d'une référence unique, désignant de façon rigoureuse un enregistrement par rapport à tous ceux présents dans un fichier. 0 @2846@ INDI sera la première ligne d'un enregistrement contenant les données relatives à la personne référencée 2846 qui doit s'enregistrer entre deux @, qui signifie c'est une référence

0 @22@ FAM sera la première ligne d'un enregistrement contenant les données relatives à une famille référencée 22 qui doit s'enregistrer entre deux @, qui signifie c'est une référence


Le fichier contiendra à la suite les uns des autres tous les enregistrements de chaque type identifiables par une référence, désignée parfois 'cross-reference'.


-> Convention pour les liens

La structure arborescente convient pour les données descriptives attachées à un enregistrement mais la généalogie est avant tout une indication de liens, tout d'abord de sang, par exemple la filiation. Dans ce cas le lien est à établir entre une personne et une famille constituée par le couple des parents. La méthode retenue est celle de la citation qui consiste à indiquer la nature du lien et à préciser l'enregistrement lié en le désignant par sa référence.


Si la personne 2846 est issue de la famille 22 on trouvera 0 @2846@ INDI 1 FAMC @22@ la seconde ligne se lit 'FAMC= enfant de' et la référence 22 désigne la famille des parents.


C'est également par citation que la composition de la famille apparaît 0 @22@ FAM 1 HUSB @xxxx@ 1 WIFE @yyyy@ HUSB désigne l'époux référencé xxxx et WIFE l'épouse référencée yyyy


-> Données répétitives

Certains groupes de données s'appliquent à plusieurs enregistrements. Pour ne pas les reproduire en totalité chaque fois que nécessaires on peut créer un enregistrement type avec une référence. Alors il suffira de citer l'enregistrement au lieu de le reproduire et d'alourdir le fichier.


Par exemple une source concernant plusieurs personnes et/ou événements fera l'objet d'un enregistrement 0 @48..4@ SOUR suivi de toutes les caractéristiques sera citée dans tous les enregistrements par une ligne n SOUR @48..4@ dans laquelle n indique le niveau, cette valeur dépendant de la donnée à qualifier


-> Contenu d'un fichier gedcom

Chaque fichier commence par un enregistrement d'en tête, qui marque le début et donne des renseignements généraux. Et chaque fichier doit contenir un dernier enregistrement qui marque la fin de fichier. Tous les autres enregistrements doivent être placés entre ces deux marques, sans contrainte d'ordre mais sans fractionnement.


marque début 0 HEAD suivie de lignes détails


marque fin 0 TRLR ligne unique


-> Exemple

Cet exemple est le texte d'un fichier. Vous pouvez le coller dans un fichier pour test. Il contient outre l'en tête et la fin obligatoires, trois enregistrements de personnes, un enregistrement de famille et trois enregistrements sources.

//liste a prendre sur standardgw//


Codification

Les principes exposés sont présentés en détail dans un texte diffusé par les Mormons. Ce texte désigné parfois recommandations, parfois règles, contient une liste des tags et des combinaisons usuelles. Ainsi la version actuelle 5.5, datée de 1996, contient plus de 3000 combinaisons dites licites ou légales. Cela couvre la quasi totalité des besoins des généalogistes, mêmes exceptionnels. En pratique une centaine de tags combinés suffisent pour traduire un fichier bien documenté.


Dialectes

Malgré le large choix des règles gedcom certains fichiers font appel à d'autres combinaisons. Tout simplement la première cause est une erreur soit dans l'interprétation des règles, soit dans la production d'un mauvais codage du fichier.


La possibilité de créer des tags originaux est prévue et certains éditeurs de logiciels en usent. Mais seuls les utilisateurs du même logiciel peuvent alors échanger convenablement leurs données. Dans ce dernier cas le fichier gedcom est un moyen de sauvegarde des données, complémentaire à celui du format spécifique au logiciel.


Quelle que soit la raison le non respect des règles conduit à un dialecte, inspiré de gedcom, mais qui ne permet d'atteidre l'indépendance des logiciels généalogiques. Cet objectif est cependant recherché par la plupart des chercheurs généalogistes.


Grammaire gedcom

Liste et usage des tags Pour la désignation des types d'enregistrement 8 tags sont prévus


  • FAM enregistrement de données pour une famille
  • INDI enregistrement de données pour un individu
  • NOTE enregistrement de données pour une note
  • SOUR enregistrement de données pour une source
  • REPO enregistrement de données pour une archive
  • OBJE enregistrement de données pour un document
  • SUBM enregistrement de données pour un rédacteur
  • SUBN enregistrement de données pour soumission


Avec HEAD pour l'en tête et TRLR pour la fin de fichier ce sont 10 TAGS de niveau 0 en usage.



Pour les types de données 123 tags sont utilisés ( de niveau 1 à niveau 5 ). Le tableau précise pour chacun à quel niveau ils peuvent apparaitre et indique le nombre d'utilisations à ce niveau. Au total ce sont 4132 combinaisons tag&niveau qui constituent le vocabulaire de référence.


//tableau sur standardgw//

Basé sur les spécifications version5.5 publiées le 2 janvier 1996.

Le contenu d'un fichier gedcom - l'Ecriture des données

Dialectes

Malgré le large choix des règles gedcom certains fichiers font appel à d'autres combinaisons. Tout simplement la première cause est une erreur soit dans l'interprétation des règles, soit dans la production d'un mauvais codage du fichier. La possibilité de créer des tags originaux est prévue et certains éditeurs de logiciels en usent. Mais seuls les utilisateurs du même logiciel peuvent alors échanger convenablement leurs données. Dans ce dernier cas le fichier gedcom est un moyen de sauvegarde des données, complémentaire à celui du format spécifique au logiciel.

Synoptique d'un fichier

Pour passer de la théorie à la pratique voici des tableaux décrivant chacun des types d'enregistrement que peut contenir un fichier gedcom. Toutes les possibilités du modèle ne sont pas exploitées mais ce synoptique couvre les fonctions disponibles dans la majorité des logiciels proposés aux généalogistes.


Enregistrement d'une famille Enregistrement d'une personne Enregistrement d'une note Enregistrement d'une source Enregistrement d'une archive Citation d'une source Enregistrement d'un objet 'media'


En particulier la capacité de transmettre: pour la même personne plusieurs noms, prénoms des événements illimités en nombre et types ( alors que profession est généralement unique ) des caractéristiques illimitées en nombre et types des événements familiaux illimités en nombre et types les sources sous forme de texte ( à éviter ) ou sous forme tabulaire pour citer la même source pour plusieurs événements et décrire un événement par plusieurs sources les notes sous forme de texte ( à éviter ) ou sous forme tabulaire pour citer la même note pour plusieurs événements et décrire un événement par plusieurs notes les liens sans limitation de nombre vers des personnes ou des familles la certitude des faits selon la qualité des sources

En un mot cela démontre que si toutes les données que contient votre logiciel ne sont pas exportées, c'est que ce logiciel ne met pas à profit le potentiel du modèle gedcom. Inversement un fichier très complet risque de ne pas être lu complètement à cause des limitations du logiciel importateur.

Enregistrement d'une personne ///liste standardgw///

Autres protocoles de transfert

Gedcom est largement utilisé à travers le monde entier, mais d'autres sont envisageables. Fichiers texte Certains logiciels et utilitaires proposent l'exportation des données dans des fichiers tabulaires en mode texte. Cela conduit à des fichiers peu volumineux et consultables dans un simple éditeur de texte. Très séduisant pourvu que les fichiers soient organisés sur le même plan : nombre de colonnes et nature des données. Ce n'est pas le cas. Cependant pour des utilisateurs expérimentés capables de transformer ces fichiers, cette méthode sera retenue exceptionnellement pour un sauvetage. Fichiers XML Cette technologie est très prometteuse. Pour l'immédiat aucun logiciel usuel ne la propose. Le seul que je connaisse actuellemnt est en version de base. Il tourne sous Linux avec licence GNU. L'équipe de conception est dynamique et réactive. Il s'appelle GRAMPS. La documentation, les sources et le produit sont disponibles sur le site d'entrée http://web.archive.org/web/20040728024203/http://sourceforge.net/ Initiative à suivre. Début 2002 les Mormons ( The Church of Jesus Christ of Latter-day Saints ) ont publié un projet pour la révision Gedcom XML 6. La version finale n'est pas encore disponible. En effet le projet est controversé si l'on en croit les rares communications acccessibles sur le Web. Extrait de la préface: "This draft is not a complete specification. However, the Document Type Definition (DTD) and extensive examples are included. We feel that is enough to give a reasonable understanding of the specification." Entre temps, il nous reste à maitriser la 5.5 !

Lieux et adresses

Le tag PLAC debute une ligne indiquant un lieu.


Les composantes hierarchiques ou administratives sont notées selon un ordre croissant séparées par une virgule. La norme ne précise pas le nombre de niveaux. En pratique la valeur de six est utilisée par quelques logiciels, dont Heredis. De son coté GMX est limité à quatre. L'en tête du fichier précise dans un tag FORM la séquence des éléments du lieu, exemple : 2 FORM Town , Area code , County , Region , Country, Subdivision d'où dans le corps du fichier: 2 PLAC Annonay,07100,Ardèche,Rhône-Alpes,F,Hôpital 2 PLAC Lalouvesc,07520,Ardèche,Rhône-Alpes,F, 2 PLAC Saint-Pierre-sur-Doux,07,Ardèche,Rhône-Alpes,F, En important un fichier du genre dans le logiciel rédacteur vous aurez la surprise de devoir répondre aux questions sur l'organisation des lieux. A quoi bon ce tag FORM documenté en anglais. De plus la virgule finale sans élément n'est pas justifiée et perturbe certains logiciels.


Cette manière de renseigner les lieux indique une confusion entre le nom et l'adresse d'un lieu. Ce qui importe dans une base c'est de mentionner le nom. Son adresse correspond à d'autres utilisations. Un logiciel de généalogie n'est pas un agenda.


Je trouve dommage d'encombrer les écrans ou les états par la répétition des régions, du pays et des départements sous forme numérique et littérale. Eventuellement le département sous l'une des deux formes suffit à localiser le village tandis que le lieu-dit est indispensable pour restituer l'atmosphère d'une famille.


Gestion des sources

Comment concilier les extrèmes, PAF avec l'abondance de détails et GMX sans détails. Paf est très riche c'est presque un logiciel de documentaliste avec une source principale et une source spécifique tout en respectant l'étendue de la grammaire. Il est probablement le seul. Lors d'un transfert il y a perte de données. GMX ne retient qu'un titre et un texte. Il y a insuffisance de données. En intermédiaire Heredis transmet un compromis raisonnable pour ce qui est des valeurs mais il reste fantaisiste dans l'attribution des valeurs face à la nature des tags.


Extraction de données

Pour envoyer des données à un autre généalogiste, il faut extraire une partie de votre base pour isoler une branche ou un groupe de personnes répondant à certaines caractéristiques. Les logiciels proposent cette fonction et l'expérience montre que la réussite est rarement totale.


Parmi les défauts:


les liens vers des personnes hors de l'extraction restent dans le fichier les relations des personnes sont bien transmises mais pas les personnes liées la totalité des sources est transférée au lieu d'une sélection ajustée


Pour les médias il faut envoyer les documents en plus du gedcom avec l'indication des répertoires destinataires pour avoir quelque chance que votre correspondant s'y retrouve. Si son logiciel traite les médias c'est alors gagné. Si les médias ne sont pas reconnus une nouvelle saisie manuelle rétablira la situation.


Ordes des enregistrements

La règle est simple et claire : l'ordre d'écriture des enregistrements peut être quelconque. Un enregistrement appartient à l'un des huit types FAM INDI SOUR NOTE REPO OBJE SUBM SUBN. Le niveau en début de ligne est toujours 0 par convention. Cependant un enregistrement ne doit pas être fractionné.


exemple réel dans l'un des logiciels testés: l'importation déclenchait des messages d'erreurs : ' référence vers individu absent'. Tout simplement des enregistrements INDI étaient après des enregistrements FAM. Le logiciel devrait charger entièrement les enregistrements avant d'établir les liens. Dépannage évident : déplacer les enregistrements perturbants avec un éditeur de texte.


Référence des enregistrements Elle peut contenir 22 caractères alpha-numériques. Elle doit être unique pour chaque type d'enregistrements.


En pratique la majorité des logiciels impose la propriété  : unique, par rapport à tout le fichier. L'inconvénient reste mineur car souvent une référence contient un caractère lié au type d'enregistrement et de facto la condition est remplie. Cest une bonne pratique qui facilite la consultation visuelle du fichier gedcom. Pourquoi ne pas utiliser le type d'enregistrement, ce qui serait plus lisible comme @FAM12345@ ou @INDI123456789012345678@ ; pas plus de 18 chiffres et ça devrait suffire.


Ordres des structures Dans le corps d'un enregistrement les structures de même niveau ne sont pas ordonnées. Elles doivenr être imbriquées dans la structure de niveau précédent, dans laquelle elles débutent. Il ne faut pas confondre le niveau hierarchique et le nombre caractérisant un niveau. Une structure supérieure est repérée par un nombre inférieur. Une ligne est la structure de plus petite taille qui suit cette règle. exemple réel dans l'un des logiciels testés: 0 @....@ INDI ... 1 CENS 2 DATE 1901 2 PLAC Great Coates, Lincs. 2 NOTE aged 1, at home. 2 SOUR @S341@ 1 EVEN ... 0 @...... La source n'était pas traitée quand elle se présentait après une note. C'est une erreur incontestable. Les quatre lignes niveau 2 doivent s'interpréter quel que soit l'ordre. Elles sont correctement imbriquées dans la structure de niveau 1, elle même imbriquée dans le niveau 0 de l'enregistrement. Dépannage possible : permuter les lignes en cause avec un éditeur de texte. Mais cela requiert beaucoup d'attention et de soin, d'autant plus que le fichier est gros.

Types de Caractères dans les documents généalogiques

Les informations sont contenues dans des fichiers ou des tables selon un format  spécifique à chaque logiciel. En particulier les caractères  utilisés pour représenter ces données sont codés ce  qui définit une page de caractères. Malheureusement il n'existe  pas une page universelle, mais les pages les plus usuelles sont peu nombreuses.  Cela permet de décrire la très large majorité des documents  pour les ordinateurs de la famille PC à partir de deux types:  

- fonctionnant sous DOS, la page type désignée par OEM - fonctionnant sous WINDOWS, la page type désignée par ANSI Cette disposition fonctionne correctement si le logiciel émetteur et le logiciel récepteur utilisent la même langue. Pour obtenir un résultat indépendant de la langue, une grille contenant tous les caractères mondiaux a été publiée, désignée par ANSEL. Ainsi avec un tableau de conversion pour chaque langue le document de référence est exploitable par tous les logiciels comportant cette option. Conversion des caractères : Méthode Le convertisseur couvre les besoins à partir de la page de caractères de Windows ANSI de très loin la plus fréquente en offrant: conversion ANSI <-> oem dans les deux sens conversion ANSI <-> ANSEL dans les deux sens Tous les documents de type texte peuvent ainsi être traités et visualisés quel que soit l'environnement, si l'alphabet de référence est le français. Dans le cas spécifique des fichiers Gedcom il convient de mettre à jour l'en tête de fichier pour mentionner la page de caractères pour la lecture. Le convertisseur comporte cette option. Le convertisseur est téléchargeable librement à : http://www.chez.com/ocado/convansel/index.html

Exemples de conversion des caractères 

Ce tableau est un extrait de conversions appliquées à la langue française

ansi ansel IBMPC   é âe ,   è áe Š   ê ãe ˆ   ë èe   ó âo   ò áo    ô ão â    ö èo    á âa    à áa …    â ãa ƒ   ä èa    ú âu    ù áu    û ãu –    ü èu    í âi    ì ái    î ãi Œ    ï èi ‹    ý ây    ÿ èy    ç ðc ‡    ñ ~n 

Conversion ANSI <---> ANSEL <---> IBMPC Détails pour l'écriture d'une date La grammaire Gedcom est très complète pour représenter les dates avec différents calendriers avec les formats spécifiques à chacun. Dans une première partie la forme la plus usuelle est exposée. Elle utilise le calendrier Grégorien et a été retenue pour application dans les utilitaires de ce site. La seconde partie cite les autres éléments avec un commentaire justificatif.

CALENDRIER GREGORIEN

La valeur 'date' doit être au format : jj mmm aaaa avec 1 ou 2 chiffres pour jj trois lettres pour le mois abrégé : [ JAN | FEB | MAR | APR | MAY | JUN | JUL | AUG | SEP | OCT | NOV | DEC ] 4 chiffres pour l'année Pour représenter une date exacte et complète tous les éléments sont requis. Pour une indication partielle l'année seule ou une combinaison mois année peut être utilisée. Il est également possible de qualifier une date avec un des préfixes: ABT <DATE> | EST <DATE> la date est approximative CAL <DATE> la date est calculée à partir d'un autre événement ou selon l'age lors de l'événement BEF <DATE> | TO <DATE> date au plus tard d'un événement AFT <DATE> | FROM <DATE> date au plus tôt d'un événement FROM <DATE> TO <DATE> date dans la période incluant les bornes BET <DATE> AND <DATE> date dans l'intervalle excluant les limites Pour l'enregistrement d'une date autre que pour un événement seule la forme exacte est utilisable. En particulier cette forme est utilisée pour la date de mise à jour d'un enregistrement.

AUTRES CALENDRIERS

Calendrier révolutionnaire français L'histoire n'en fait usage que pour une dizaine d'années. Actuellement la compréhension des dates sous cette forme n'est plus intuitive et ce calendrier est un obstacle pour un traitement efficace des dates. Tous les logiciels de généalogie offrent la possibilité de notes qui peuvent recevoir la mention des dates sous la forme originale. Et comme il existe des convertisseurs il est facile de traduire en une date grégorienne.


Calendrier Julien Son usage s'est éteint au XVI ème siècle en France. Par ailleurs les sources traitant de cette époque mentionnent rarement jour et mois et la différence d'une petite quinzaine de jours n'est pas significative. Pour les cas rigoureux il reste, comme ci dessus, la possibilité de convertir.


Calendriers internationaux La portée des règles Gedcom est internationale et d'autres expressions de dates sont possibles. L'utilisation de ces calendriers vise des logiciels écrits pour des langues se référant à ces calendriers. Si une généalogie rédigée en français cite des dates de ce type, la conversion s'impose.













Auteur

Ensemble de page réalisées par Sylvain Peyrichou (décédé en 2005). S on site a fermé mais il est encore consultable dans les archives du web http://web.archive.org/web/20041015225404/ http://perso.club-internet.fr/sypey/ et il a aussi été intégralement repris à l'identique par un de ses amis, Jean-Pierre Stremler : http://www.sypey.org/