tekens

Lees meer

tekens

04 nov 2025 16:40
#53802
Ik krijg bij het met Python lezen van een gedcom file steeds meldingen over u2014, html-karakter —

Lees meer

Re: tekens

05 nov 2025 07:40 - 05 nov 2025 07:40
#53810
Welke versie Gedcom ? Zie Instellingen
Gebruik versie 5.5.1.
Laatst bewerkt 05 nov 2025 07:40 door Ruud de Ruiter.

Lees meer

Re: tekens

05 nov 2025 09:19
#53811
Zie header gedcom-voor de Aldfaer en GEDC =versies
Zou het in deze regels zitten
.1 _NEW
en
1 _REFERENCE
1 _PRIVACY
2 _PUBLISH


0 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-8

0 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-80 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-8

Lees meer

Re: tekens

05 nov 2025 10:42
#53812
Eenvoudig Python programmaatje:

GED_PATH = "DATA/riedstra.ged"
f=open(GED_PATH,"r",encoding="utf-8")
for line in f.readlines():
    print(line.strip())

Foutmelding  direct aan het begin:
'charmap' codec can't encode character '\ufeff' is mbv stackoverflow.com opgelost door encoding="utf-8-sig" te gebruiken 

Misschien iets voor jullie om rekening mee te houden.
Het  heeft iets te maken met BOM byte-order mark
Zover gaat mijn kennis echter niet!

Lees meer

Re: tekens

05 nov 2025 11:02
#53813
Ik ben geen Gedcom specialist maar ik krijg:

 

Ik laat verdere reacties over aan een specialist

Lees meer

Re: tekens

05 nov 2025 17:29
#53821
Maarten,

Een door Aldfaer in uft-8 gecodeerd GEDCOM-bestand begint met een zgn. BOM (byte-order-mark) waarmee de filecodering herkend kan worden. Als je het bestand opent in een teksteditor als Notepad++ zie je dit niet, maar als je het bestand opent in een hex-editor zie je dit wel staan. Door utf-8-sig te gebruiken wordt de byte-order-mark overgeslagen bij het inlezen en gaat het inlezen goed. Wij gaan er dus geen rekening mee houden, dat is aan jou, via encoding="utf-8-sig", om dat te doen als je het bestand via een python-script wil inlezen.

Paul

Gemaakt door Kunena