tekens

Maarten Riedstra
Auteur
Offline

Lees meer

tekens

04 nov 2025 16:40

#53802

Ik krijg bij het met Python lezen van een gedcom file steeds meldingen over u2014, html-karakter —

Ruud de Ruiter
Offline

Lees meer

Re: tekens

05 nov 2025 07:40 - 05 nov 2025 07:40

#53810

Welke versie Gedcom ? Zie Instellingen
Gebruik versie 5.5.1.

Laatst bewerkt 05 nov 2025 07:40 door Ruud de Ruiter.

Maarten Riedstra
Auteur
Offline

Lees meer

Re: tekens

05 nov 2025 09:19

#53811

Zie header gedcom-voor de Aldfaer en GEDC =versies
Zou het in deze regels zitten
.1 _NEW
en
1 _REFERENCE
1 _PRIVACY
2 _PUBLISH

0 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-8

0 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-80 HEAD
1 SOUR ALDFAER
2 VERS 12.0
2 NAME Aldfaer
2 CORP Stichting Aldfaer
3 ADDR www.aldfaer.net
1 DATE 3 NOV 2025
2 TIME 11:45:27
1 SUBM @SUBM1@
1 GEDC
2 VERS 5.5.1
2 FORM Lineage-Linked
1 CHAR UTF-8

Maarten Riedstra
Auteur
Offline

Lees meer

Re: tekens

05 nov 2025 10:42

#53812

Eenvoudig Python programmaatje:

GED_PATH = "DATA/riedstra.ged"
f=open(GED_PATH,"r",encoding="utf-8")
for line in f.readlines():
print(line.strip())

Foutmelding direct aan het begin:
'charmap' codec can't encode character '\ufeff' is mbv stackoverflow.com opgelost door encoding="utf-8-sig" te gebruiken

Misschien iets voor jullie om rekening mee te houden.
Het heeft iets te maken met BOM byte-order mark
Zover gaat mijn kennis echter niet!

Ruud de Ruiter
Offline

Lees meer

Re: tekens

05 nov 2025 11:02

#53813

Ik ben geen Gedcom specialist maar ik krijg:

Ik laat verdere reacties over aan een specialist

Paul Kallenberg
Offline

Lees meer

Re: tekens

05 nov 2025 17:29

#53821

Maarten,

Een door Aldfaer in uft-8 gecodeerd GEDCOM-bestand begint met een zgn. BOM (byte-order-mark) waarmee de filecodering herkend kan worden. Als je het bestand opent in een teksteditor als Notepad++ zie je dit niet, maar als je het bestand opent in een hex-editor zie je dit wel staan. Door utf-8-sig te gebruiken wordt de byte-order-mark overgeslagen bij het inlezen en gaat het inlezen goed. Wij gaan er dus geen rekening mee houden, dat is aan jou, via encoding="utf-8-sig", om dat te doen als je het bestand via een python-script wil inlezen.

Paul