European Environmental Thesaurus
GEMET
(General European Multilingual
Environmental Thesaurus)
Licence
GEMET je volně dostupný - viz http://www.eionet.europa.eu/gemet.
Zdroje
Něco bylo získáno už dříve, aktruální
zdroj je http://www.eionet.europa.eu/gemet.
V ČR se informace daly získat na http://www.cenia.cz/__C12571B20041F1F4.nsf/index.html.
K tomuto zdroji byl připojen i soubor zeměpisných dat ČR pojmenovaný
tez.xml.
Vlastnosti
GEMET má dosti jednoduchou strukturu:
-
Vrcholová hierarchie je tzv. Groups
list - 4 superskupiny, 32 skupin
-
Pod ní jsou hierarchie položek s proměnnou hloubkou
-
Každá položka:
-
má:
-
jednoznačný identifikační kód
-
odkaz na vyšší položky
-
hlavní pojmenování ve 22 jazycích - tato pojmenování
jsou oborově závislá, viz například antagonism
-
anglickou definici
-
může mít:
-
odkaz na nižší položky
-
vztažené (related) položky
-
zařazení do témat
-
vedlejší pojmenování
-
Seznam
20-ti témat - ke každému tématu je přiřazeno několik položek
- jsou možné dva pohledy na témata:
-
je to 20 hierarchií
-
je to faktorová síť 20-ti faktorů
Témata jsou přiřazena atributem DOMAIN, obrácená
relace je pomocí atributu DOMAIN_TYPICAL.
Stav
zpracování
V datových fondech z roku 2004 jsou chyby (adresář D:\222\__Glossary\MZP\MZP_GEMET\
- soubory mají již pouze historickou hodnotu):
-
12456_GEMET_DESCRIPTOR is duplicite - it occurs for second time at the
end of file
-
286_GEMET_DESCRIPTOR does not exist
-
11089_GEMET_DESCRIPTOR does not exist
-
1000050_GEMET_DESCRIPTOR does not exist
-
some names do have a space at the beginning
V datových fondech z roku 2007 jsou chyby (adresář D:\222\__Glossary\MZP\MZP_GEMET\GEMET\):
-
u mnoha termínů je násobně (179x) broader term - bere se jen
první z nich
-
často chybí definice, překlady do dalších jazyků, hlavně švédštiny
-
animal husbandry je současně téma i položka - položka změněna
na animal_husbandry_(narrow_sense) - je to zas jinak:
- general_animal_husbandry__GEMET je ve zmatku - jeho BIND_TO_LAST
má být přejmenováno na animal_husbandry__GEMET
-
ecological stocktaking se opakuje 2x - stejně technological
accident - celkem 92 chyb - duplicity vypuštěny programem
-
české překlady termínů jsou v mnoha případech nejednoznačné -
je tam proto spousta duplicit
Schema uložení do ZD:
-
GEMET_HIERARCHY
-
GEMET_THEMES
Další
postup
-
ručně stáhnout adresářová data z http://www.eionet.europa.eu/gemet/search?langcode=en
do D:\222\__Glossary\MZP\MZP_GEMET\GEMET
-
rutinou GEMET_download_data() stahnout položková
data do souboru D:\\222\\__Glossary\\MZP\\MZP_GEMET\\GEMET\\DATA.txt
-
spustit program SUPERGLOSSARY_convert_GEMET()
pro generování nového Gemet.000
- do této rutiny dodat převod GEMET-jmen zdrojů na jejich plná
jména
-
v Gemet.000
řádky #BIND_TO_LAST: "animal_husbandry__GEMET",zaměnit
za #BIND_TO_LAST: "general_animal_husbandry__GEMET",
-
vygenerovat DB voláním rutiny GENER_add_files()
-
udělat přehled zdrojů: PHC - PHCEurope, AMHER
- AmericanHeritage, ...
-
Přehled rutin je v GEMET_do();
Použití
-
Viz Třídění
informací (dat) pro výukové programy
-
Ve vztahu k PSH, EUROVOC, WordNet, zákony, SSJC,
SCS, CSVS a GEO atd. bude tvořit obecný glosář - k němu se na Internetu
vyrobí editační portál pro:
-
překlad popisů
-
doplňování popisů
-
doplňování překladů
-
Vyznačování v textech
-
Sémantická strana sémanticko-syntaktické databáze