Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez
Absztrakt
A magyar nyelv szerkezete a prefixek és szuffixek alkalmazása miatt nem teszi lehetővé az angol nyelvterületen alkalmazható szöveganalizáló módszerek alkalmazását. Az információtároló és -kereső rendszerek, a szöveges információkat tároló adatbázisok szóanyagának elemzésénél gyakori probléma a szövegekben előforduló szóformátumok visszavezetése a szótövekre; a szuffixek előtt gyakori kötőhangok felismerése és leválasztása; a szuffixek és prefixek levágása; a szófajok felismerése; a már létező szótárakban található szavakkal való azonosításuk.
A programrendszer a jelzett problémák megoldását teszi lehetővé magyar nyelvű szövegeknél.
Segédeszközül felhasználja:
a szuffixek és prefixek táblázatát;
a szövegek formaszavainak ún. nullszótárát;
a tartalmat hordozó szótövek szótárát.
Mindezek a szótárak automatikusan bővíthetők a feldolgozások eredményeként. Ehhez azonban már az emberi kontroll szükséges. További problémát jelent a szuffixek hasonulása, valamint a szótövekből való hangkiesesek, tőhangváltások megoldása,
A programrendszer IBM 360 gépen OS PL/1./F/ nyelven üzemel.
A rendszer szerkezetét és kísérleti feldolgozásának eredményét mutatja be a cikk.
A programrendszer a jelzett problémák megoldását teszi lehetővé magyar nyelvű szövegeknél.
Segédeszközül felhasználja:
a szuffixek és prefixek táblázatát;
a szövegek formaszavainak ún. nullszótárát;
a tartalmat hordozó szótövek szótárát.
Mindezek a szótárak automatikusan bővíthetők a feldolgozások eredményeként. Ehhez azonban már az emberi kontroll szükséges. További problémát jelent a szuffixek hasonulása, valamint a szótövekből való hangkiesesek, tőhangváltások megoldása,
A programrendszer IBM 360 gépen OS PL/1./F/ nyelven üzemel.
A rendszer szerkezetét és kísérleti feldolgozásának eredményét mutatja be a cikk.
##submission.downloads##
Megjelent
2019-01-17
Hogyan kell idézni
Balogh, Z. Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez, Tudományos és Műszaki Tájékoztatás, 21(7), p. 487–494, 2019.
Folyóirat szám
Rovat
Cikkek