Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez

Zoltán Balogh

Szerzők

Balogh Zoltán

Absztrakt

A magyar nyelv szerkezete a prefixek és szuffixek alkalmazása miatt nem teszi lehetővé az angol nyelvterületen alkalmazható szöveganalizáló módszerek alkalmazását. Az információtároló és -kereső rendszerek, a szöveges információkat tároló adatbázisok szóanyagának elemzésénél gyakori probléma a szövegekben előforduló szóformátumok visszavezetése a szótövekre; a szuffixek előtt gyakori kötőhangok felismerése és leválasztása; a szuffixek és prefixek levágása; a szófajok felismerése; a már létező szótárakban található szavakkal való azonosításuk.
A programrendszer a jelzett problémák megoldását teszi lehetővé magyar nyelvű szövegeknél.
Segédeszközül felhasználja:
a szuffixek és prefixek táblázatát;
a szövegek formaszavainak ún. nullszótárát;
a tartalmat hordozó szótövek szótárát.
Mindezek a szótárak automatikusan bővíthetők a feldolgozások eredményeként. Ehhez azonban már az emberi kontroll szükséges. További problémát jelent a szuffixek hasonulása, valamint a szótövekből való hangkiesesek, tőhangváltások megoldása,
A programrendszer IBM 360 gépen OS PL/1./F/ nyelven üzemel.
A rendszer szerkezetét és kísérleti feldolgozásának eredményét mutatja be a cikk.

Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez

Szerzők

Absztrakt

##submission.downloads##

Megjelent

Hogyan kell idézni

Folyóirat szám

Rovat

Nyelv