UKUMBI WA LUGHA NA FASIHI: Uchanganuzi wa datakanzi katika teknolojia ya lugha
Na MARY WANGARI
KATIKA mchakato wa lugha na utafiti kidijitali changamoto kuu mojawapo inayohitaji kuangaziwa ni Usanifishaji.
Ujanibishaji
Hii ni nyanja ingine muhimu ambayo imechangia mno katika kukuza na kuendeleza matumizi ya teknolojia katika lugha. Ujanibishaji unahusisha mambo kadha ya mchakato wa datakanzi ikiwemo: ujenzi wa programu za kikompyuta kama Kilinux (Kiswahili katika mfumo wa Linux) kuwa na kitengo cha programu-huria ya Kiswahili almaarufu Open Office pamoja na tafsiri ya MS Office 2003 na Windows XP kwa Kiswahili.
Microsoft East Africa – Huu ni mradi muhimu unaosheheni Kiolesura Fungasha cha Windows. Kwa mujibu wa Mabeya (2009) Kiolesura Fungasha ni daraja la kuruhusu mtumiaji wa lugha ya Kiswahili kusanidi na kutumia programu za Windows.
Mabeya anazidi kueleza kuwa, katika siku za hivi majuzi serikali barani Afrika Mashariki zimehimizwa kufadhili miradi ya kuweka programu huria za lugha zao kwenye majukwaa ya kidijitali. Licha ya hatua hizi katika lugha ya Kiswahili haja hii bado ipo.
Hivyo basi, utafiti kidijitali unahitajika kwa dharura ili kuwezesha uvumbuzi na matumizi ya programu imara za Teknolojia ya Lugha zinazoweza kutumika katika mchakato wa data za kiisimu.
Uchanganuzi wa Data Kubwa
Kwa upande wake mwanaisimu Hurskainen 2005, data itakuwa na uwezo wa kutumiwa vizuri zaidi katika utafiti iwapo itakuwa imechanganuliwa kijarabati, iweze kusomeka kikompyuta. Datakanzi hiyo pia iweze kuhifadhiwa katika kompyuta Data Kubwa (Big Data) ya aina hiyo ama ukipenda datakanzi ya maneno mengi yaliyokusanywa kwa pamoja jinsi yalivyotumika katika muktadha wa mawasiliano kilugha almaarufu kongoo au kopasi.
Kongoo huwa muhimu sana iwapo maneno yake yameainishwa kwa kutolewa ufafanuzi wa kimsingi. Hata hivyo, Sinclair (1976) ana mtazamo tofauti maadamu anahoji kuwa kongoo ya maneno ya lugha katika hali yake halisi ya kimatumizi bila kualamishwa au kuainishwa inamfaa mtafiti yeyote ili aitumie atakavyo, jinsi anavyohoji. Sewangi (2001) anaunga mkono mtazamo huu.
Mradi wa Swahili Project Manager (SALAMA)
Kwa mintarafu hiyo, ni bayana kwamba Teknolojia ya Lugha ni sharti itumie kongoo au kopasi kama malighafi yake na pia kama chombo cha kufanyia utafiti katika nyanja mbalimbali za lugha.
Kiswahili kwa mfano, kimeshughulikiwa kikamilifu kwa kutumia kongoo iliyojengwa katika mazingira ya kikompyuta ya mradi wa SALAMA (Swahili Language Manager) ulioasisiswa na Profesa Arvi Hurskainen katika Chuo Kikuu cha Helsinki, nchini Finland.
Kulingana na Hurskainen (1999), SALAMA ilianza kama programu ya kimsingi ya kuchanganua lugha kimofolojia na hakukuwa na mpango bainifu wa kuanzisha mradi huu. Hurskainen anasema kuwa mradi wa SALAMA umejengeka hatua kwa ya pili kulingana na mahitaji ya wakati huo.
Mradi wa SALAMA ulianzishwa mnamo mwaka wa 1985, na kufikia sasa umepiga hatua kubwa kama mradi unaoshirikisha maneno mengi zaidi ya Kiswahili kwa ukamilifu iwezekanavyo na kuhusisha nyanja kadha za lugha hiyo katika mfumo bainifu ya kuishughulikia lugha kikompyuta kwa mujibu wa Huskainen, 2004.
Ni dhahiri kuwa lugha yoyote hubainika zaidi kiisimu kupitia kwa maneno yake kimaandishi. Maneno haya iwapo yanaalamishwa au yanaainishwa kwa ufasaha na kuchanganuliwa kutumia programu mbalimbali za kikompyuta, hivyo basi ni mazingira mwafaka ya kujengea mfumo wa Teknolojia ya Lugha.
Datakanzi
Programu za SALAMA zinazohusika katika uchanganuzi wa datakanzi
SALAMA inashirikisha programu mbalimbali za kikompyuta zilizoundwa kwa ushirikiano na wataalamu wa kikompyuta na wanaisimu. Kulingana na Huskainen (2008) programu hizo ni kama vile SWATWOL- Swahili Two Level Morphology- Programu ya kuchanganua Lugha ya Kiswahili kimofolojia- kutumia mbinu za Mofolojia ya Tabaka Mbili na kanuni za kimuundo ukomo, SWACGP program ambayo ni akronimu ya Kiingereza cha Swahili Constraint Grammar Parser.
Hii ni Programu ya kompyuta inayotekeleza majukumu ya kutatua utata wa maneno ya Kiswahili na pia kuchambua Lugha kisintaksia.
SWASENT hii vilevile ni program ya SALAMA inayotumika kupanga sentensi katika mstari mmoja na kutekeleza majukumu ya uakifishaji. Pia kuna WLIST ambayo ni program ya SALAMA inayotumika kupanga matini za Kiswahili kwa mwegemeo wima ambapo kila neno hupangwa katika mstari wake. SALAMA inahusisha aina nyingi za program ambapo kila moja ni mahsusi kwa kila jukumu.
mwnyambura@ke,nationmedia.com