పరిశోధకులు పోర్చుగీస్లో “ఆలోచించే” ChatGPTని ప్రారంభించారు

జర్మనీలోని బాన్ విశ్వవిద్యాలయానికి చెందిన శాస్త్రవేత్తలు పోర్చుగీస్లో స్థానికంగా కారణమయ్యే టుకానో 2 మోడల్ను పరీక్షించారు. ఓపెన్ సోర్స్, ఈ సాధనం జర్మనీలోని బాన్ నగరంలోని యూనివర్శిటీ హాళ్లలో ఉత్పాదక AIలో అధిక సామర్థ్యాన్ని మరియు తగ్గిన అసమానతలను వాగ్దానం చేస్తుంది, దేశంలోని అత్యంత శక్తివంతమైన విశ్వవిద్యాలయ సూపర్ కంప్యూటర్లలో ఒకటి, డజన్ల కొద్దీ రాక్లు, వందలకొద్దీ సర్వర్లు మరియు వేల ప్రాసెసింగ్ యూనిట్లలో పంపిణీ చేయబడి, పోర్చుగీస్ భాషలో బిలియన్ల కొద్దీ టోకెన్లను అమలు చేయడానికి పని చేస్తుంది.
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) మోడల్లకు త్వరగా శిక్షణ ఇవ్వడానికి అనుకూలీకరించబడింది, అధిక-పనితీరు గల కంప్యూటింగ్ క్లస్టర్ Tucano 2కి నిలయంగా మారింది, ఇది “ఆలోచించే” “ChatGPT”, దాని మూలం నుండి, పోర్చుగీస్లో, ప్రపంచవ్యాప్తంగా 260 మిలియన్లకు పైగా ప్రజలు మాట్లాడే భాష.
ఈ నెల ప్రారంభంలో, బాన్ విశ్వవిద్యాలయానికి చెందిన పరిశోధకుల బృందం వారి మొదటి టుకానో 2 టెస్ట్బెడ్ను ప్రారంభించింది. AI కోసం అతిపెద్ద పోర్చుగీస్ భాషా డేటాబేస్, GigaVerboకి వ్యతిరేకంగా భాషా నమూనా శిక్షణ పొందింది, దీనిని 2024లో బృందం రూపొందించింది.
సహజ భాషా ప్రాసెసింగ్ (NLP) రంగంలో అసమానతలను తగ్గించడానికి ప్రయత్నిస్తున్న జర్మన్ ప్రభుత్వంచే నిధులు సమకూర్చబడిన పాలీగ్లాట్ చొరవలో ఈ ప్రాజెక్ట్ భాగం. ఉత్పాదక AIలో ఇటీవలి పురోగతులు ప్రధానంగా వనరుల-ఇంటెన్సివ్ భాషలకు ప్రయోజనం చేకూర్చాయి, ఇది దాని వెబ్సైట్లో ఎత్తి చూపింది, అయితే తక్కువ ప్రాతినిధ్యం లేని భాషలు పెద్ద సంస్థలచే ఉత్పత్తి చేయబడిన “వెయిటింగ్ మరియు రీసైక్లింగ్” మోడల్లపై ఆధారపడి ఉంటాయి, తరచుగా పారదర్శకత లేకుండా అభివృద్ధి చేయబడ్డాయి.
“ప్రస్తుత లోతైన అభ్యాస నమూనా – భారీ డేటా సెట్లు మరియు కంప్యూటింగ్ పవర్పై ఎక్కువగా ఆధారపడటం – ఈ అంతరాన్ని అనుకోకుండా పెంచింది, వనరులు లేని భాష మాట్లాడేవారికి వారి భాషా మరియు సాంస్కృతిక గుర్తింపులను ప్రతిబింబించే AI సాంకేతికతలను యాక్సెస్ చేయడం మరియు ఆకృతి చేయడం మరింత కష్టతరం చేస్తుంది” అని పాలీగ్లాట్ పేర్కొంది.
పోర్చుగీస్లో ఆలోచనలో తేడా
“20వ మరియు 21వ శతాబ్దాల నుండి బ్రెజిలియన్ సాహిత్యం యొక్క రచయితల జాబితాను తయారు చేయమని వినియోగదారు నన్ను అడుగుతున్నారు. […] నేను ఆ కాలంలోని ముఖ్యమైన పేర్లను జాబితా చేశానని నిర్ధారించుకోవాలి. […] నా సమాధానానికి వైవిధ్యాన్ని జోడించడానికి విభిన్న శైలులు మరియు భౌగోళిక ప్రాంతాలను చేర్చాలని నేను గుర్తుంచుకోవాలి. […] సమకాలీన స్త్రీ స్వరాలను చేర్చడం చాలా ముఖ్యం”, నివేదిక లేవనెత్తిన ప్రశ్నకు టుకానో 2 కారణాలు.
“ఈ అంశాలన్నింటినీ సేకరించి, నేను ఇప్పుడు పూర్తి మరియు వ్యవస్థీకృత జాబితాను రూపొందిస్తాను, అందించిన సమాచారాన్ని సుసంపన్నం చేయడానికి సంక్షిప్త సందర్భోచిత వివరణలతో పాటు ప్రతి పేరును అందజేస్తాను”, కార్లోస్ డ్రమ్మండ్ డి ఆండ్రేడ్, క్లారిస్ లిస్పెక్టర్, లిజియా ఫాగుండెస్ టెల్లెస్ మరియు కాన్సెయో ఎవారిస్టో వంటి పేర్లను తిరిగి ఇచ్చే ముందు అతను కొనసాగిస్తున్నాడు.
వినియోగదారు అనుసరించడానికి స్క్రీన్పై అందుబాటులో ఉన్న Tucano 2 ద్వారా సృష్టించబడిన ఆలోచనా శ్రేణి, OpenAI యొక్క ChatGPT లేదా చైనీస్ డీప్సీక్ వంటి ప్రసిద్ధ వాణిజ్య ప్లాట్ఫారమ్లను తేలుతూనే ఉంటుంది.
ప్రశ్నకు సమాధానమివ్వడానికి ముందు, సాధనాలు అనేక దశలను కలిగి ఉన్న అంతర్గత మోనోలాగ్ను నిర్వహిస్తాయి. వ్యత్యాసం ఏమిటంటే, ఆంగ్లం లేదా చైనీస్లో అభివృద్ధి చేయబడిన ఉత్పత్తులు, ఉదాహరణకు, టోకెన్లను (“పదాల ముక్కలు”గా పనిచేస్తాయి) వారి స్థానిక భాషలలో అనువదించడానికి మరియు వినియోగదారుకు తిరిగి రావడానికి ముందు సంక్లిష్టమైన పనులను వాదించడానికి మరియు పరిష్కరించడానికి ఉపయోగిస్తారు. మరోవైపు, పోర్చుగీస్లోని మోడల్కు పరిష్కారాన్ని రూపొందించడానికి తక్కువ టోకెన్లు అవసరం, ఎందుకంటే తార్కికం ఇప్పటికే వినియోగదారు భాషలో జరుగుతుంది.
“మీరు చాట్జిపిటితో మాట్లాడినప్పుడు, మీరు స్క్రీన్పై పదం పదం కనిపించడం చూస్తారు. ఆ చిన్న పదాలలో ప్రతి ఒక్కటి గణన ధరను కలిగి ఉంటుంది. మీరు పోర్చుగీస్ భాష కోసం ప్రత్యేకంగా శిక్షణ పొందిన మోడల్ను కలిగి ఉంటే, అది పోర్చుగీస్ భాషలోని చిన్న ముక్కలను మరింత సమర్థవంతంగా విభజించి ఉత్పత్తి చేస్తుంది” అని అధ్యయన రచయితలలో ఒకరైన నికోలస్ క్లూగే వివరించారు.
“ఓనోమాటోపియా” అనే పదానికి 50 పదాలను రూపొందించడానికి బదులుగా, దీనికి రెండు మాత్రమే అవసరం” అని ఆయన చెప్పారు.
పరిశోధనతో పోలిస్తే కొన్ని సందర్భాల్లో, పోర్చుగీస్-మాట్లాడే సాధనం ఇతర భాషా నమూనాల కంటే 30% తక్కువ టోకెన్లు అవసరం. ఎందుకంటే ఎక్కువ టోకెన్లు అంటే మరింత గణన, నెమ్మదిగా అనుమితి శిక్షణ. భాషాపరమైన “షార్ట్కట్”, పెద్ద ఎత్తున వర్తింపజేస్తే, పరిశ్రమలో దాని శక్తి డిమాండ్ మరియు అధిక CO2 ఉద్గారాల ఒత్తిడికి లోనయ్యే సామర్థ్యంలో లాభం కూడా దారితీస్తుందని పరిశోధన పేర్కొంది.
క్లూగే కోసం, స్థానిక పోర్చుగీస్ కూడా వాడుకరి కోసం మరింత సముచితమైన ప్రతిస్పందనలకు దారి తీస్తుంది, ఇందులో ఇడియోమాటిక్ ఎక్స్ప్రెషన్ల అవగాహన కూడా ఉంటుంది. “పోర్చుగీస్ చాలా గొప్ప, వైవిధ్యమైన భాష, మరియు ప్రధానంగా ఆంగ్లంలో శిక్షణ పొందిన మోడల్ పోర్చుగీస్ భాషలోని అన్ని సూక్ష్మ నైపుణ్యాలను అందుకోగలదనే ఆలోచన ఒక భ్రమ. భాషా నమూనాలను మన భాషకు మరింత నిర్దిష్టంగా చేసినప్పుడు వాటిలో చాలా మెరుగుదలలు ఉన్నాయి” అని ఆయన చెప్పారు.
ఓపెన్ సోర్స్ మరియు పబ్లిక్ యాక్సెస్
దీన్ని సాధ్యం చేయడానికి, AI ద్వారా ఉత్పత్తి చేయబడిన సింథటిక్ మెటీరియల్తో మానవులు ఉత్పత్తి చేసిన కంటెంట్ని చదవడాన్ని మిళితం చేసే డేటాసెట్ ఆధారంగా Tucano శిక్షణ పొందింది. ఉపయోగించిన ప్రతి పత్రం యొక్క విద్యా విలువ మరియు విషపూరిత స్థాయిని గుర్తించడానికి డేటాబేస్ క్యూరేట్ చేయబడింది.
నేడు, Tucano 2 ఒక వాణిజ్య ఉత్పత్తి వలె కాకుండా విద్యా పరిశోధన నుండి రూపొందించబడిన మాన్యువల్గా ఉంది. దీని అర్థం బాన్ విశ్వవిద్యాలయంలో “మార్విన్” సూపర్ కంప్యూటర్ ఆధారంగా దాని ఇంటర్ఫేస్, పరిశ్రమ సాధనాలతో పోలిస్తే కొన్ని పరిమితులను కలిగి ఉంది. ఉదాహరణకు, ఆటోమేటిక్ ఇంటర్నెట్ కనెక్షన్ లేదు మరియు వినియోగ పరిమితి ఉంది.
ఏదేమైనప్పటికీ, పోర్చుగీస్ మాట్లాడే కంపెనీలు మరియు పెద్ద మౌలిక సదుపాయాలపై తమ స్వంత సాధనాలను అభివృద్ధి చేయడానికి ఆసక్తి ఉన్న సంస్థలు ఈ మోడల్ను పునరావృతం చేయవచ్చు. అన్ని పరిశోధన, మోడల్, డేటా ప్యాకేజీ, సాధనాలు మరియు సెట్టింగ్లు ఓపెన్ సోర్స్లో ప్రచురించబడ్డాయి. యాక్సెస్ను ప్రజాస్వామ్యం చేయడమే లక్ష్యం.
“ఎవరైనా దీన్ని పునరుత్పత్తి చేయవచ్చు. ఇది విద్యాసంస్థ మరియు పరిశ్రమ రెండింటికీ చాలా ఉపయోగకరమైన విషయం. మేము ఈ నమూనాలను సంక్షిప్తంగా, పోర్చుగీస్ భాష యొక్క మొత్తం సంస్కృతి కోసం సృష్టించాము, ఇది సార్వభౌమ బ్రెజిలియన్ మోడల్ కాదు”, క్లూగే ముగించారు.
అందువల్ల, పోర్చుగీస్తో పాటు, అనికేత్ సేన్, షిజా ఫాతిమా, సోఫియా ఫాల్క్ మరియు లూసీ ఫ్లెక్లతో కూడిన బృందం ఇప్పుడు బెంగాలీ మరియు హిందీ వంటి ఇతర భాషలలో డేటాబేస్లను రూపొందించడానికి ప్రాజెక్ట్ను ముందుకు తీసుకువెళుతోంది.


