పరిశోధకులు పోర్చుగీస్‌లో “ఆలోచించే” ChatGPTని ప్రారంభించారు

0 0 3 minutes read

పరిశోధకులు పోర్చుగీస్‌లో “ఆలోచించే” ChatGPTని ప్రారంభించారు

జర్మనీలోని బాన్ విశ్వవిద్యాలయానికి చెందిన శాస్త్రవేత్తలు పోర్చుగీస్‌లో స్థానికంగా కారణమయ్యే టుకానో 2 మోడల్‌ను పరీక్షించారు. ఓపెన్ సోర్స్, ఈ సాధనం జర్మనీలోని బాన్ నగరంలోని యూనివర్శిటీ హాళ్లలో ఉత్పాదక AIలో అధిక సామర్థ్యాన్ని మరియు తగ్గిన అసమానతలను వాగ్దానం చేస్తుంది, దేశంలోని అత్యంత శక్తివంతమైన విశ్వవిద్యాలయ సూపర్ కంప్యూటర్‌లలో ఒకటి, డజన్ల కొద్దీ రాక్‌లు, వందలకొద్దీ సర్వర్లు మరియు వేల ప్రాసెసింగ్ యూనిట్లలో పంపిణీ చేయబడి, పోర్చుగీస్ భాషలో బిలియన్ల కొద్దీ టోకెన్‌లను అమలు చేయడానికి పని చేస్తుంది.

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) మోడల్‌లకు త్వరగా శిక్షణ ఇవ్వడానికి అనుకూలీకరించబడింది, అధిక-పనితీరు గల కంప్యూటింగ్ క్లస్టర్ Tucano 2కి నిలయంగా మారింది, ఇది “ఆలోచించే” “ChatGPT”, దాని మూలం నుండి, పోర్చుగీస్‌లో, ప్రపంచవ్యాప్తంగా 260 మిలియన్లకు పైగా ప్రజలు మాట్లాడే భాష.

ఈ నెల ప్రారంభంలో, బాన్ విశ్వవిద్యాలయానికి చెందిన పరిశోధకుల బృందం వారి మొదటి టుకానో 2 టెస్ట్‌బెడ్‌ను ప్రారంభించింది. AI కోసం అతిపెద్ద పోర్చుగీస్ భాషా డేటాబేస్, GigaVerboకి వ్యతిరేకంగా భాషా నమూనా శిక్షణ పొందింది, దీనిని 2024లో బృందం రూపొందించింది.

సహజ భాషా ప్రాసెసింగ్ (NLP) రంగంలో అసమానతలను తగ్గించడానికి ప్రయత్నిస్తున్న జర్మన్ ప్రభుత్వంచే నిధులు సమకూర్చబడిన పాలీగ్లాట్ చొరవలో ఈ ప్రాజెక్ట్ భాగం. ఉత్పాదక AIలో ఇటీవలి పురోగతులు ప్రధానంగా వనరుల-ఇంటెన్సివ్ భాషలకు ప్రయోజనం చేకూర్చాయి, ఇది దాని వెబ్‌సైట్‌లో ఎత్తి చూపింది, అయితే తక్కువ ప్రాతినిధ్యం లేని భాషలు పెద్ద సంస్థలచే ఉత్పత్తి చేయబడిన “వెయిటింగ్ మరియు రీసైక్లింగ్” మోడల్‌లపై ఆధారపడి ఉంటాయి, తరచుగా పారదర్శకత లేకుండా అభివృద్ధి చేయబడ్డాయి.

“ప్రస్తుత లోతైన అభ్యాస నమూనా – భారీ డేటా సెట్‌లు మరియు కంప్యూటింగ్ పవర్‌పై ఎక్కువగా ఆధారపడటం – ఈ అంతరాన్ని అనుకోకుండా పెంచింది, వనరులు లేని భాష మాట్లాడేవారికి వారి భాషా మరియు సాంస్కృతిక గుర్తింపులను ప్రతిబింబించే AI సాంకేతికతలను యాక్సెస్ చేయడం మరియు ఆకృతి చేయడం మరింత కష్టతరం చేస్తుంది” అని పాలీగ్లాట్ పేర్కొంది.

పోర్చుగీస్‌లో ఆలోచనలో తేడా

“20వ మరియు 21వ శతాబ్దాల నుండి బ్రెజిలియన్ సాహిత్యం యొక్క రచయితల జాబితాను తయారు చేయమని వినియోగదారు నన్ను అడుగుతున్నారు. […] నేను ఆ కాలంలోని ముఖ్యమైన పేర్లను జాబితా చేశానని నిర్ధారించుకోవాలి. […] నా సమాధానానికి వైవిధ్యాన్ని జోడించడానికి విభిన్న శైలులు మరియు భౌగోళిక ప్రాంతాలను చేర్చాలని నేను గుర్తుంచుకోవాలి. […] సమకాలీన స్త్రీ స్వరాలను చేర్చడం చాలా ముఖ్యం”, నివేదిక లేవనెత్తిన ప్రశ్నకు టుకానో 2 కారణాలు.

“ఈ అంశాలన్నింటినీ సేకరించి, నేను ఇప్పుడు పూర్తి మరియు వ్యవస్థీకృత జాబితాను రూపొందిస్తాను, అందించిన సమాచారాన్ని సుసంపన్నం చేయడానికి సంక్షిప్త సందర్భోచిత వివరణలతో పాటు ప్రతి పేరును అందజేస్తాను”, కార్లోస్ డ్రమ్మండ్ డి ఆండ్రేడ్, క్లారిస్ లిస్పెక్టర్, లిజియా ఫాగుండెస్ టెల్లెస్ మరియు కాన్సెయో ఎవారిస్టో వంటి పేర్లను తిరిగి ఇచ్చే ముందు అతను కొనసాగిస్తున్నాడు.

వినియోగదారు అనుసరించడానికి స్క్రీన్‌పై అందుబాటులో ఉన్న Tucano 2 ద్వారా సృష్టించబడిన ఆలోచనా శ్రేణి, OpenAI యొక్క ChatGPT లేదా చైనీస్ డీప్‌సీక్ వంటి ప్రసిద్ధ వాణిజ్య ప్లాట్‌ఫారమ్‌లను తేలుతూనే ఉంటుంది.

ప్రశ్నకు సమాధానమివ్వడానికి ముందు, సాధనాలు అనేక దశలను కలిగి ఉన్న అంతర్గత మోనోలాగ్‌ను నిర్వహిస్తాయి. వ్యత్యాసం ఏమిటంటే, ఆంగ్లం లేదా చైనీస్‌లో అభివృద్ధి చేయబడిన ఉత్పత్తులు, ఉదాహరణకు, టోకెన్‌లను (“పదాల ముక్కలు”గా పనిచేస్తాయి) వారి స్థానిక భాషలలో అనువదించడానికి మరియు వినియోగదారుకు తిరిగి రావడానికి ముందు సంక్లిష్టమైన పనులను వాదించడానికి మరియు పరిష్కరించడానికి ఉపయోగిస్తారు. మరోవైపు, పోర్చుగీస్‌లోని మోడల్‌కు పరిష్కారాన్ని రూపొందించడానికి తక్కువ టోకెన్‌లు అవసరం, ఎందుకంటే తార్కికం ఇప్పటికే వినియోగదారు భాషలో జరుగుతుంది.

“మీరు చాట్‌జిపిటితో మాట్లాడినప్పుడు, మీరు స్క్రీన్‌పై పదం పదం కనిపించడం చూస్తారు. ఆ చిన్న పదాలలో ప్రతి ఒక్కటి గణన ధరను కలిగి ఉంటుంది. మీరు పోర్చుగీస్ భాష కోసం ప్రత్యేకంగా శిక్షణ పొందిన మోడల్‌ను కలిగి ఉంటే, అది పోర్చుగీస్ భాషలోని చిన్న ముక్కలను మరింత సమర్థవంతంగా విభజించి ఉత్పత్తి చేస్తుంది” అని అధ్యయన రచయితలలో ఒకరైన నికోలస్ క్లూగే వివరించారు.

“ఓనోమాటోపియా” అనే పదానికి 50 పదాలను రూపొందించడానికి బదులుగా, దీనికి రెండు మాత్రమే అవసరం” అని ఆయన చెప్పారు.

పరిశోధనతో పోలిస్తే కొన్ని సందర్భాల్లో, పోర్చుగీస్-మాట్లాడే సాధనం ఇతర భాషా నమూనాల కంటే 30% తక్కువ టోకెన్‌లు అవసరం. ఎందుకంటే ఎక్కువ టోకెన్లు అంటే మరింత గణన, నెమ్మదిగా అనుమితి శిక్షణ. భాషాపరమైన “షార్ట్‌కట్”, పెద్ద ఎత్తున వర్తింపజేస్తే, పరిశ్రమలో దాని శక్తి డిమాండ్ మరియు అధిక CO2 ఉద్గారాల ఒత్తిడికి లోనయ్యే సామర్థ్యంలో లాభం కూడా దారితీస్తుందని పరిశోధన పేర్కొంది.

క్లూగే కోసం, స్థానిక పోర్చుగీస్ కూడా వాడుకరి కోసం మరింత సముచితమైన ప్రతిస్పందనలకు దారి తీస్తుంది, ఇందులో ఇడియోమాటిక్ ఎక్స్‌ప్రెషన్‌ల అవగాహన కూడా ఉంటుంది. “పోర్చుగీస్ చాలా గొప్ప, వైవిధ్యమైన భాష, మరియు ప్రధానంగా ఆంగ్లంలో శిక్షణ పొందిన మోడల్ పోర్చుగీస్ భాషలోని అన్ని సూక్ష్మ నైపుణ్యాలను అందుకోగలదనే ఆలోచన ఒక భ్రమ. భాషా నమూనాలను మన భాషకు మరింత నిర్దిష్టంగా చేసినప్పుడు వాటిలో చాలా మెరుగుదలలు ఉన్నాయి” అని ఆయన చెప్పారు.

ఓపెన్ సోర్స్ మరియు పబ్లిక్ యాక్సెస్

దీన్ని సాధ్యం చేయడానికి, AI ద్వారా ఉత్పత్తి చేయబడిన సింథటిక్ మెటీరియల్‌తో మానవులు ఉత్పత్తి చేసిన కంటెంట్‌ని చదవడాన్ని మిళితం చేసే డేటాసెట్ ఆధారంగా Tucano శిక్షణ పొందింది. ఉపయోగించిన ప్రతి పత్రం యొక్క విద్యా విలువ మరియు విషపూరిత స్థాయిని గుర్తించడానికి డేటాబేస్ క్యూరేట్ చేయబడింది.

నేడు, Tucano 2 ఒక వాణిజ్య ఉత్పత్తి వలె కాకుండా విద్యా పరిశోధన నుండి రూపొందించబడిన మాన్యువల్‌గా ఉంది. దీని అర్థం బాన్ విశ్వవిద్యాలయంలో “మార్విన్” సూపర్ కంప్యూటర్ ఆధారంగా దాని ఇంటర్‌ఫేస్, పరిశ్రమ సాధనాలతో పోలిస్తే కొన్ని పరిమితులను కలిగి ఉంది. ఉదాహరణకు, ఆటోమేటిక్ ఇంటర్నెట్ కనెక్షన్ లేదు మరియు వినియోగ పరిమితి ఉంది.

ఏదేమైనప్పటికీ, పోర్చుగీస్ మాట్లాడే కంపెనీలు మరియు పెద్ద మౌలిక సదుపాయాలపై తమ స్వంత సాధనాలను అభివృద్ధి చేయడానికి ఆసక్తి ఉన్న సంస్థలు ఈ మోడల్‌ను పునరావృతం చేయవచ్చు. అన్ని పరిశోధన, మోడల్, డేటా ప్యాకేజీ, సాధనాలు మరియు సెట్టింగ్‌లు ఓపెన్ సోర్స్‌లో ప్రచురించబడ్డాయి. యాక్సెస్‌ను ప్రజాస్వామ్యం చేయడమే లక్ష్యం.

“ఎవరైనా దీన్ని పునరుత్పత్తి చేయవచ్చు. ఇది విద్యాసంస్థ మరియు పరిశ్రమ రెండింటికీ చాలా ఉపయోగకరమైన విషయం. మేము ఈ నమూనాలను సంక్షిప్తంగా, పోర్చుగీస్ భాష యొక్క మొత్తం సంస్కృతి కోసం సృష్టించాము, ఇది సార్వభౌమ బ్రెజిలియన్ మోడల్ కాదు”, క్లూగే ముగించారు.

అందువల్ల, పోర్చుగీస్‌తో పాటు, అనికేత్ సేన్, షిజా ఫాతిమా, సోఫియా ఫాల్క్ మరియు లూసీ ఫ్లెక్‌లతో కూడిన బృందం ఇప్పుడు బెంగాలీ మరియు హిందీ వంటి ఇతర భాషలలో డేటాబేస్‌లను రూపొందించడానికి ప్రాజెక్ట్‌ను ముందుకు తీసుకువెళుతోంది.

Source link