Google vient d’annoncer « la plus grande expansion jamais réalisée » de son service Translate avec 110 nouvelles langues. Le bond a pu être réalisé grâce à son modèle linguistique PaLM 2.
Selon l’entreprise, ces langues, prises dans leur ensemble, sont parlées par 614 millions de personnes. Certaines sont parlées par plus de 100 millions de personnes. D’autres par « de petites communautés autochtones », et d’autres encore ne sont pratiquement plus parlées, mais font l’objet « d’efforts de revitalisation ».
Parmi les langues ajoutées, le cantonais figure en bonne place. Il s’agit, selon Google, de l’une des langues les plus demandées. Mais elle « se confond souvent avec le mandarin à l’écrit », ce qui aurait rendu complexe l’obtention de données et l’entrainement des modèles.
On trouve également l’afar, parlé notamment à Djibouti et en Éthiopie, et qui aurait bénéficié « du plus grand nombre de contributions volontaires » dans le nouveau lot. Citons aussi le pendjabi, langue la plus parlée au Pakistan, ou encore le tok pisin (ou néo-mélanésien), un créole fondé sur l’anglais et la lingua franca de Papouasie-Nouvelle-Guinée.
Commentaires (18)
#1
Ce n'est pas sale.
#2
#2.1
#2.2
Gouzout a ran komz brezhoneg bremañ !
#2.3
Sinon pour le breton c'est nouveau du coup.
#2.4
#3
C'est donc là que la traduction par Google de textes écrit uniquement me gène car la plus grande richesse est dans les langues parlées dont pas mal ne s’écrivaient pas à l'origine, conduisant à des contorsions, comme cela a été le cas avec le Breton. On le voit bien avec les prénoms et noms dont l'orthographe varie selon le fonctionnaire chargé de coucher ces noms sur le papier.
Dur dur de préserver les langues car il faut faire des choix: les variations sont-elles le fait de modes locales de locuteurs à la manière des mille et une variations locales que l'on trouvait autrefois dans les campagnes avec des variations dans chaque village ou apportent-elles une richesse ou une histoire qui en font un patrimoine à conserver ?
Si chaque langue peut être vue comme une boîte de lego, je trouve que les langues les plus intéressantes sont celles qui apportent des briques que les autres n'ont pas ou rarement. Des briques sémantiques et, pour les langues parées, les phonèmes.
Historique des modifications :
Posté le 28/06/2024 à 08h38
Pour les langues parlées en Chine, vu que l'unification s'est faite par l'écriture, il n'y a légalement aucune différence de symboles. Par contre, à l'oral, c'est le festival.
C'est donc là que cela me gène car la plus grande richesse est dans les langues parlées dont pas mal ne s’écrivaient pas à l'origine, conduisant à des contorsions, comme cela a été le cas avec le Breton. On le voit bien avec les prénoms et noms dont l'orthographe varie selon le fonctionnaire chargé de coucher ces noms sur le papier.
Dur dur de préserver les langues car il faut faire des choix: les variations sont-elles le fait de modes locales de locuteurs à la manière des mille et une variations locales que l'on trouvait autrefois dans les campagnes avec des variations dans chaque village ou apportent-elles une richesse ou une histoire qui en font un patrimoine à conserver ?
Si chaque langue peut être vue comme une boîte de lego, je trouve que les langues les plus intéressantes sont celles qui apportent des briques que les autres n'ont pas ou rarement. Des briques sémantiques et, pour les langues parées, les phonèmes.
Posté le 28/06/2024 à 08h39
Pour les langues parlées en Chine, vu que l'unification s'est faite par l'écriture, il n'y a légalement aucune différence de symboles. Par contre, à l'oral, c'est le festival.
C'est donc là que la traduction par Google de textes écrit uniquement me gène car la plus grande richesse est dans les langues parlées dont pas mal ne s’écrivaient pas à l'origine, conduisant à des contorsions, comme cela a été le cas avec le Breton. On le voit bien avec les prénoms et noms dont l'orthographe varie selon le fonctionnaire chargé de coucher ces noms sur le papier.
Dur dur de préserver les langues car il faut faire des choix: les variations sont-elles le fait de modes locales de locuteurs à la manière des mille et une variations locales que l'on trouvait autrefois dans les campagnes avec des variations dans chaque village ou apportent-elles une richesse ou une histoire qui en font un patrimoine à conserver ?
Si chaque langue peut être vue comme une boîte de lego, je trouve que les langues les plus intéressantes sont celles qui apportent des briques que les autres n'ont pas ou rarement. Des briques sémantiques et, pour les langues parées, les phonèmes.
#3.1
Donc c'est très bien que le breton soit enseigné "en masse", mais j'ai hâte que ses locuteurs s'en emparent et jouent avec son vocabulaire et ses sonorités (ça doit déjà être le cas !)
Historique des modifications :
Posté le 28/06/2024 à 09h43
Je trouve le nouveau breton enseigné actuellement bien moins intéressant dans ses sonorités que celui parlé par celleux qui l'ont appris à l'oral, jusqu'au milieu du siècle dernier. Mon grand-père et mon arrière-grand-mère parlait le trégorois (Finistère nord / Côtes d'Armor ouest), c'était très particulier ! (à 1m40, merci l'INA)
Donc c'est très bien que le breton soit enseigné "en masse", mais j'ai hâte que ses locuteurs s'en emparent et jouent avec son vocabulaire et ses sonorités (ça doit déjà être le cas !)
#3.2
L'orthographe est la même (ce qui est le résultat attendu, donc rien à dire).
Par contre, quand on demande la prononciation de la phrase, c'est différent. Là encore, c'est le résultat attendu.
Mon seul souci : comme je ne connais pas le cantonais, je ne peux pas juger de la qualité de la transcription phonétique, je suis obligé de faire confiance
#3.3
Par contre, Taiwan parle mandarin, Hong Kong et Macau parlent cantonais.
#4
#4.1
Historique des modifications :
Posté le 28/06/2024 à 10h23
https://support.google.com/translate/answer/15139004
#4.2
#5
#5.1
#5.2
#6
#6.1