Lingüística computacional para la revitalización y el poliglotismo
Resumen
A pesar de las leyes existentes, en la práctica el Estado peruano ignora la multiculturalidad y se comporta como una entidad monolingüe y monocultural. Dado que este paradigma equivocado todavía vigente, el Estado no ha invertido lo suficiente para desarrollar las habilidades lingüísticas con el fin de servir a todos los ciudadanos por igual. Las consecuencias de ello son la falta de fomento, la discriminación y finalmente el aislamiento que lleva a la extinción de las lenguas autóctonas. Nuestra iniciativa es cambiar el paradigma equivocado, despertar el orgullo nacional por nuestras raíces nativas y hacerlo en tres frentes: demostrar que nuestras lenguas se pueden usar en el mundo tecnológico moderno al igual que las lenguas bien establecidas, demostrar que nuestras lenguas pueden portar cultura y entretenimiento bajo los cánones contemporáneos y demostrar que nuestras lenguas aportan valor económico a la nación, lo que justifica su preservación más allá del derecho. En este documento se describe una hoja de ruta para el desarrollo de la lingüística computacional de idiomas infrasoportados que todavía son hablados por millones de hablantes. Tal es el caso del quechua, aimara, guaraní, náhuatl, mixteco, otomí, quiché, maya o zapoteco. Debido a la masiva presencia de los hablantes de estas lenguas en el entorno urbano y a su uso habitual de Internet y telefonía móvil, se apuesta por la construcción de corpus de estas lenguas vía crowdsourcing online.Descargas
Métricas alternativas
Referencias bibliográficas
Adelaar, W. F. H. (2014). Endangered languages with millions of speakers: Focus on Quechua in Peru. JournaLIPP, 3, 1-12. https://lipp.ub.uni-muenchen.de/lipp/article/view/393
Barnard, E., Davel, M., Van Heerden, C. (Septiembre de 2009). ASR corpus design for resource-scarce languages. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Congreso llevado a cabo en Brighton, Reino Unido. http://doi.org/10.13140/RG.2.1.1824.2000.
Benjamin, M. (2016). Digital language diversity: Seeking the value proposition. En C. Soria et ál. (Eds.), CCURL 2016 Collaboration and Computing for Under-Resourced Languages: Towards an Alliance for Digital Language Diversity (pp. 52-58). Eslovenia: LREC. http://www.lrec-conf.org/proceedings/lrec2016/workshops/LREC2016Workshop- CCURL2016_Proceedings.pdf
Bird, S. (2018). Designing Mobile Applications for Endangered Languages. En K. L. Rehg y L. Campbell (Eds.), The Oxford Handbook of Endangered Languages. Oxford: Oxford University Press. https://doi.org/10.1093/ oxfordhb/9780190610029.013.40
Bird, S., Hanke, F. R., Adams, O. y Lee, H. (2014). Aikuma: A mobile app for collaborative language documentation. En Proceedings of the 2014 workshop on the use of computational methods in the study of endangered languages (pp. 1-5). Baltimore: Association for Computational Linguistics. https://doi.org/10.3115/v1/W14-2201
Blokland, R., Fedina, M., Gerstenberger, C., Partanen, N., Riebler, M. y Wilbur, J. (2015). Language documentation meets language technology. First International Workshop on Computational Linguistics for Uralic Languages. Septentrio conference series. https://doi. org/10.7557/5.3457
De Vries, N. J., Davel, M. H., Badenhorst, J., Basson, W. D., Barnard, E., De Waal, A. (2014). A smartphone-based asr data collection tool for under-resourced languages. Speech communication, 56, 119-131. https://doi. org/10.1016/j.specom.2013.07.001
Gelas, H., Abate, S. T., Besacier, L., Pellegrino, F. (2011). Quality Assessment of Crowdsourcing Transcriptions for African Languages. INTERSPEECH, 12th Annual Conference of the International Speech Communication Association. Florencia, 3065-3068. https://www. researchgate.net/publication/221478079_Quality_Assessment_of_ Crowdsourcing_Transcriptions_for_African_Languages
Ministerio de Cultura (2020). Base de Datos de Pueblos Indígenas u Originarios. https://bdpi.cultura.gob.pe/
Parent, G., Eskenazi, M. (2010). Toward better crowdsourced transcription: Transcription of a year of the let’s go bus information system data. 2010 IEEE Spoken Language Technology Workshop. Berkeley, 312- 317. https://doi.org/10.1109/SLT.2010.5700870
Rehm, G. (2018). The META-NET strategic research agenda for language technology in europe: An extended summary. En G. Rehm, F. Sasaki, D. Stein y A. Witt (Eds.), Language technologies for a multilingual Europe: TC3 III (pp. 19-41). Berlín: Language Science Press. http:// doi.org/10.5281/zenodo.1291926
Ríos, A. (2016). A basic language technology toolkit for quechua. Sociedad Española para el Procesamiento del Lenguaje Natural, 56, 91-94. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5291
Wang, D. y Zhang, X. (2015). Thchs-30: A free chinese speech corpus. arXiv preprintarXiv:1512.01882
Woodbury, A. C. (2014). Archives and audiences: Toward making endangered language documentations people can read, use, understand, and admire. Language documentation and description, 12, 19-36.
Zariquiey, R., Hammarström, H., Arakaki, M., Oncevay, A., Miller, J., García, A. y Ingunza, A. (2019). Obsolescencia lingüística, descripción gramatical y documentación de lenguas en el Perú: hacia un estado de la cuestión. Lexis, 43 (2), 271-337. https://doi.org/10.18800/lexis.201902.001
Derechos de autor 2020 Letras (Lima)
Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional