Lingüística computacional para la revitalización y el poliglotismo

Luis Camacho Caballero; Rodolfo Zevallos Salazar

doi:10.30920/letras.91.134.9

Luis Camacho Caballero Pontificia Universidad Católica del Perú, Lima, Perú https://orcid.org/0000-0001-6569-550X
Rodolfo Zevallos Salazar Pontificia Universidad Católica del Perú, Lima, Perú https://orcid.org/0000-0003-0192-7740

DOI: https://doi.org/10.30920/letras.91.134.9

Palabras clave: Planificación lingüística, Tecnología del lenguaje, Lenguas en peligro de extinción, Lenguas como recurso

Resumen

A pesar de las leyes existentes, en la práctica el Estado peruano ignora la multiculturalidad y se comporta como una entidad monolingüe y monocultural. Dado que este paradigma equivocado todavía vigente, el Estado no ha invertido lo suficiente para desarrollar las habilidades lingüísticas con el fin de servir a todos los ciudadanos por igual. Las consecuencias de ello son la falta de fomento, la discriminación y finalmente el aislamiento que lleva a la extinción de las lenguas autóctonas. Nuestra iniciativa es cambiar el paradigma equivocado, despertar el orgullo nacional por nuestras raíces nativas y hacerlo en tres frentes: demostrar que nuestras lenguas se pueden usar en el mundo tecnológico moderno al igual que las lenguas bien establecidas, demostrar que nuestras lenguas pueden portar cultura y entretenimiento bajo los cánones contemporáneos y demostrar que nuestras lenguas aportan valor económico a la nación, lo que justifica su preservación más allá del derecho. En este documento se describe una hoja de ruta para el desarrollo de la lingüística computacional de idiomas infrasoportados que todavía son hablados por millones de hablantes. Tal es el caso del quechua, aimara, guaraní, náhuatl, mixteco, otomí, quiché, maya o zapoteco. Debido a la masiva presencia de los hablantes de estas lenguas en el entorno urbano y a su uso habitual de Internet y telefonía móvil, se apuesta por la construcción de corpus de estas lenguas vía crowdsourcing online.

Descargas

La descarga de datos todavía no está disponible.

Métricas alternativas

Referencias bibliográficas

Adelaar, W. F. H. (2014). Endangered languages with millions of speakers: Focus on Quechua in Peru. JournaLIPP, 3, 1-12. https://lipp.ub.uni-muenchen.de/lipp/article/view/393

Barnard, E., Davel, M., Van Heerden, C. (Septiembre de 2009). ASR corpus design for resource-scarce languages. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Congreso llevado a cabo en Brighton, Reino Unido. http://doi.org/10.13140/RG.2.1.1824.2000.

Benjamin, M. (2016). Digital language diversity: Seeking the value proposition. En C. Soria et ál. (Eds.), CCURL 2016 Collaboration and Computing for Under-Resourced Languages: Towards an Alliance for Digital Language Diversity (pp. 52-58). Eslovenia: LREC. http://www.lrec-conf.org/proceedings/lrec2016/workshops/LREC2016Workshop- CCURL2016_Proceedings.pdf

Bird, S. (2018). Designing Mobile Applications for Endangered Languages. En K. L. Rehg y L. Campbell (Eds.), The Oxford Handbook of Endangered Languages. Oxford: Oxford University Press. https://doi.org/10.1093/ oxfordhb/9780190610029.013.40

Bird, S., Hanke, F. R., Adams, O. y Lee, H. (2014). Aikuma: A mobile app for collaborative language documentation. En Proceedings of the 2014 workshop on the use of computational methods in the study of endangered languages (pp. 1-5). Baltimore: Association for Computational Linguistics. https://doi.org/10.3115/v1/W14-2201

Blokland, R., Fedina, M., Gerstenberger, C., Partanen, N., Riebler, M. y Wilbur, J. (2015). Language documentation meets language technology. First International Workshop on Computational Linguistics for Uralic Languages. Septentrio conference series. https://doi. org/10.7557/5.3457

De Vries, N. J., Davel, M. H., Badenhorst, J., Basson, W. D., Barnard, E., De Waal, A. (2014). A smartphone-based asr data collection tool for under-resourced languages. Speech communication, 56, 119-131. https://doi. org/10.1016/j.specom.2013.07.001

Gelas, H., Abate, S. T., Besacier, L., Pellegrino, F. (2011). Quality Assessment of Crowdsourcing Transcriptions for African Languages. INTERSPEECH, 12th Annual Conference of the International Speech Communication Association. Florencia, 3065-3068. https://www. researchgate.net/publication/221478079_Quality_Assessment_of_ Crowdsourcing_Transcriptions_for_African_Languages

Ministerio de Cultura (2020). Base de Datos de Pueblos Indígenas u Originarios. https://bdpi.cultura.gob.pe/

Parent, G., Eskenazi, M. (2010). Toward better crowdsourced transcription: Transcription of a year of the let’s go bus information system data. 2010 IEEE Spoken Language Technology Workshop. Berkeley, 312- 317. https://doi.org/10.1109/SLT.2010.5700870

Rehm, G. (2018). The META-NET strategic research agenda for language technology in europe: An extended summary. En G. Rehm, F. Sasaki, D. Stein y A. Witt (Eds.), Language technologies for a multilingual Europe: TC3 III (pp. 19-41). Berlín: Language Science Press. http:// doi.org/10.5281/zenodo.1291926

Ríos, A. (2016). A basic language technology toolkit for quechua. Sociedad Española para el Procesamiento del Lenguaje Natural, 56, 91-94. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5291

Wang, D. y Zhang, X. (2015). Thchs-30: A free chinese speech corpus. arXiv preprintarXiv:1512.01882

Woodbury, A. C. (2014). Archives and audiences: Toward making endangered language documentations people can read, use, understand, and admire. Language documentation and description, 12, 19-36.

Zariquiey, R., Hammarström, H., Arakaki, M., Oncevay, A., Miller, J., García, A. y Ingunza, A. (2019). Obsolescencia lingüística, descripción gramatical y documentación de lenguas en el Perú: hacia un estado de la cuestión. Lexis, 43 (2), 271-337. https://doi.org/10.18800/lexis.201902.001