Ethical and legal aspects in the construction of an oral corpus of conflictual conversation
Main Article Content
Abstract
The creation of an oral corpus, defined as a collection of natural speech recordings arranged for computational processing, presents several challenges that must be carefully considered to ensure its quality and usefulness. In a corpus of the characteristics of the one presented below, the ESPRINT corpus of conflicting conversation between people with an intimate relationship, the main challenge has to do with attending to the ethical and legal principles involved in both its collection and its subsequent processing for linguistic analysis. In any case, the participants's right to privacy and anonymity must be guaranteed. The ESPRINT corpus has a dual nature, on the one hand conversational (ESPRINT-Conversation), on the other hand therapeutic (ESPRINT-Therapies), which implies two modes of collection, as well as data processing, privacy management, storage and analysis, since therapies are recorded in a socio-health context with specificities in terms of data access, which requires a strict storage protocol and a clear policy on who can access the corpus, for what purposes and under what conditions, respecting privacy rights and consent agreements. Furthermore, in both cases, extreme precautions must be taken given the sensitive content of the recordings. The actions carried out by the corpus management in the area of data protection guarantee compliance with the legal precepts in this regard, as well as the safeguarding of the right to privacy.
Downloads
Article Details

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
An open-access CREATIVE COMMONS copyright license is used. Those authors whose works are published by this journal, accept the following terms:
- Authors will retain their copyright and guarantee the Journal the right to first publish their work, which will simultaneously be subject to the Creative Commons Recognition License CC BY SA that allows third parties to share the work, provided that its author and first publication is indicated.
- Authors may adopt other non-exclusive license agreements for the distribution of the published version of the work (e.g., deposit it in an institutional telematics file or publish it in a monographic volume) provided that the initial publication in this journal is indicated.
- Authors are allowed and recommended to disseminate their work over the Internet (e.g. in institutional telematics files or on their website) before and during the submission process, which can produce interesting exchanges and increase quotes of the published work.
Funding data
-
Ministerio de Ciencia e Innovación
Grant numbers MCIN/AEI /10.13039/501100011033
References
Adolphs, Svenja y Knight, Dawn (2010). Building a spoken corpus. What are the basics? En Anne O’Keeffe y Michael J. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics, pp. 38-52, Routledge.
Agencia Española de Protección de Datos. (2016). Orientaciones y garantías en los procedimientos de anonimización de datos personales. En línea, https://datos.gob.es/es/documentacion/orientaciones-y-garantias-en-los-procedimientos-de-anonimizacion-de-datos-personales
Agencia de los Derechos Fundamentales de la Unión Europea y Consejo de Europa, (2014). Manual de legislación europea en materia de la protección de datos, Oficina de Publicaciones de la Unión Europea.
Albelda, Marta y Estellés, Maria (coords.) (En línea). Corpus Ameresco, Universitat de València, ISSN: 2659-8337, en línea, www.corpusameresco.com
Briz Gómez, Antonio (2012). Los déficits de los corpus orales del español (y de algunos análisis). En Jiménez, Tomás et al. (coord.), Cum corde et in nova grammatica: estudios ofrecidos a Guillermo Rojo, pp. 115-137, Universidade de Santiago de Compostela.
Briz Gómez, Antonio y Albelda Marco Marta (2009). Estado actual de los corpus de lengua española hablada y escrita: I+D. En Anuario del Instituto Cervantes, El español en el mundo, pp. 165-226, Instituto Cervantes.
Briz Gómez, Antonio y Carcelén Guerrero, Andrea (2019). El futuro iberoamericano del español: la investigación del español oral y en español. En El español en el mundo 2019, Instituto Cervantes, 189-217, Bala Perdida.
Briz Gómez, Antonio et al. (2019). Protocolo de trabajo para los equipos Ameresco. En línea https://esvaratenuacion.es/protocolo-de-trabajo (versión actualizada enero de 2020).
Carcelén Guerrero, Andrea (2024). Bases teórico-metodológicas para la construcción de un corpus multidialectal de conversación coloquial: el corpus Ameresco. [Tesis doctoral, Universitat de València]. Repositorio institucional Roderic https://hdl.handle.net/10550/92265
Carcelén Guerrero, Andrea (en prensa). ¿Es posible elaborar corpus orales espontáneos y cumplir legislación? El modelo en tres fases del corpus Ameresco. Revista Española de Lingüística Aplicada.
Carcelén Guerrero, Andrea y Uclés Ramada, Gloria (2019). Diseño y construcción de un corpus oral multidialectal. El corpus Ameresco. Normas: Revista de Estudios Lingüísticos Hispánicos, 9 (1), pp. 17-36.
Childs, Becky, Van Herk, Gerard y Thorburn, Jennifer (2011). Safe harbour: Ethics and accesibility in sociolinguistic corpus building. Corpus Linguistics and Linguistic Theory (7-1), pp. 163-180.
D’Arcy, Alexandra y Bender, Emily (2023). Ethics in Linguistics, Annual Review of Linguistics, 9 (1), pp. 49-69.
ELAN (Version 6.7) [Software informático]. (2023). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Obtenido de https://
archive.mpi.nl/tla/elan
Enghels, Renata, Vanderschueren, Clara y Bouzouita, Miriam (2015). Panorama de los corpus y textos del español peninsular contemporáneo. En Maria Iliescu y Eugeen Roegiest (Ed.), Manuel des anthologies, corpus et textes romans, pp. 147-170, De Gruyter.
Ley Orgánica 1/1982, de 5 de mayo, de Protección civil y derecho al honor, la intimidad personal y a la propia imagen.
Ley Orgánica 10/1995, de 23 de noviembre, del Código Penal.
Ley Orgánica 3/2018, de 5 de diciembre, de Protección de datos personales y garantía de los derechos digitales.
Llisterri, Joaquín (2021). Corpus para investigar sobre el componente fónico en español como LE/L2. En Mar Cruz y Javier Muñoz (Eds.), e-Research y español LE/L2.: investigar en la era digital, pp. 164-196, Routledge.
McEnery, Tony, y Hardie, Andrew (2011). Corpus Linguistics: Method, Theory and Practice, Cambridge University Press.
Moreno Fernández, Francisco (2005), Corpora of Spoken Spanish Language. The Representativeness Issue. En Yuji Kawaguchi et al. (Eds.), Linguistic Informatics, State of the Art and the Future, pp. 120-144, John Benjamins.
Parodi, Giovanni y Burdiles, Gina (2019). Corpus y bases de datos (Corpora and databases). En Javier Muñoz et al. (coord.), The Routledge Handbook of Spanish Language Teaching: metodologías, contextos y recursos para la enseñanza del español, pp. 596-612, Routledge.
Pons Bordería, Salvador (dir.) (En línea). Corpus Val.Es.Co 3.0. http://www.valesco.es
Rock, Frances (2001). Policy and Practice in the Anonymisation of Linguistic Data, International Journal of Corpus Linguistics 6(1), pp.1-26.
Rojo, Guillermo (2016), Citius, maius, melius. Del CREA al CORPES XXI. En Johannes Kabatek, Carlota de Benito Moreno (coords.), Lingüística de corpus y lingüística histórica iberorrománica, pp. 197-212, De Gruyter.
Schneider, Klaus P. (2018). Methods and ethics of data collection. En Andreas H. Jucker, Klaus P. Schneider y Wolfram Bublitz (ed.), Methods in Pragmatics, pp. 37-93, De Gruyter.
Solís García, Inmaculada (2018). Corpus españoles dialógicos para el análisis de la conversación. CHIMERA: Romance Corpora and Linguistic Studies, 5 (1), pp. 117-129.
Vázquez, Victoria y Recalde, Monserrat (2009). Problemas metodológicos en la formación de corpus orales. En Pascual Cantos y Aquilino Sánchez (Eds.), A survey of corpus-based research, pp. 51-64. Recurso electrónico https://www.um.es/lacell/aelinco/contenido/index.html