Ethical and legal aspects in the construction of an oral corpus of conflictual conversation

Main Article Content

Andrea Carcelén Guerrero

Abstract

The creation of an oral corpus, defined as a collection of natural speech recordings arranged for computational processing, presents several challenges that must be carefully considered to ensure its quality and usefulness. In a corpus of the characteristics of the one presented below, the ESPRINT corpus of conflicting conversation between people with an intimate relationship, the main challenge has to do with attending to the ethical and legal principles involved in both its collection and its subsequent processing for linguistic analysis. In any case, the participants's right to privacy and anonymity must be guaranteed. The ESPRINT corpus has a dual nature, on the one hand conversational (ESPRINT-Conversation), on the other hand therapeutic (ESPRINT-Therapies), which implies two modes of collection, as well as data processing, privacy management, storage and analysis, since therapies are recorded in a socio-health context with specificities in terms of data access, which requires a strict storage protocol and a clear policy on who can access the corpus, for what purposes and under what conditions, respecting privacy rights and consent agreements. Furthermore, in both cases, extreme precautions must be taken given the sensitive content of the recordings. The actions carried out by the corpus management in the area of data protection guarantee compliance with the legal precepts in this regard, as well as the safeguarding of the right to privacy.

Downloads

Download data is not yet available.

Article Details

How to Cite
Carcelén Guerrero, A. (2024). Ethical and legal aspects in the construction of an oral corpus of conflictual conversation. Culture, Language and Representation, 35, 13–51. https://doi.org/10.6035/clr.7907
Section
ARTÍCULOS / ARTICLES

Funding data

References

Adolphs, Svenja y Knight, Dawn (2010). Building a spoken corpus. What are the basics? En Anne O’Keeffe y Michael J. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics, pp. 38-52, Routledge.

Agencia Española de Protección de Datos. (2016). Orientaciones y garantías en los procedimientos de anonimización de datos personales. En línea, https://datos.gob.es/es/documentacion/orientaciones-y-garantias-en-los-procedimientos-de-anonimizacion-de-datos-personales

Agencia de los Derechos Fundamentales de la Unión Europea y Consejo de Europa, (2014). Manual de legislación europea en materia de la protección de datos, Oficina de Publicaciones de la Unión Europea.

Albelda, Marta y Estellés, Maria (coords.) (En línea). Corpus Ameresco, Universitat de València, ISSN: 2659-8337, en línea, www.corpusameresco.com

Briz Gómez, Antonio (2012). Los déficits de los corpus orales del español (y de algunos análisis). En Jiménez, Tomás et al. (coord.), Cum corde et in nova grammatica: estudios ofrecidos a Guillermo Rojo, pp. 115-137, Universidade de Santiago de Compostela.

Briz Gómez, Antonio y Albelda Marco Marta (2009). Estado actual de los corpus de lengua española hablada y escrita: I+D. En Anuario del Instituto Cervantes, El español en el mundo, pp. 165-226, Instituto Cervantes.

Briz Gómez, Antonio y Carcelén Guerrero, Andrea (2019). El futuro iberoamericano del español: la investigación del español oral y en español. En El español en el mundo 2019, Instituto Cervantes, 189-217, Bala Perdida.

Briz Gómez, Antonio et al. (2019). Protocolo de trabajo para los equipos Ameresco. En línea https://esvaratenuacion.es/protocolo-de-trabajo (versión actualizada enero de 2020).

Carcelén Guerrero, Andrea (2024). Bases teórico-metodológicas para la construcción de un corpus multidialectal de conversación coloquial: el corpus Ameresco. [Tesis doctoral, Universitat de València]. Repositorio institucional Roderic https://hdl.handle.net/10550/92265

Carcelén Guerrero, Andrea (en prensa). ¿Es posible elaborar corpus orales espontáneos y cumplir legislación? El modelo en tres fases del corpus Ameresco. Revista Española de Lingüística Aplicada.

Carcelén Guerrero, Andrea y Uclés Ramada, Gloria (2019). Diseño y construcción de un corpus oral multidialectal. El corpus Ameresco. Normas: Revista de Estudios Lingüísticos Hispánicos, 9 (1), pp. 17-36.

Childs, Becky, Van Herk, Gerard y Thorburn, Jennifer (2011). Safe harbour: Ethics and accesibility in sociolinguistic corpus building. Corpus Linguistics and Linguistic Theory (7-1), pp. 163-180.

D’Arcy, Alexandra y Bender, Emily (2023). Ethics in Linguistics, Annual Review of Linguistics, 9 (1), pp. 49-69.

ELAN (Version 6.7) [Software informático]. (2023). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Obtenido de https://

archive.mpi.nl/tla/elan

Enghels, Renata, Vanderschueren, Clara y Bouzouita, Miriam (2015). Panorama de los corpus y textos del español peninsular contemporáneo. En Maria Iliescu y Eugeen Roegiest (Ed.), Manuel des anthologies, corpus et textes romans, pp. 147-170, De Gruyter.

Ley Orgánica 1/1982, de 5 de mayo, de Protección civil y derecho al honor, la intimidad personal y a la propia imagen.

Ley Orgánica 10/1995, de 23 de noviembre, del Código Penal.

Ley Orgánica 3/2018, de 5 de diciembre, de Protección de datos personales y garantía de los derechos digitales.

Llisterri, Joaquín (2021). Corpus para investigar sobre el componente fónico en español como LE/L2. En Mar Cruz y Javier Muñoz (Eds.), e-Research y español LE/L2.: investigar en la era digital, pp. 164-196, Routledge.

McEnery, Tony, y Hardie, Andrew (2011). Corpus Linguistics: Method, Theory and Practice, Cambridge University Press.

Moreno Fernández, Francisco (2005), Corpora of Spoken Spanish Language. The Representativeness Issue. En Yuji Kawaguchi et al. (Eds.), Linguistic Informatics, State of the Art and the Future, pp. 120-144, John Benjamins.

Parodi, Giovanni y Burdiles, Gina (2019). Corpus y bases de datos (Corpora and databases). En Javier Muñoz et al. (coord.), The Routledge Handbook of Spanish Language Teaching: metodologías, contextos y recursos para la enseñanza del español, pp. 596-612, Routledge.

Pons Bordería, Salvador (dir.) (En línea). Corpus Val.Es.Co 3.0. http://www.valesco.es

Rock, Frances (2001). Policy and Practice in the Anonymisation of Linguistic Data, International Journal of Corpus Linguistics 6(1), pp.1-26.

Rojo, Guillermo (2016), Citius, maius, melius. Del CREA al CORPES XXI. En Johannes Kabatek, Carlota de Benito Moreno (coords.), Lingüística de corpus y lingüística histórica iberorrománica, pp. 197-212, De Gruyter.

Schneider, Klaus P. (2018). Methods and ethics of data collection. En Andreas H. Jucker, Klaus P. Schneider y Wolfram Bublitz (ed.), Methods in Pragmatics, pp. 37-93, De Gruyter.

Solís García, Inmaculada (2018). Corpus españoles dialógicos para el análisis de la conversación. CHIMERA: Romance Corpora and Linguistic Studies, 5 (1), pp. 117-129.

Vázquez, Victoria y Recalde, Monserrat (2009). Problemas metodológicos en la formación de corpus orales. En Pascual Cantos y Aquilino Sánchez (Eds.), A survey of corpus-based research, pp. 51-64. Recurso electrónico https://www.um.es/lacell/aelinco/contenido/index.html