• Home |
  • Grandes modelos del lenguaje desde un enfoque de procesamiento con grandes datos – Español

Grandes modelos del lenguaje desde un enfoque de procesamiento con grandes datos – Español

  • mayo 10, 2023

Desde el surgimiento de las técnicas basadas en el aprendizaje de representaciones y el aprendizaje profundo (Hochreiter & Schmidhuber, 1997; Mikolov, Sutskever et al., 2013; Pennington et al., 2014; LeCun et al., 2015; He et al. 2016) se ha podido observar un buen número de publicaciones mostrando su utilidad en el campo de la medicina (Pereira et al. 2016; Korkontzelos et al., 2016; Cocos et al., 2017; Serban et al. 2019; Fan et al. 2020). Sin embargo, en los últimos años se ha enfatizado el empleo de modelos basados en Transformers (Vaswani et al. 2017) dado su extensivo uso y demostrada eficacia en la resolución de tareas clásicas de Aprendizaje Automático y, en particular, en el área de la salud (Sánchez Fernández et al. 2020; Dong et al. 2021; Chizhikova et al. 2022; Devaguptam et al. 2022).

En (Lee et al. 2020) los autores trabajaron con la hipótesis de que la representación bidireccional de los transformers que utiliza BERT es fundamental en tareas de minería de textos biomédicos. Así, propusieron un modelo denominado BioBERT que hereda las características de BERT (en su versión BASE) y realizaron la adaptación del dominio con textos médicos específicos extraídos de PubMed (aproximadamente 18 billones de palabras). Se utilizaron los mismos hyperparámetros del modelo base en el re-entrenamiento. Para evaluar el modelo, se realizó él fine-tuning de BioBERT en tres tareas: reconocimiento de entidades nombradas, extracción de relaciones y preguntas-respuestas. Los resultados demostraron que BioBERT supera entre el 1 y él 12% la medida F obtenida con el modelo BERT sin re-entrenamiento específico, según la tarea seleccionada.

Siguiendo la idea ya expresada por los autores de BioBERT de que los textos médicos difieren bastante de los textos con los que se entrenan los grandes modelos de lenguajes, los autores de ClinicalBERT (Alsentzer et al. 2019; Yan & Pei, 2022) propusieron un modelo que aprende a representar textos clínicos de forma tal que el descubrimiento de enfermedades o de relaciones entre tratamiento y resultados del mismo sean eficientemente resueltas. Los autores utilizaron la versión base de BERT para reentrenar con textos de registros médicos extraídos del corpus MIMIC-III (aprox. 2 millones de notas clínicas). Se emplearon los hiperparámetros por defecto del modelo y se evaluó ClinicalBERT en la tarea de predecir la readmisión de pacientes en el hospital. Los resultados demostraron mejorar en un 10% la métrica AUC en la predicción de readmisión de pacientes con respecto a BERT base.

En (Ramsay et al. 2021) presentaron Med-BERT, un modelo con la misma arquitectura de transformers bidireccionales utilizada en el paper original de BERT y la misma técnica de pre-entrenamiento, es decir, la misma función de pérdida para el enmascarado y pasos para la actualización de los parámetros. Med-BERT fue propuesto para aprender información a partir de grandes volúmenes de datos de registros electrónicos de salud (EHR)1 y predecir enfermedades. El modelo Med-BERT fue entrenado con los códigos internacionales de clasificación de enfermedades (ICD-9 y ICD-10), y con más de 28 millones de EHR extraídas del corpus Cerner Health Facts® (versión 2017). Debido a las diferencias del formato de los datos de entrada (textos libres en BERT, EHR con códigos en Med-BERT) los tokens [CLS] y [SEP] no se utilizaron en la capa de entrada. Otra diferencia entre ambos modelos es que Med-BERT no utiliza la tarea de Next Sentence Prediction y por ello no necesita separar 2 sentencias de entrada (con [SEP]). Como Med-BERT utiliza registros textuales largos completos, no necesita “resumir” información en el token [CLS] para la clasificación, pero se agregó una capa feed-forward (FFL) en la salida de la capa inicial para clasificar la secuencia de entrada. Se utilizaron similares hiperparámetros que BERT durante la fase de pre-entrenamiento. El nuevo modelo fue evaluado haciendo un fine-tuning en dos tareas específicas: la predicción de fallas cardíacas en pacientes con diabetes y la predicción de cáncer de páncreas usando dos bases de datos conocidas. Los resultados fueron prometedores, se obtuvo una mejora del 20% de AUC con el modelo Med-BERT en comparación a otros dos modelos BERT más generales aplicados al mismo dominio y tarea.

Más recientemente, (Ji et al. 2022) propusieron MentalBERT (junto a la variante MentalRoBERTa), los primeros modelos específicamente entrenados para resolver problemáticas relacionadas a la salud mental. MentalBERT y MentalRoBERTa fueron entrenados siguiendo los protocolos del framework de los Transformer de Huggingface y se utilizaron las versiones base de BERT y RoBERTa respectivamente. Los autores utilizaron el esquema de pre-entrenamiento adaptativo para continuar el entrenamiento de los modelos base en el dominio específico. Utilizaron más de 13 millones de oraciones seleccionadas de Reddit para el entrenamiento. Compararon las dos versiones de su propuesta con los modelos base de Transformers, BioBERT y ClinicalBERT para la identificación de estrés, anorexia y suicidio. Los resultados indicaron un incremento de la medida F1 en la mayoría de las tareas con respecto a los modelos previamente publicados.

Nótese que los escasos modelos de lenguajes entrenados con textos médicos consideran el idioma inglés, siendo muy limitada la cantidad de modelos (en general) que usan el idioma español. La versión multilenguaje de BERT, conocida como Multilingual BERT (Devlin et al. 2019), y del modelo RoBERTa, denominada XLM-RoBERTa (Conneau et al., 2020) incluyen el español en los textos que se utilizaron para el pre-entrenamiento. En el caso de Multilingual BERT está entrenado en 104 lenguajes con la Wikipedia completa en cada idioma. XLM-RoBERTa considera el español dentro de los más de 100 lenguajes que se usaron en el pre-entrenamiento con datos del corpus CommonCrawl. Por otro lado, BETO (Cañete et al. 2020) fue el primer modelo de lenguaje basado en la arquitectura de BERT pero entrenado enteramente con un corpus de gran tamaño en idioma español. El corpus lo constituyen textos en español de diferentes fuentes: Wikipedia, periódicos de las Naciones Unidas, conferencias TED, subtítulos, noticias, historias, etc. El tamaño del corpus utilizado para entrenar BETO se asemeja al utilizado para entrenar BERT, es decir, alrededor de 3 billones de palabras. Recientemente, fue presentado RoBERTuito (Perez et al 2022), con la arquitectura base de RoBERTa pero entrenado con 500 millones de tweets en español y utilizando la configuración de hiperparámetros sugerida por su modelo base.

Como se puede observar en los trabajos analizados, existe una tendencia al enriquecimiento y/o re-entrenamiento de los grandes modelos de lenguaje basados en Transformers con textos específicos del dominio médico considerado. Estos trabajos, se restringen al idioma inglés existiendo para el español solamente modelos aprendidos sobre textos generales en este idioma. Por otra parte, estos grandes modelos profundos, son usualmente aprendidos con grandes colecciones de textos estáticas y poco énfasis se pone en un entrenamiento continuo que permita ir incorporando nuevas fuentes de información de una manera flexible y escalable. La necesidad de este tipo de flexibilidad va quedando también de manifiesto en nuevos enfoques de entrenamiento que buscan incorporar conocimiento externo adicional en el proceso de aprendizaje (Yu et al. 2020) o para verificar que los grandes modelos aprendidos con Transformers generativos no estén generando información errónea (Peng et al. 2023). Con este trabajo de tesis, trataremos de contribuir en esta dirección, solucionando y/o atenuando algunas de las dificultades que surgen para cumplir estos objetivos.

Enfoques de Procesamiento de Datos

Como se comentó anteriormente, existen diferentes plataformas paralelas y distribuidas como cloud, clusters, basadas en SoC, etc. Por otro lado, existen enfoques de procesamiento de datos que pueden ser utilizados sobre dichas plataformas para mejorar el rendimiento de los modelos que se desean evaluar. El enfoque de map-reduce (https://static.googleusercontent.com/media/research.google.com/es//archive/mapreduce-osdi04.pdf ) fue propuesto por Google como una forma de distribuir las tareas computacionales que corren sobre grandes datasets. Permite a usuarios que no son expertos en sistemas en computación paralela, procesar grandes volúmenes de datos de una forma simple. Tiene una abstracción de programación que contiene patrones de cómputo y comunicación bien definidos. Existen diferentes tecnologías que implementan este enfoque como Hadoop, AppEngine-MapReduce del Google App Engine platform y Amazon Elastic MapReduce. En particular, Hadoop provee facilidades para administrar un sistema de archivos distribuidos, y hace que los detalles de programación paralela y distribuida sean transparentes para el usuario. Hadoop también provee facilidades para el auto-escalado de tareas, replicación, entre otros, cómo también diferentes factores como I/O, esquemas de indexación, parseo y agrupación afectan el rendimiento de Hadoop. Hadoop permite trabajar con varios formatos de archivos, los cuales se pueden llamar “spliteables” y permite dividirlos y distribuirlos en el cluster. Entre ellos se encuentra AVRO, PARQUET, OCR, SEQ FILe, CSV y Texto. Posteriormente, llega al mercado otro producto llamado Apache Spark que usa la idea original de Hadoop y la mejora, (http://sedici.unlp.edu.ar/handle/10915/126780 ). Apache Spark es un motor informático unificado y un conjunto de librerías utilizadas para el procesamiento paralelo de datos en clústeres informáticos. Apache Spark es el motor de código abierto más activamente desarrollado, lo cual lo convierte en una herramienta estándar para cualquier desarrollador o científico de datos interesado en datos de gran tamaño. Bartolini y Patella, (2017), la definen en los siguientes términos:

Apache Spark Streaming Apache Spark (spark.apache.org) is an open-source platform, originally developed at the University of California, Berkeley’s AMPLab. The main idea of Spark is that of storing data into a so-called Resilient Distributed Dataset (RDD), which represents a read-only fault-tolerant collection of (Python, Java, or Scala) objects partitioned across a set of machines that can be stored in the main memory. RDDs are immutable and their operations are lazy. The “lineage” of every RDD, i.e., the sequence of operations that produced it, is kept so that it can be rebuilt in case of failures, thus guaranteeing fault tolerance. Every Spark application is therefore a sequence of operations on such RDDs, with the goal of producing the desired final result. (p. 2).

Apache Spark soporta múltiples lenguajes de programación utilizados de manera masiva (ej. Python, Java, Scala y R), incluye bibliotecas para diversas tareas que van desde SQL hasta flujos y aprendizaje automático. Puede ejecutarse desde cualquier lugar, ya sea desde una computadora portátil hasta un grupo de miles de servidores. Esto hace que sea un sistema fácil de iniciar y escalar para lograr procesar grandes volúmenes de datos o a una escala increíblemente grande, y es considerado como una evolución de Apache Hadoop debido a que permite procesar los datos y los mantiene en la memoria, como así los siguientes pasos a realizar sobre ellos, lo cual lo hace extremadamente más rápido que apache Hadoop que los mantiene en disco. Por lo tanto, apache Spark reduce el costo de I/O de forma sustancial y de esta manera es considerado 100 veces más rápido que apache Hadoop (https://www.esic.edu/rethink/tecnologia/spark-vs-hadoop-cual-es-mejor ).

Respecto al modo procesamiento de datos en Streaming, se puede decir que este enfoque está orientado a procesar datos en forma continua, lo que conlleva que la fuente de datos no es finita y los datos están fluyendo a todo momento, lo cual permite capturar mucha información en segundos. Para este fin existen muchos frameworks que permiten manejar el streaming de datos entre ellos podemos citar (http://sedici.unlp.edu.ar/handle/10915/126780 ). Apache Flink que es considerado el más importante, según (Hueske, 2019), es un framework de código abierto para computación distribuida que permite el desarrollo de aplicaciones para el procesamiento de flujos de datos. La herramienta está creciendo con el apoyo de la comunidad, siendo uno de los motores de stream más sofisticados. De acuerdo con Deshpande, (2017) Flink impulsa aplicaciones comerciales a gran escala en empresas de diferentes industrias en todo el mundo. Inubi et al., (2018), lo define en los siguientes términos:

Flink is an open-source framework for processing data in both real-time mode and batch mode. It provides several benefits such as fault-tolerant and large-scale computation. The programming model of Flink is similar to MapReduce. By contrast to MapReduce, Flink o↵ers additional high-level functions such as join, filter, and aggregation. Flink allows iterative processing and real-time computation on stream data collected by different tools such as Flume and Kafka. It o↵ers several APIs on a more abstract level allowing the user to launch distributed computation in a transparent and easy way. Flink ML is a machine learning library that provides a wide range of learning algorithms to create fast and scalable Big Data applications. (p. 6).

En la actualidad, existe un enfoque híbrido denominado arquitectura Lambda. La arquitectura Lambda describe un sistema que consta de tres capas: procesamiento por lotes, procesamiento de velocidad (o en tiempo real) y una capa de servicio para responder a las consultas (Marz y Warren, 2013). Las capas de procesamiento consumen de una copia maestra inmutable de todo el conjunto de datos. Este enfoque fue descrito por primera vez por Nathan Marz en una publicación de blog titulada “Cómo superar el teorema CAP ” en el que originalmente lo denominó “arquitectura por lotes/en tiempo real” (http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html). Sin embargo, este enfoque no incluye una capa para los modelos a entrenar.

Esta idea converge en un desarrollo doctoral que se orientara al proposito de una plataforma distribuída y paralela para la recolección y procesamiento de datos que se utilizarán para el entrenamiento de grandes modelos de lenguajes en el contexto de análisis de trastornos mentales, en particular, considerando el idioma español. Texto en formato electrónico con historias clínicas, notas relacionadas a admisiones de pacientes en centros de salud, resultados de laboratorios u otros estudios, etc. este articulo oculta los detalles de implementacion de mi tesis que resuelve este problema con una solucion de bajo coste.

Bibliografía

Alonso, J., Angermeyer, M., Bernert, S., Bruffaerts, R., Brugha, T., Bryson, H., de Girolamo, G., Graaf, R., Demyttenaere, K., Gasquet, I., Haro, J., Katz, S., Kessler, R., Kovess, V., Lépine, J., Ormel, J., Polidori, G., Russo, L., Vilagut, G. (2004). 12-Month comorbidity patterns and associated factors in Europe: results from the European Study of the Epidemiology of Mental Disorders (ESEMeD) project. Acta Psychiatrica Scandinavica, Suppl 109.

Alsentzer, E., Murphy, J., Boag, W., Weng, W., Jindi, D., Naumann T., McDermott, M. (2019). Publicly Available Clinical BERT Embeddings. In Proceedings of the 2nd Clinical Natural Language Processing Workshop, pages 72–78, Minneapolis, Minnesota, USA. Association for Computational Linguistics.

Bernal, M., Haro, J. M., Bernert, S., Brugha, T., de Graaf, R., Bruffaerts, R., Lépine, J., de Girolamo, G., Vilagut, G., Gasquet, I., Torres, J., Kovess, V., Heider, D., Neeleman, J., Kessler, R. (2007). Risk factors for suicidality in Europe: results from the ESEMED study. Journal of Affective Disorders, (101).

Cañete, J., Chaperon, G., Fuentes, R., Ho, J.-H., Kang, H., Perez, J. (2020). Spanish pre-trained bert model and evaluation data. In PML4DC at ICLR 2020.

Chizhikova, M., Collado, M., López, P., Díaz Galiano, L., Ureña, A., Valdivia, M. (2022). Leveraging biomedical transformers to detect and normalize disease mentions. Proceedings of the Working Notes of CLEF 2022 – Conference and Labs of the Evaluation Forum, pags 265– 273.

Cocos, A., Fiks, A. G., Masino, A. J. (2017). Deep learning for pharmacovigilance: Recurrent neural network architectures for labeling adverse drug reactions in Twitter posts. Journal of American Medical Informatics Association.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pags 8440–8451, Online. Association for Computational Linguistics.

Coppersmith, G., Leary, R., Crutchley, P., Fine, A. (2018). Natural language processing of social media as screening for suicide risk. Biomedical Informatics Insights, 10.

Crestani, F., Losada, D., Parapar, J (Editores). (2022). Early Detection of Mental Health Disorders by Social Media Monitoring: The First Five Years of the eRisk Project. Springer; 1st ed.

Devaguptam, S., Kogatam, T., Kotian, N., Kumar A. (2022). Early detection of depression using BERT and DeBERTa. Proceedings of the Working Notes of CLEF 2022 – Conference and Labs of the Evaluation Forum pages 875–882.

Devlin, J., Chang, M., Lee, K., Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL.

Dong H., Suárez-Paniagua V, Zhang H., Wang M., Whitfield E., Wu H. (2021). Rare Disease Identification from Clinical Notes with Ontologies and Weak Supervision. 43rd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC).

Fan, B., Fan, W., Smith, C. (2020). “Skip” Garner, Adverse drug event detection and extraction from open data: A deep learning approach, Information Processing & Management, Vol. 57, Issue 1, 102-131, ISSN 0306-4573.

Gask, L., Dixon, C., May, C., Dowrick, C. (2005). Qualitative study of an educational intervention for GPs in the assessment and management of depression. British Journal of General Practice,, 55, 854–859. Disponible en https://bjgp.org/content/55/520/854.short

Golder, S., Macy, M. (2011). Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures. Science, 333(6051), 1878–1881. Disponible en: https://www.science.org/doi/abs/10.1126/science.1202775

González Gallardo, C. E., Torres Moreno, J. M., Montes Rendón, A., Sierra, G. (2016). Perfilado de autor multiling ̈ue en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales. Dialnet Plus.

Hasin, D. S., Goodwin, R. D., Stinson, F. S., Grant, B. F. (2005). Epidemiology of major depressive disorder: results from the National Epidemiologic Survey on Alcoholism and Related Conditions. Archives of General Psychiatry.

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 1735–1780.

Instituto de Sanimetría y Evaluación Sanitaria. (2022). Global Health Data Exchange (GHDx). Interactive data visuals. 2 de Diciembre de 2022. Disponible en: https://vizhub.healthdata.org/gbd-results/

Jaime, R. Alejandro. (2021) Estudio comparativo entre Apache Flink y Apache Spark. Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Tesis para alcanzar el grado de Especialista en Inteligencia de Datos orientada a Big Data. Universidad Nacional de La Plata. Disponible en: http://sedici.unlp.edu.ar/handle/10915/126780

Jiang, D., Ooi, B., Shi, L., Wu, S. (2010). The performance of mapreduce: An in-depth study. Proc. VLDB Endow.

Korkontzelos, I., Nikfarjam, A., Shardlow, M., Sarker, A., Ananiadou, S., Gonzalez, G. (2016). Analysis of the effect of sentiment analysis on extracting adverse drug reactions from tweets and forum posts. Journal of Biomedical Informatics.

LeCun, Y., Bengio, Y., Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.

Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C., Kang, J. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics, Vol. 36, Issue 4, Pags 1234–1240.

Marz, N., Warren, J. (2012). [e-Book] Big Data: Principles and best practices of scalable realtime data systems. New York, Manning Publications.

Mathers, C., Loncar, D. (2006). Projections of Global Mortality and Burden of Disease from 2002 to 2030. PLOS.

Means-Christensen, J, A., Byrne, P, P., Sherbourne, R., Craske, C.D., Stein, M. B. (2008). Relationships among pain, anxiety, and depression in primary care. Depression & Anxiety. Disponible en: https://doi.org/10.1002/da.20342.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., Dean, J. (2013). Distributed representations of words and phrases and their compositionality. NIPS.

Organización Mundial de la Salud. (2022). Salud mental y COVID-19: datos iniciales sobre las repercusiones de la pandemia. Salud mental y COVID-19: datos iniciales sobre las repercusiones de la pandemia. Retrieved December 2, 2022. Disponible en: https://www.who.int/es/publications/i/item/WHO-2019-nCoV-Sci_Brief-Mental_health-2022.1

Paykel, E., Brugha, T., Fryers, T. (2005). Size and burden of depressive disorders in Europe. European Neuropsychopharmacology.

Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., Hu, Y., Huang, Q., Liden, L., Yu, Z., Chen, W., Gao, J. (2023). Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. ArXiv. Pennington, J., Socher, R., Manning, C. D. (2014). GloVe: Global vectors for word representation. Conference on empirical methods in natural language processing.

Pennington, J. Socher, R., and Manning. Ch. (2014). GloVe: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543, Doha, Qatar. Association for Computational Linguistics.

Pereira, S., Pinto, A., Alves, V., Silva, C. A. (2016). Brain tumor segmentation using convolutional neural networks in MRI images. IEEE Transactions on Medical Imaging, 35(5), 1240–1251.

Pérez, M., Furman, A., Alonso, L., Luque, F. (2022). RoBERTuito: a pre-trained language model for social media text in Spanish. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 7235–7243, Marseille, France. European Language Resources Association.

Rasmy, L., Xiang, Y., Xie, Z. (2021). Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction. npj Digit. Med. 4, 86 (2021). Disponible en: https://doi.org/10.1038/s41746-021-00455-y

Ríssola, E., Losada, E., Crestani, F. (2021). A survey of computational methods for online mental state assessment on social media. ACM Transactions on Computing for Healthcare, 2(2). (2021).

Sánchez Fernández I, Yang E, Calvachi P, et al. (2020). Deep learning in rare disease. Detection of tubers in tuberous sclerosis complex. PLoS One.

Skaik, R., Inkpen, D. (2020). Using social media for mental health surveillance: A review. ACM Computing Surves, 53(6).

Serban, O., Thapen, N., Maginnis, B., Hankin, C., Foot, V. (2019). Real-time processing of social media with SENTINEL: A syndromic surveillance system incorporating deep learning for health classification. Information Processing & Management, 1166–1184.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N. (2017). Attention is all you need. arXiv. Disponible en: https://doi.org/10.48550/arXiv.1706.03762.

Yan, B., & Pei, M. (2022). Clinical-BERT: Vision-Language Pre-training for Radiograph Diagnosis and Reports Generation. Proceedings of the AAAI Conference on Artificial Intelligence, 36(3), 2982-2990. Disponible en: https://doi.org/10.1609/aaai.v36i3.20204

Yu, W., Zhu, C., Fang, Y., Yu, D., Wang, S., Xu, Y., Zeng, M., Jiang, M. (2022). Dict-BERT: Enhancing Language Model Pre-training with Dictionary. Findings of the Association for Computational Linguistics: ACL 2022, pages 1907 – 1918. Association for Computational Linguistics.

Zirikly, A., Atzil-Slonim, D., Liakata, M., Bedrick, S., Desmet, B., Ireland, M., Lee, A., MacAvaney, S., Purver, M., Resnik, R., Yates, A. (Editors).(2022). Proceedings of the Eighth Workshop on Computational Linguistics and Clinical Psychology. Association for Computational Linguistics (2022).