Publications

Data-Constrained Synthesis of Training Data for De-Identification

Thomas Vakili, Aron Henriksson & Hercules Dalianis

To appear in Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)

SweClinEval: A Benchmark for Swedish Clinical Natural Language Processing

Thomas Vakili, Martin Hansson & Aron Henriksson

In Proceedings of the Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025)

A Pseudonymized Corpus of Occupational Health Narratives for Clinical Entity Recognition in Spanish

Jocelyn Dunstan, Thomas Vakili, Luis Miranda, Fabián Villena, Claudio Aracena, Tamara Quiroga, Paulina Vera, Sebastián Viteri Valenzuela & Victor Rocco

BMC Medical Informatics and Decision Making special issue on Health information privacy and security (2024)

End-to-End Pseudonymization of Fine-Tuned Clinical BERT Models

Thomas Vakili, Aron Henriksson & Hercules Dalianis

BMC Medical Informatics and Decision Making special issue on Health information privacy and security (2024)

A Privacy-Preserving Corpus for Occupational Health in Spanish: Evaluation for NER and Classification Tasks

Claudio Aracena, Luis Miranda, Thomas Vakili, Fabián Villena, Tamara Quiroga, Fredy Núñez-Torres, Victor Rocco & Jocelyn Dunstan

In Proceedings of the 6th Clinical Natural Language Processing Workshop @ NAACL 2024

When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification

Thomas Vakili, Tyr Hullmann, Aron Henriksson & Hercules Dalianis

In Proceedings of the Workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo) @ EACL2024

Using a Large Open Clinical Corpus for Improved ICD-10 Diagnosis Coding

Anastasios Lamproudis, Therese Olsen Svenning, Torbjørn Torsvik, Taridzo Chomutare, Andrius Budrionis, Phuong Dinh Ngo, Thomas Vakili & Hercules Dalianis

In AMIA Annual Symposium Proceedings 2023

Using Membership Inference Attacks to Evaluate Privacy-Preserving Language Modeling Fails for Pseudonymizing Data

Thomas Vakili & Hercules Dalianis

In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa 2023)

Evaluation of LIME and SHAP in Explaining Automatic ICD-10 Classifications of Swedish Gastrointestinal Discharge Summaries

Alexander Dolk, Hjalmar Davidsen, Hercules Dalianis & Thomas Vakili

In Proceedings of the 18th Scandinavian Conference on Health Informatics (SHI 2022)

Thomas Vakili

Publications

Data-Constrained Synthesis of Training Data for De-Identification

SweClinEval: A Benchmark for Swedish Clinical Natural Language Processing

A Pseudonymized Corpus of Occupational Health Narratives for Clinical Entity Recognition in Spanish

End-to-End Pseudonymization of Fine-Tuned Clinical BERT Models

A Privacy-Preserving Corpus for Occupational Health in Spanish: Evaluation for NER and Classification Tasks

When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification

Using a Large Open Clinical Corpus for Improved ICD-10 Diagnosis Coding

Using Membership Inference Attacks to Evaluate Privacy-Preserving Language Modeling Fails for Pseudonymizing Data

Evaluation of LIME and SHAP in Explaining Automatic ICD-10 Classifications of Swedish Gastrointestinal Discharge Summaries

Downstream Task Performance of BERT Models Pre-Trained Using Automatically De-Identified Clinical Data

Cross-Clinic De-Identification of Swedish Electronic Health Records: Nuances and Caveats

Evaluating Pre-Trained Language Models for Focused Terminology Extraction from Swedish Medical Records

Utility Preservation of Clinical Text After De-Identification

Are Clinical BERT Models Privacy Preserving? The Difficulty of Extracting Patient-Condition Associations

A Method for the Assisted Translation of QA Datasets Using Multilingual Sentence Embeddings

Theses

Attacking and Defending the Privacy of Clinical Language Models

A Method for the Assisted Translation of QA Datasets Using Multilingual Sentence Embeddings

A Comparison of Clustering the Swedish Political Twittersphere Based on Social Interactions and on Tweet Content

Teaching

Interests & Contact