Suchin Gururangan

I am a research scientist at Meta GenAI, on the Llama team. I received my PhD in Computer Science in 2024 at the University of Washington. I was supported by the 2022 Bloomberg PhD Fellowship, and was previously a visiting researcher at Meta AI and a predoctoral resident at AI2.

📥 Email
🧑🏾‍💻 Github
🎓 Google Scholar
📚 Semantic Scholar
𝕏 Twitter
✍🏾 Blog

View My GitHub Profile

Publications

2024

The Llama 3 Herd of Models _{Llama Team}	_code
DataComp-LM: In search of the next generation of training sets for language models _{Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar}	_code
Language models scale reliably with over-training and on downstream tasks _{Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt}	_code
LESS: Selecting Influential Data for Targeted Instruction Tuning _{Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen}	_code
Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models _{Terra Blevins, Tomasz Limisiewicz, Suchin Gururangan, Margaret Li, Hila Gonen, Noah A. Smith, Luke Zettlemoyer}
AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters _{Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren Klein, Jesse Dodge}	_code

2023

OpenLM _{Suchin Gururangan^, Mitchell Wortsman^, Samir Yitzhak Gadre, Achal Dave, Maciej Kilian, Weijia Shi, Jean Mercat, Georgios Smyrnis, Gabriel Ilharco, Matt Jordan, Reinhard Heckel, Alex Dimakis, Ali Farhadi, Vaishaal Shankar, Ludwig Schmidt} ^*_{Equal Contribution}	_code
Time is Encoded in the Weights of Finetuned Language Models _{Kai Nylund, Suchin Gururangan, Noah A. Smith}	_code
SILO Language Models: Isolating Legal Risk in a Nonparametric Datastore _{Sewon Min^, Suchin Gururangan^, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer} _{^*Equal Contribution} _{ICLR 2024, RegML 2024} ✨_{Outstanding Paper Award at RegML 2024 Workshop}✨	_code
Scaling Expert Language Models with Unsupervised Domain Discovery _{Suchin Gururangan^, Margaret Li^, Mike Lewis, Weijia Shi, Tim Althoff, Noah A. Smith, Luke Zettlemoyer} _{^*Equal Contribution} _{JMLR 2024}	_code
Editing Models with Task Arithmetic _{Gabriel Ilharco, Marco Tulio Riberio, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi} _{ICLR 2023}	_code

2022

lo-fi: distributed fine-tuning without communication _{Mitchell Wortsman, Suchin Gururangan, Shen Li, Ali Farhadi, Ludwig Schmidt, Michael Rabbat, Ari S. Morcos}_TMLR	_code
M2D2: A Massively Multi-Domain Language Modeling Dataset _{Machel Reid, Victor Zhong, Suchin Gururangan, Luke Zettlemoyer} _{EMNLP 2022}	_code
Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection _{Suchin Gururangan, Dallas Card, Sarah K. Dreier, Emily K. Gade, Leroy Wang, Blarry Wang,Luke Zettlemoyer, and Noah A. Smith} _{EMNLP 2022}	_code
kNN-Prompt: Nearest Neighbor Zero-Shot Inference _{Weijia Shi, Julian Michael, Suchin Gururangan, and Luke Zettlemoyer} _{EMNLP 2022}	_code
Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models _{Margaret Li^, Suchin Gururangan^, Tim Dettmers, Mike Lewis, Noah A. Smith, and Luke Zettlemoyer} _{^*Equal Contribution}	_code
Time Waits for No One! Analysis and Challenges of Temporal Misalignment _{Kelvin Luu, Daniel Khashabi, Suchin Gururangan, Karishma Mandyam, and Noah A. Smith} _{NAACL 2022}	_code
DEMix Layers: Disentangling Domains for Modular Language Modeling _{Suchin Gururangan, Mike Lewis, Ari Holtzman, Noah A. Smith, and Luke Zettlemoyer} _{NAACL 2022}	_code

2021

All That’s ‘Human’ Is Not Gold: Evaluating Human Evaluation of Generated Text _{Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith} _{ACL 2021} ✨_{Outstanding Paper Award}✨
Expected Validation Performance and Estimation of a Random Variable’s Maximum _{Jesse Dodge, Suchin Gururangan, Roy Schwartz, Dallas Card, and Noah A. Smith}
Detoxifying Language Models Risks Marginalizing Minority Voices _{Albert Xu, Eshaan Pathak, Eric Wallace, Suchin Gururangan, Maarten Sap, and Dan Klein} _{NAACL 2021}

2020

RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models _{Sam Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith} _{EMNLP Findings 2020}	_code
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks _{Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith} _{ACL 2020} ✨_{Honorable Mention for Best Overall Paper}✨	_code

2019

Variational Pretraining for Semi-supervised Text Classification _{Suchin Gururangan,Tam Dang, Dallas Card, and Noah A. Smith} _{ACL 2019}	_code
Show Your Work: Improved Reporting of Experimental Results _{Jesse Dodge, Suchin Gururangan, Roy Schwartz, Dallas Card, and Noah A. Smith} _{EMNLP 2019}	_code
Emergent coordination underlying learning to reach to grasp with a brain-machine interface _{with many authors 🙂} _{Journal of Neurophysiology}

2018

Annotation Artifacts in Natural Language Inference Data
_{Suchin Gururangan^*, Swabha Swayamdipta^*, Omer Levy, Roy Schwartz, Samuel Bowman, and Noah A. Smith}
_{^*Equal contribution}
_{NAACL 2018}

2014

Analysis of Graph Invariants in Functional Neocortical Circuitry Reveals Generalized Features Common to Three Areas of Sensory Cortex
_{Suchin Gururangan, Alex Sadovsky and Jason Maclean}
_{Plos Compbio 2014}