Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
37 changes: 22 additions & 15 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,16 +1,23 @@
# Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
This is the repo for the paper (ACL2025)[Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration](https://aclanthology.org/2025.acl-long.466/).
![Illustration of multi-actor collaborative framework](./main_v2.png)

## Updates
- **[5 May, 2025]:** Our paper is accepted by ACL2025! And our code is released.
- **[21 October, 2024]:** We release the [labeled SlimPajama datasets](https://huggingface.co/datasets/beccabai/slimpajama_labeled).
- **[14 October, 2024]:** We release our [1.3B model checkpoints](https://huggingface.co/beccabai/1.3B-multi-agent-collab-checkpoints) and [BERT Topic Classifier](https://huggingface.co/beccabai/bert_topic_model).

## Release plan
TODOs:
- [x] Model Checkpoints
- [x] BERT Topic Model Checkpoint
- [x] Labeled Slimpajama-670B datasets
- [x] Code for methods
Bu metin, bir GitHub README dosyasının giriş ve güncelleme bölümleridir. Yapıyı, Markdown formatını ve bağlantıları koruyarak Türkçeye çevirdim:

---

# Verimli LLM Ön Eğitimi için Çok Ajanlı İş Birlikçi Veri Seçimi

Bu depo, (ACL2025) [Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration](https://aclanthology.org/2025.acl-long.466/) makalesi için oluşturulmuştur.

## Güncellemeler

* **[5 Mayıs 2025]:** Makalemiz ACL2025 tarafından kabul edildi! Kodlarımız yayınlandı.
* **[21 Ekim 2024]:** [Etiketlenmiş SlimPajama veri setlerini](https://huggingface.co/datasets/beccabai/slimpajama_labeled) yayınladık.
* **[14 Ekim 2024]:** [1.3B model kontrol noktalarımızı (checkpoints)](https://huggingface.co/beccabai/1.3B-multi-agent-collab-checkpoints) ve [BERT Konu Sınıflandırıcımızı](https://huggingface.co/beccabai/bert_topic_model) yayınladık.

## Yayın planı

Yapılacaklar (TODOs):

* [x] Model Kontrol Noktaları (Checkpoints)
* [x] BERT Konu Modeli Kontrol Noktası
* [x] Etiketlenmiş Slimpajama-670B veri setleri
* [x] Yöntemler için kodlar
......