diff --git a/README.md b/README.md index 1a73145..6180587 100644 --- a/README.md +++ b/README.md @@ -1,16 +1,23 @@ -# Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining -This is the repo for the paper (ACL2025)[Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration](https://aclanthology.org/2025.acl-long.466/). -![Illustration of multi-actor collaborative framework](./main_v2.png) - -## Updates -- **[5 May, 2025]:** Our paper is accepted by ACL2025! And our code is released. -- **[21 October, 2024]:** We release the [labeled SlimPajama datasets](https://huggingface.co/datasets/beccabai/slimpajama_labeled). -- **[14 October, 2024]:** We release our [1.3B model checkpoints](https://huggingface.co/beccabai/1.3B-multi-agent-collab-checkpoints) and [BERT Topic Classifier](https://huggingface.co/beccabai/bert_topic_model). - -## Release plan -TODOs: -- [x] Model Checkpoints -- [x] BERT Topic Model Checkpoint -- [x] Labeled Slimpajama-670B datasets -- [x] Code for methods +Bu metin, bir GitHub README dosyasının giriş ve güncelleme bölümleridir. Yapıyı, Markdown formatını ve bağlantıları koruyarak Türkçeye çevirdim: + +--- + +# Verimli LLM Ön Eğitimi için Çok Ajanlı İş Birlikçi Veri Seçimi + +Bu depo, (ACL2025) [Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration](https://aclanthology.org/2025.acl-long.466/) makalesi için oluşturulmuştur. + +## Güncellemeler + +* **[5 Mayıs 2025]:** Makalemiz ACL2025 tarafından kabul edildi! Kodlarımız yayınlandı. +* **[21 Ekim 2024]:** [Etiketlenmiş SlimPajama veri setlerini](https://huggingface.co/datasets/beccabai/slimpajama_labeled) yayınladık. +* **[14 Ekim 2024]:** [1.3B model kontrol noktalarımızı (checkpoints)](https://huggingface.co/beccabai/1.3B-multi-agent-collab-checkpoints) ve [BERT Konu Sınıflandırıcımızı](https://huggingface.co/beccabai/bert_topic_model) yayınladık. + +## Yayın planı + +Yapılacaklar (TODOs): + +* [x] Model Kontrol Noktaları (Checkpoints) +* [x] BERT Konu Modeli Kontrol Noktası +* [x] Etiketlenmiş Slimpajama-670B veri setleri +* [x] Yöntemler için kodlar ......