AutoResearch od Andreja Karpathy — jak automatyzować badania AI z pomocą agentów na jednym GPU

Andrej Karpathy — jeden z ojców nowoczesnej deep learning, były szef AI w Tesla i współzałożyciel OpenAI — w 2025 roku zaproponował koncepcję, która wywróciła do góry nogami sposób myślenia o badaniach AI. AutoResearch to nie produkt. To framework myślowy i konkretna implementacja systemu, który potrafi prowadzić badania naukowe z AI praktycznie samodzielnie.

## Problem, który AutoResearch rozwiązuje

Karpathy wielokrotnie podkreślał w swoich wystąpieniach i na Twitterze/X, że praca badacza AI to w 95% nie przełomowe odkrycia. To:

- Uruchamianie eksperymentów z nieznacznie zmienionymi hiperparametrami - Czekanie godzinami lub dniami na wyniki treningu - Ręczne porównywanie wykresów z TensorBoard - Pisanie kodu boilerplate do kolejnej iteracji - Kopiowanie tabeli wyników do arkusza kalkulacyjnego

Pozostałe 5% — intuicja o nowym kierunku, hipoteza, że warto spróbować czegoś, czego nikt jeszcze nie próbował — to ta część, która faktycznie jest wartościowa i wymaga ludzkiego mózgu.

AutoResearch próbuje zautomatyzować te 95%, żeby badacze mogli skupić się na tym, w czym są najlepsi.

## Architektura: jak wygląda zespół agentów?

AutoResearch implementuje model **multi-agent orchestration** — kilka wyspecjalizowanych agentów pracujących w pętli:

### Agent 1: Hypothesis Generator

Ten agent analizuje aktualny stan eksperymentów i literaturę (przez RAG na bazie arXiv), a następnie generuje nowe hipotezy do przetestowania. Działa jak "junior researcher" — niekoniecznie genialny, ale niestrudzony i systematyczny.

Technicznie: agent korzysta z modelu językowego (Claude lub GPT-4) z dostępem do bazy embeddings artykułów naukowych, historii eksperymentów i zdefiniowanego przez badacza zakresu poszukiwań.

### Agent 2: Experiment Executor

Pobiera hipotezę i przekłada ją na konkretny kod treningowy. Modyfikuje pliki konfiguracyjne, uruchamia skrypty treningowe przez API PyTorcha lub HuggingFace Trainer i monitoruje proces.

Kluczowa własność: agent ma zdefiniowany budżet obliczeniowy (ile GPU-godzin może zużyć) i automatycznie zarządza kolejką eksperymentów, żeby nie przekroczyć limitu.

### Agent 3: Results Analyzer

Po zakończeniu eksperymentu analizuje logi, generuje wykresy, identyfikuje anomalie (np. exploding gradients, niestabilne krzywe strat) i tworzy ustrukturyzowany raport.

Agent porównuje wyniki z poprzednimi eksperymentami, identyfikuje statystycznie istotne różnice i wyciąga wnioski w języku naturalnym.

### Agent 4: Decision Maker

Na podstawie raportów od Results Analyzera podejmuje decyzję: czy kontynuować ten kierunek, zmodyfikować parametry, czy odrzucić hipotezę i przejść do następnej?

To najdelikatniejszy element systemu — bo zła decyzja oznacza marnowanie zasobów obliczeniowych na ślepe uliczki.

## Wymagania sprzętowe — jeden GPU wystarczy

Jedna z kluczowych idei Karpathy'ego: AutoResearch powinien być dostępny dla badaczy bez dostępu do klastrów obliczeniowych.

System jest zoptymalizowany pod: - Jeden GPU NVIDIA (RTX 4090, A100 lub H100) - Możliwość pracy w chmurze (Vast.ai, RunPod, Lambda Labs — od 1-3 USD/h) - Integracja z Hugging Face Hub — gotowe modele bazowe bez trenowania od zera

W praktyce: eksperyment, który normalnie wymagałby tygodnia pracy badacza i klastra GPU, może być zrealizowany przez jedną noc na wynajętym A100 za 20-50 USD.

## Integracja z ekosystemem ML

AutoResearch jest zbudowany jako warstwa orkiestracji nad istniejącymi narzędziami:

**Frameworki treningowe:** - PyTorch (przez Lightning) - Hugging Face Trainer + PEFT (LoRA, QLoRA) - JAX/Flax (eksperymentalne)

**Tracking eksperymentów:** - Weights & Biases (W&B) - MLflow - TensorBoard

**Bazy wiedzy:** - arXiv (przez Semantic Scholar API) - Papers With Code (benchmarki) - Własne notatki badacza (Obsidian, Notion)

**Środowisko:** - Docker containers dla reproducibility - Git automatyczny commit po każdym eksperymencie

## Konkretny przykład: optymalizacja fine-tuningu

Wyobraź sobie scenariusz: chcesz fine-tuningować LLaMA-3 8B na danych branżowych, ale nie wiesz, jaka kombinacja hiperparametrów da najlepsze wyniki.

Bez AutoResearch: manualne testowanie, tydzień pracy, notatki w arkuszu.

Z AutoResearch:

1. Definiujesz zakres poszukiwań (learning rate: 1e-5 do 1e-3, LoRA rank: 8, 16, 32, 64) 2. Definiujesz metrykę sukcesu (perplexity na zbiorze walidacyjnym) 3. Uruchamiasz agenty i idziesz spać 4. Rano masz raport: "Najlepsze wyniki dla lr=3e-4, rank=32, batch_size=8. Krzywa uczenia stabilna. Rekomendacja: uruchomić pełny trening na większym zbiorze."

System mógł zrealizować 20-30 mini-eksperymentów przez noc, odpowiadając na pytanie, które normalnie zajęłoby tygodnie.

## Ograniczenia i uczciwa ocena

Karpathy wielokrotnie podkreślał, że AutoResearch jest **narzędziem eksperymentalnym**, nie produkcyjnym systemem. Kluczowe ograniczenia:

**1. Jakość hipotez jest ograniczona przez jakość modelu bazowego** Agent generujący hipotezy jest tak dobry, jak model językowy, na którym się opiera. Naprawdę przełomowe idee wciąż wymagają ludzkiej intuicji i doświadczenia.

**2. Ryzyko marnowania zasobów** Bez odpowiedniego monitoringu i limitów, agenty mogą w pętli testować bezsensowne kombinacje. Budżetowanie GPU-godzin jest kluczowe.

**3. Ewaluacja wyników wymaga ludzkiego nadzoru** Metryki automatyczne (perplexity, accuracy) nie zawsze korelują z prawdziwą jakością modelu. Agent może optymalizować pod metryki, które są łatwe do zmierzenia, ale nie są tym, co naprawdę ważne.

**4. Reproducibility jest wyzwaniem** LLM-y generujące kod treningowy mogą wprowadzać subtelne różnice między eksperiamentami, utrudniając porównanie wyników.

## Jak zacząć — praktyczny przewodnik

Jeśli chcesz eksperymentować z podejściem AutoResearch, oto minimalna ścieżka:

**Krok 1: Zainstaluj narzędzia bazowe**

pip install torch transformers peft accelerate pip install wandb mlflow pip install anthropic # lub openai

**Krok 2: Zdefiniuj schemat eksperymentu** Przygotuj plik YAML z zakresem hiperparametrów, metrykami sukcesu i budżetem GPU.

**Krok 3: Napisz agenta orkiestratora** Minimum viable AutoResearch: skrypt Python, który w pętli generuje konfiguracje eksperymentów, uruchamia trening i zapisuje wyniki do struktury danych.

**Krok 4: Podłącz LLM do interpretacji wyników** Dodaj wywołanie API (Claude, GPT-4) do analizy wyników i propozycji kolejnych kroków.

**Krok 5: Uruchom i monitoruj** Zacznij od 5-10 eksperymentów overnight. Zweryfikuj, czy agenty podejmują sensowne decyzje, zanim uruchomisz przez długi weekend.

## Wpływ na branżę AI

AutoResearch Karpathy'ego to część szerszego trendu: **AI-assisted AI research**. W 2025-2026 pojawiły się podobne projekty:

- **AI Scientist** od Sakany AI (Japonia) — autonomiczny agent naukowy, który pisze i recenzuje własne artykuły - **AlphaProof** od DeepMind — AI rozwiązujące problemy matematyczne na poziomie olimpijskim - **ResearchAgent** od Stanford — framework do autonomicznej eksploracji przestrzeni badawczej

Wspólny mianownik: AI zaczyna przyspieszać własny rozwój. Badacze projektują systemy, które pomagają odkrywać nowe techniki szybciej, niż byłoby to możliwe bez AI.

Karpathy nazywa to "science of AI assisted by AI" — i przekonuje, że to fundamentalna zmiana w tym, jak nauka AI będzie wyglądać za 5-10 lat.

---

## MKM Labs — automatyzujemy procesy R&D

Jeśli prowadzisz firmę technologiczną, dział data science lub startup i szukasz sposobu na przyspieszenie eksperymentów ML — MKM Labs może pomóc zaprojektować system orkiestracji agentów dostosowany do Twojego stosu technologicznego i skali.

Dowiedz się więcej na [mikamait.pl](https://mikamait.pl) lub skontaktuj się bezpośrednio.

AutoResearch Andrej Karpathy agenci AI badania AI GPU PyTorch automatyzacja machine learning
Udostępnij:

Potrzebujesz podobnego rozwiązania?

Porozmawiajmy o Twoim projekcie

Pierwsza rozmowa jest bezpłatna. Opisz nam swój pomysł — odpowiemy w ciągu jednego dnia roboczego.

Umów bezpłatną rozmowę
Wróć do wszystkich artykułów