<p align="center">
  <a href="https://swebench.com">
    <img src="../../assets/figures/swellama_banner_nobg.svg" style="height: 10em" alt="Kawi the SWE-Llama" />
  </a>
</p>

<div align="center">

 | [æ—¥æœ¬èªž](README_JP.md) | [English](https://github.com/swe-bench/SWE-bench) | [ä¸æ–‡ç®€ä½“](README_CN.md) | [ä¸æ–‡ç¹é«”](README_TW.md) |

</div>


---
<p align="center">
ä½ å¯ä»¥åœ¨æˆ‘å€‘çš„ICLR 2024çš„è«–æ–‡<a href="http://swe-bench.github.io/paper.pdf">ã€ŠSWE-bench: Can Language Models Resolve Real-World GitHub Issues?ã€‹</a>ä¸æ‰¾åˆ°æˆ‘å€‘çš„ä»£ç¢¼å’Œæ•¸æ“š
    </br>
    </br>
    <a href="https://www.python.org/">
        <img alt="Build" src="https://img.shields.io/badge/Python-3.8+-1f425f.svg?color=purple">
    </a>
    <a href="https://copyright.princeton.edu/policy">
        <img alt="License" src="https://img.shields.io/badge/License-MIT-blue">
    </a>
    <a href="https://badge.fury.io/py/swebench">
        <img src="https://badge.fury.io/py/swebench.svg">
    </a>
</p>

è«‹è¨ªå•æˆ‘å€‘çš„[ç¶²ç«™](http://swe-bench.github.io)æŸ¥çœ‹å…¬å…±æŽ’è¡Œæ¦œï¼Œä¸¦æŸ¥çœ‹[æ›´æ”¹æ—¥èªŒ](https://github.com/swe-bench/SWE-bench/blob/master/CHANGELOG.md)ä»¥ç²å–æœ‰é—œ SWE-bench åŸºæº–æœ€æ–°æ›´æ–°çš„ä¿¡æ¯ã€‚

## ðŸ” ç›¸é—œé …ç›®

æŸ¥çœ‹SWE-benchç”Ÿæ…‹ç³»çµ±ä¸çš„å…¶ä»–é …ç›®ï¼
<div style="text-align:center">
    <a href="https://swe-agent.com">
        <img src="../../assets/icons/swe-agent-button.svg" alt="SWE-agent" style="max-height: 5em; border: 2px solid rgb(0, 0, 0); border-radius: 5px; padding: 5px;"/>
    </a>
    <a href="https://swe-rex.com">
        <img src="../../assets/icons/swe-rex-button.svg" alt="SWE-rex" style="max-height: 5em; border: 2px solid rgb(0, 0, 0); border-radius: 5px; padding: 5px;"/>
    </a>
    <a href="https://swebench.com/sb-cli">
        <img src="../../assets/icons/sb-cli-button.svg" alt="SWE-bench CLI" style="max-height: 5em; border: 2px solid rgb(0, 0, 0); border-radius: 5px; padding: 5px;"/>
    </a>
</div>

## ðŸ‘‹ æ¦‚è¿°

SWE-benchæ˜¯ä¸€å€‹ç”¨æ–¼è©•ä¼°å¤§åž‹èªžè¨€æ¨¡åž‹åœ¨çœŸå¯¦ä¸–ç•Œè»Ÿé«”å•é¡Œä¸Šè¡¨ç¾çš„åŸºæº–æ¸¬è©¦,é€™äº›å•é¡Œæ”¶é›†è‡ªGitHubã€‚
çµ¦å®šä¸€å€‹*ç¨‹å¼ç¢¼åº«*å’Œä¸€å€‹*å•é¡Œ*,èªžè¨€æ¨¡åž‹çš„ä»»å‹™æ˜¯ç”Ÿæˆä¸€å€‹*è£œä¸*ä¾†è§£æ±ºæè¿°çš„å•é¡Œã€‚

<img src="../../assets/figures/teaser.png">

è¦è¨ªå•SWE-bench,è¤‡è£½ä¸¦é‹è¡Œä»¥ä¸‹ç¨‹å¼ç¢¼:
```python
from datasets import load_dataset
swebench = load_dataset('princeton-nlp/SWE-bench', split='test')
```

## ðŸš€ è¨ç½®

SWE-benchä½¿ç”¨Dockeré€²è¡Œå¯é‡ç¾çš„è©•ä¼°ã€‚
æŒ‰ç…§[Dockerå®‰è£æŒ‡å—](https://docs.docker.com/engine/install/)ä¸çš„èªªæ˜Žåœ¨ä½ çš„æ©Ÿå™¨ä¸Šå®‰è£Dockerã€‚
å¦‚æžœä½ åœ¨Linuxä¸Šé€²è¡Œè¨ç½®,æˆ‘å€‘å»ºè°ä½ ä¹ŸæŸ¥çœ‹[å®‰è£å¾Œæ¥é©Ÿ](https://docs.docker.com/engine/install/linux-postinstall/)ã€‚

æœ€å¾Œ,è¦å¾žæºä»£ç¢¼æ§‹å»ºSWE-bench,è«‹æŒ‰ç…§ä»¥ä¸‹æ¥é©Ÿæ“ä½œ:
```bash
git clone git@github.com:princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .
```

é€šéŽé‹è¡Œä»¥ä¸‹å‘½ä»¤æ¸¬è©¦ä½ çš„å®‰è£:
```bash
python -m swebench.harness.run_evaluation \
    --predictions_path gold \
    --max_workers 1 \
    --instance_ids sympy__sympy-20590 \
    --run_id validate-gold
```

## ðŸ’½ ä½¿ç”¨

> [!è¦å‘Š]
> åœ¨SWE-benchä¸Šé‹è¡Œå¿«é€Ÿè©•ä¼°å¯èƒ½æœƒæ¶ˆè€—å¤§é‡è³‡æº
> æˆ‘å€‘å»ºè°åœ¨ä¸€å°å…·æœ‰è‡³å°‘120GBå¯ç”¨å˜å„²ç©ºé–“ã€16GB RAMå’Œ8å€‹CPUæ ¸å¿ƒçš„`x86_64`æ©Ÿå™¨ä¸Šé‹è¡Œè©•ä¼°å·¥å…·ã€‚
> ä½ å¯èƒ½éœ€è¦å˜—è©¦èª¿æ•´`--max_workers`åƒæ•¸ä»¥æ‰¾åˆ°é©åˆä½ æ©Ÿå™¨çš„æœ€ä½³å·¥ä½œé€²ç¨‹æ•¸,ä½†æˆ‘å€‘å»ºè°ä½¿ç”¨å°‘æ–¼`min(0.75 * os.cpu_count(), 24)`çš„æ•¸å€¼ã€‚
>
> å¦‚æžœä½¿ç”¨docker desktopé‹è¡Œ,è«‹ç¢ºä¿å¢žåŠ ä½ çš„è™›æ“¬ç£ç›¤ç©ºé–“ä»¥æœ‰ç´„120GBçš„å¯ç”¨ç©ºé–“,ä¸¦æ ¹æ“šä¸Šè¿°å»ºè°ç‚ºdockerè¨ç½®å¯ç”¨çš„CPUæ•¸é‡ä¾†è¨ç½®max_workersã€‚
>
> å°`arm64`æ©Ÿå™¨çš„æ”¯æŒä»è™•æ–¼å¯¦é©—éšŽæ®µã€‚

ä½¿ç”¨ä»¥ä¸‹å‘½ä»¤é€šéŽè©•ä¼°å·¥å…·åœ¨SWE-bench Liteä¸Šè©•ä¼°æ¨¡åž‹é æ¸¬:
```bash
python -m swebench.harness.run_evaluation \
    --dataset_name princeton-nlp/SWE-bench_Lite \
    --predictions_path <é æ¸¬çµæžœè·¯å¾‘> \
    --max_workers <å·¥ä½œé€²ç¨‹æ•¸> \
    --run_id <é‹è¡ŒID>
    # ä½¿ç”¨ --predictions_path 'gold' ä¾†é©—è‰é»ƒé‡‘è£œä¸
    # ä½¿ç”¨ --run_id ä¾†å‘½åè©•ä¼°é‹è¡Œ
```

é€™å€‹å‘½ä»¤å°‡åœ¨ç•¶å‰ç›®éŒ„ä¸ç”Ÿæˆdockeræ§‹å»ºæ—¥èªŒ(`logs/build_images`)å’Œè©•ä¼°æ—¥èªŒ(`logs/run_evaluation`)ã€‚

æœ€çµ‚çš„è©•ä¼°çµæžœå°‡å˜å„²åœ¨`evaluation_results`ç›®éŒ„ä¸ã€‚

è¦æŸ¥çœ‹è©•ä¼°å·¥å…·çš„å®Œæ•´åƒæ•¸åˆ—è¡¨,è«‹é‹è¡Œ:
```bash
python -m swebench.harness.run_evaluation --help
```

æ¤å¤–,SWE-Benchå„²å˜åº«é‚„å¯ä»¥å¹«åŠ©ä½ :
* åœ¨æˆ‘å€‘é è™•ç†çš„æ•¸æ“šé›†ä¸Šè¨“ç·´ä½ è‡ªå·±çš„æ¨¡åž‹
* åœ¨ç¾æœ‰æ¨¡åž‹ä¸Šé‹è¡Œ[æŽ¨ç†](https://github.com/swe-bench/SWE-bench/blob/main/swebench/inference/README.md)(ç„¡è«–æ˜¯ä½ æœ¬åœ°çš„æ¨¡åž‹å¦‚LLaMA,é‚„æ˜¯ä½ é€šéŽAPIè¨ªå•çš„æ¨¡åž‹å¦‚GPT-4)ã€‚æŽ¨ç†æ¥é©Ÿæ˜¯æŒ‡çµ¦å®šä¸€å€‹å„²å˜åº«å’Œä¸€å€‹å•é¡Œ,è®“æ¨¡åž‹å˜—è©¦ç”Ÿæˆä¿®å¾©æ–¹æ¡ˆã€‚
* åœ¨ä½ è‡ªå·±çš„å„²å˜åº«ä¸Šé‹è¡ŒSWE-benchçš„[æ•¸æ“šæ”¶é›†ç¨‹åº](https://github.com/swe-bench/SWE-bench/blob/main/swebench/collect/),ä»¥å‰µå»ºæ–°çš„SWE-Benchä»»å‹™ã€‚

## â¬‡ï¸ ä¸‹è¼‰

| æ•¸æ“šé›† | æ¨¡åž‹ |
| - | - |
| [ðŸ¤— SWE-bench](https://huggingface.co/datasets/princeton-nlp/SWE-bench) | [ðŸ¦™ SWE-Llama 13b](https://huggingface.co/princeton-nlp/SWE-Llama-13b) |
| [ðŸ¤— "Oracle" æª¢ç´¢](https://huggingface.co/datasets/princeton-nlp/SWE-bench_oracle) | [ðŸ¦™ SWE-Llama 13b (PEFT)](https://huggingface.co/princeton-nlp/SWE-Llama-13b-peft) |
| [ðŸ¤— BM25 æª¢ç´¢ 13K](https://huggingface.co/datasets/princeton-nlp/SWE-bench_bm25_13K) | [ðŸ¦™ SWE-Llama 7b](https://huggingface.co/princeton-nlp/SWE-Llama-7b) |
| [ðŸ¤— BM25 æª¢ç´¢ 27K](https://huggingface.co/datasets/princeton-nlp/SWE-bench_bm25_27K) | [ðŸ¦™ SWE-Llama 7b (PEFT)](https://huggingface.co/princeton-nlp/SWE-Llama-7b-peft) |
| [ðŸ¤— BM25 æª¢ç´¢ 40K](https://huggingface.co/datasets/princeton-nlp/SWE-bench_bm25_40K) | |
| [ðŸ¤— BM25 æª¢ç´¢ 50K (Llama tokens)](https://huggingface.co/datasets/princeton-nlp/SWE-bench_bm25_50k_llama)   | |

## ðŸŽ æ•™ç¨‹

æˆ‘å€‘é‚„ç·¨å¯«äº†ä»¥ä¸‹åšå®¢æ–‡ç« ,ä»‹ç´¹å¦‚ä½•ä½¿ç”¨SWE-benchçš„ä¸åŒéƒ¨åˆ†ã€‚
å¦‚æžœä½ æƒ³çœ‹åˆ°é—œæ–¼ç‰¹å®šä¸»é¡Œçš„æ–‡ç« ,è«‹é€šéŽissueå‘Šè¨´æˆ‘å€‘ã€‚
* [2023å¹´11æœˆ1æ—¥] ç‚ºSWE-Benchæ”¶é›†è©•ä¼°ä»»å‹™ ([ðŸ”—](https://github.com/swe-bench/SWE-bench/blob/main/assets/collection.md))
* [2023å¹´11æœˆ6æ—¥] åœ¨SWE-benchä¸Šé€²è¡Œè©•ä¼° ([ðŸ”—](https://github.com/swe-bench/SWE-bench/blob/main/assets/evaluation.md))

## ðŸ’« è²¢ç»

æˆ‘å€‘å¾ˆæ¨‚æ„è½å–æ›´å»£æ³›çš„NLPã€æ©Ÿå™¨å¸ç¿’å’Œè»Ÿé«”å·¥ç¨‹ç ”ç©¶ç¤¾å€çš„æ„è¦‹,æˆ‘å€‘æ¡è¿Žä»»ä½•è²¢ç»ã€æ‹‰å–è«‹æ±‚æˆ–å•é¡Œï¼
è¦é€™æ¨£åš,è«‹æäº¤æ–°çš„æ‹‰å–è«‹æ±‚æˆ–å•é¡Œ,ä¸¦ç›¸æ‡‰åœ°å¡«å¯«å°æ‡‰çš„æ¨¡æ¿ã€‚æˆ‘å€‘æœƒç›¡å¿«è·Ÿé€²ï¼

è¯ç¹«äºº: [Carlos E. Jimenez](http://www.carlosejimenez.com/) å’Œ [John Yang](https://john-b-yang.github.io/) (éƒµç®±: carlosej@princeton.edu, johnby@stanford.edu)ã€‚

## âœï¸ å¼•ç”¨

å¦‚æžœä½ è¦ºå¾—æˆ‘å€‘çš„å·¥ä½œæœ‰å¹«åŠ©,è«‹ä½¿ç”¨ä»¥ä¸‹å¼•ç”¨ã€‚
```
@inproceedings{
    jimenez2024swebench,
    title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
    author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
    booktitle={The Twelfth International Conference on Learning Representations},
    year={2024},
    url={https://openreview.net/forum?id=VTF8yNQM66}
}
```

## ðŸªª è¨±å¯è‰

MITã€‚æŸ¥çœ‹`LICENSE.md`ã€‚