From 85bc1e35904f9e39d6e557e07f45051d24b9e737 Mon Sep 17 00:00:00 2001
From: "fluoryynx.l" <fluoryynx.l@antgroup.com>
Date: Mon, 8 Dec 2025 16:13:16 +0800
Subject: [PATCH 1/3] Support for gradient accumulation #9

---
 .idea/.gitignore                            |   3 ++
 .idea/vcs.xml                               |   4 ++
 F2LLM/GRADIENT_ACCUMULATION_README.md       |  53 ++++++++++++++++++++
 F2LLM/README.md                             |   6 ++-
 F2LLM/__pycache__/arguments.cpython-313.pyc | Bin 0 -> 2325 bytes
 F2LLM/__pycache__/model.cpython-313.pyc     | Bin 0 -> 2969 bytes
 F2LLM/__pycache__/run.cpython-313.pyc       | Bin 0 -> 10414 bytes
 F2LLM/__pycache__/utils.cpython-313.pyc     | Bin 0 -> 18810 bytes
 F2LLM/arguments.py                          |   2 +
 F2LLM/configs/config.json                   |   3 +-
 F2LLM/run.py                                |   4 +-
 F2LLM/utils.py                              |  28 +++++++----
 12 files changed, 90 insertions(+), 13 deletions(-)
 create mode 100644 .idea/.gitignore
 create mode 100644 .idea/vcs.xml
 create mode 100644 F2LLM/GRADIENT_ACCUMULATION_README.md
 create mode 100644 F2LLM/__pycache__/arguments.cpython-313.pyc
 create mode 100644 F2LLM/__pycache__/model.cpython-313.pyc
 create mode 100644 F2LLM/__pycache__/run.cpython-313.pyc
 create mode 100644 F2LLM/__pycache__/utils.cpython-313.pyc
diff --git a/.idea/.gitignore b/.idea/.gitignore
new file mode 100644
index 0000000..26d3352
--- /dev/null
+++ b/.idea/.gitignore
@@ -0,0 +1,3 @@
+# Default ignored files
+/shelf/
+/workspace.xml
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
new file mode 100644
index 0000000..d843f34
--- /dev/null
+++ b/.idea/vcs.xml
@@ -0,0 +1,4 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings" defaultProject="true" />
+</project>
\ No newline at end of file
diff --git a/F2LLM/GRADIENT_ACCUMULATION_README.md b/F2LLM/GRADIENT_ACCUMULATION_README.md
new file mode 100644
index 0000000..3f43124
--- /dev/null
+++ b/F2LLM/GRADIENT_ACCUMULATION_README.md
@@ -0,0 +1,53 @@
+# Gradient Accumulation in F2LLM
+
+## How Gradient Accumulation Works in This Codebase
+
+1. Set `gradient_accumulation_steps` in the config.json and arguments.py file (default is 1, meaning no accumulation)
+   - e.g: `"gradient_accumulation_steps": 4` will accumulate gradients over 4 micro-batches
+
+
+2. `utils.py`:
+   ```python
+   # Scale loss by gradient accumulation steps to maintain same effective learning rate
+   loss_total = loss_total / args.gradient_accumulation_steps
+
+   # Update step only after gradient_accumulation_steps
+   if (completed_steps + 1) % args.gradient_accumulation_steps == 0:
+       optimizer.step()
+       lr_scheduler.step()
+       optimizer.zero_grad()
+   ```
+   - Without accumulation: Process 1 batch of size N → compute loss → update parameters
+   - With accumulation: Process 4 micro-batches of size N/4 → accumulate gradients → update parameters
+
+   Both result in same parameter update if learning rate is properly scaled
+
+
+## Example
+
+Let's say you have:
+- Desired effective batch size: 32
+- GPU memory only allows: 8 samples per batch
+
+**Without Gradient Accumulation**:
+- You're limited to batch size 8
+- Effective batch size = 8
+- May result in suboptimal training dynamics
+
+**With Gradient Accumulation (steps=4)**:
+- Process 4 micro-batches of size 8 each
+- Effective batch size = 32 (4 × 8)
+- Same training dynamics as a batch size of 32
+- Better gradient estimates due to larger effective batch size
+
+## Configuration Example
+
+To use gradient accumulation, modify your config file:
+```json
+{
+  "train_batch_size": 8,
+  "gradient_accumulation_steps": 4,
+  // This gives you an effective batch size of 32 (8 * 4)
+  // while only using memory for 8 samples at a time
+}
+```
\ No newline at end of file
diff --git a/F2LLM/README.md b/F2LLM/README.md
index 6b79819..b0adba9 100644
--- a/F2LLM/README.md
+++ b/F2LLM/README.md
@@ -27,11 +27,15 @@ In this repo we provide a streamlined and efficient script for training embeddin
 - Setup environment following `requirements.txt`. We note that transformers>=4.51.0 is required for training Qwen3 models.
 - Download data and backbone models from Hugging Face (we use Qwen3 models).
 - Run `tokenize_data_qwen.py` to tokenize the downloaded data
-- Modify model path, data path, and other arguments in `configs/config.json`.
+- Modify model path, data path, and other arguments in `configs/config.json`. Note that you can configure gradient accumulation using the `gradient_accumulation_steps` parameter to enable training with larger effective batch sizes on resource-constrained hardware.
 - Start training with `accelerate launch --config_file configs/accelerate_config.yaml run.py --config configs/config.json`.
 
 Note: we recommend setting `num_processes` to 1 in `configs/accelerate_config.yaml` and launch the training code once to generate cache for training data before starting the actual training.
 
+### Gradient Accumulation
+
+The training script supports gradient accumulation to enable training with larger effective batch sizes on resource-constrained hardware. This feature allows users to simulate large batch training by accumulating gradients over multiple smaller batches before performing optimization steps. Configure gradient accumulation by setting the `gradient_accumulation_steps` parameter in your config file - the default value is 1 (no accumulation). For example, with `train_batch_size=8` and `gradient_accumulation_steps=4`, the effective batch size becomes 32.
+
 For multi-node training, run on the main node:
 
 ```
diff --git a/F2LLM/__pycache__/arguments.cpython-313.pyc b/F2LLM/__pycache__/arguments.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f6c42de98cede151da5a675fdfbeeeca560257c7
GIT binary patch
literal 2325
zcmai0OKcle6n$eqJO0K_9LL|pZjyf7k^*WIKBcK>N<j@xAy&k~kw(+;#F=7`-8W<U
z0VGRBq7_0IP}Q&^8>Av3#D)b+Sg>|5DArS@n$IReNRc8Gi4ENQ{GnvS9r?~Z_xI+_
zyZ4TF{eBMt+IV|bZ&N~kMbINhSJ-_Cgu5h5veE*%ATjBJjoH$OZ3}j07kA3&iWDUi
zBx{e8ES<4+VrRN3m?P_m6Xq<~GR|$(Wo+D?S1d&>DyGSuika6{Yf<gGi<`X*c9Rk=
zze1RlCCrwUnEfDGp(~E8?J&3q$=;V}Uvl&%XI~mXDeGd+l>vx%3*=!gfxH6wn0v(o
zHoriF%qvhppdj-JG$hb4^NYBUKqG8Wps+xrEFe%sAc+M9iV75CLjuJG8fL=+CAugi
zP*R{VHX_itKq(d$C@s(dc%7r!2^J|#W~MlOo)ye(JTUGlmGfFrt|-<T_iNWH8q-Uf
zVaa-)d&*U-Qnlo~&bZUMEbeYqQP(sf1}vuNhK$D|!na+RFWAvuRxEW*HuamDPC(BG
zOUiZG)UL`!%_vxFh3Wa^@4w8(&v1WHQ<$L}1(_+9R(Su9uQ&F-|7wmqOOU(B3U7{l
z`Qpzv-#Np5*EGGb22Z1@%8l(juI0O?uu`=mo0e8Fw+DpEsFvh4h2>>KD{TJ_#J!y-
z5>DLL0a~T3u9@2-BBWR@$hu)^><y*JL$E#d^-38O_)wjwAXs$Rs9rX@i$RSMo+vOS
zujAWNRJB^F79a6oSkl~&k5ge~RWnV^R57YYSg-iojRLz%a(&w}nd!<?BqJ?mBnF)Z
z5~rqCTs6^_=01fLs(4W5@yZQOu^qS@PxUy8li*|efYr!@K)9ZN@2!R_u?v`dP8Ks!
z?viCgDQU9IJ+cf1P%WbDljW;brP#FuWO-F*rd8Ap%_xJ}Zd#0kRxymSC3b4cG7CUb
zZilzUf*`RWgpSo>S+UqKDniJ@$RfyM$l}P7$i|S3BTFMYfb1YJ9+u%n!y>AzSQgVS
zS1k=!JAw{a&}<5sv&XQM&2NCcOLm-OXyn$VR%o<IN87;=h`zwBg;rqr)?zyxZPI8f
zIo6;fb+t*yTJiDPVtu|z$6JY1?P7hVNmH$nXzl#%7tj%`FV_#EHJSivvPl!|Xsjc}
z+L2gop&n||SgWsVMdKZ7yp@`0(8xNNCtAr=cfC~m@R0^hZGiSjI}(KjPrx#NQpu6*
z><Txe!mm%L5LL1c=MGiUH!O8WW?uoq1nCV>gDjJ!-avlDB`f7HqoAzq8Cx3t+&#^|
z_kJEJ=j~~ir6nw>eblQ}8!>FT!Jcsmi(wy4kY!uX+rZBNT)n}cCOIq=L0S3)dCh)K
znw1Q?OqZ}n_t7AHHo!8vPYrO8oB&Hve5B9{Uf5py=zrt;`&_0|<N$e$VBI0*;S^Tk
zt))mBuEpGGdy1?|8OP#H*YvbnHdgflHmY@_qH*bQQLY(3cR{mO6lQ9C5L#5U?JEcw
zv~fN!_ga}v!wTFZJW*+KTCQjYcXkqUdc`aooI-EqJC%>yWO#ZE4=Ll|P7%wv9iq9k
z%AUo96jPa43~8iJ=RA#3$gr8r&w#<G@Q1hjQ$P5pn*Kwz^DXMxqLEFgVb2#KDCJE$
z-SPytJc&(DqUjl{%|CGaZ>t|%xpU=5cWnLD2Sed|v5#WwPkx-d?cB2yPy9D;;LcqA
z(4D#3xmIlK)6^%aMl^GO=>EyAW2ZNdoo*bRYmA<$oqOj}D;&F*`!H9(xG}VGa%*yC
zb8@CJG20k^3XBUaZ=klY=Y@PfxnqBcq4sSca`u${yHlQd_dsTVd;5P3G?QVkh<VAd
zgxM)%VoHb&|95<F*K?iOH^<I`9~><)j{@7VOOo`EWFC?*3=^Ao&o(Y4cL=auJHQ=;
MyJsc06ckPS58dw|SO5S3

literal 0
HcmV?d00001

diff --git a/F2LLM/__pycache__/model.cpython-313.pyc b/F2LLM/__pycache__/model.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6009551f4879996e6d10e6d9cacd495c32bf5335
GIT binary patch
literal 2969
zcmb^zOKcm*b#``_q)1A(q*xXu$5Cv@3gJkM6-z~o{46_;ziP}iQx$Z*S&>U}#pP0(
zS<05bIR!G1Ao0O)4m}vXH0`D7EysQ?K`&ieDlAL|BtU!7O_5v#IkoTYawWw{ffmRB
z`#v-8y?Hb9KD*K09w#tnua8;lDk1+sCLBtO*mx0$dqg9ebe1s0^sID-GI~a4@&M^2
z`-mp@5ltDTfd*5`Qd(U_W+F{R+p&gQKVL7JwrEH4V!diQ)-{tA0`UO0bjijr@b}0i
z!X%9_s!2@VOZE~iihE2;Owp7+!c<KK7||juTBhlkP*0AWJ9mB+jzA^~q2p*c3ZD$$
zMp8nvlP}sh>yLc6CCP5rXszamje7pj2ymM+dH>3AA)5@=x5IrTCuvfSWFy;W16re+
z{IUYJ&?|pvz-2o^ZVP93ZqXrSw}n*xsgU|_9*n|iall@QfFfjaz~1z?Ow#JaMbTNZ
z4PMa=*EJp2syq5fS{9uyYj9U*X07g;dI26zB-}bHRP>@dKVyn+5O;K|He;JLP%}{R
zWV&4_1}k%+`l2E>RkG`bdw5K!fmWnw&RGSM;iZZlC04KLGt6|EVL4_|P`f4~g}PI+
z%A&2oVOyh6F&W;uXmi7W5gj$-s?N<>-8P-FTS+TI;ig>@@fwDgK4Z8Qwi|R<I{=Q_
z12Du`CdW<2GqzPL*^N4zpLecij)Tfc*lOs_+LT!=T27f~{3y!!#)fC+MNHQ%$8vRD
zboeX7A&+m%rvbc2){<mb>VvkGU48d2-@Uw`d=Ovm=>wEl>FR&fb?9N&p-<0zalpIu
z?xRbk=B3gaAvdMB>DPpGU!WisUEcrvg7Q)HPV}RWI~_~0ftA$3N2#%gsj<(lEvCjn
zqGNgQ3xA9CZ@_M((0W#+35Ks9+DC!72Tz^F*(XMJGsw3VASgENKp;qvq^uj3Sto$B
z#Cid7lo()r07aaet{yy}*cn{J)(nOsN5%ID9Q=OyZu!1**I7_LOt7b6wy=GF3`O7L
z8!!tVL!w~DIyArOPkuA$V3p!(7|NQQqeCz;1nCD9*a}x18P1NPPmIt4V8yr8^2Jed
z$`7Tdqvm6wiR@;Qhcg7~Tpr`fA2}NC-c8<#aGD{Uc9T<Ggw)MRLsN0TTm+#OL60-i
z5&txA)AMj+2{HikP9(JP|LhyyLs)HpjQw-67Ckyihyf`B^}TIaK0y9=pF)qm^LG9X
zgy;J)ea-F&USK<%+^@w(TagoZ&uMVOCAjDBQ|b7Gpi^A5S<Xzu)vY35#n=!XTa~b8
z@T!QlY7Jk-0A(n%`fnIeC3|KYCYy(n!?{s5^^$404Q6uD8_tAyb0y`NWhj<&=J%AK
zfytKR3K`0ppNXOq>awd>tYXo0bPhGvWY{Hy3Ur|=RAxA3Qz&zmc_kh76IQ5GhFhqx
zeJGZ68a2IQu%ZroifFyz!ZEq%f6^!2ux;HhuUtqL$F_t86Go8v(NdjV0W+dKNc$Fx
zC6@QVZ9vYqcYS>1PJV%|?C$&J@dxUIYI9&@anDPi8K2YN7n^&Iem>Rge`9g?v4!MU
zT|M^)?+$+Q+=E23?}g>wr@g(y&ECw0OuPFQqH8fSIQ;0~>&=6&d$IlhJb38W)n8SY
z8rQt*H<uc>7DsMBY~1o@X1|#AeqLy5Mb9iXwX#>SnwsThr@fy}FTGT4Hf}XXZbPLU
zJVsZZANpP5w~3`IH@us-q3Vv);}p;ddJ>E8IH1RbT$SFUAU=AEt_O_AxOXAz<;`ZU
z<drMUoaIedo4KlY(e^IbOQSW=MI}I>1gh!NboubBf9PC1JpSoZUq_Xl@in5f#UDq=
zX=y_GYvL~n*k+Rc0{6a5bwuydDb&9V2-b?UjFS~wL*&q_xK^R_XuL?Tp~xh?j$BT<
zfo>uPk{Z28y;%m-4aq;!9JmGCDS8?$%)uWTaA)bcfIEj=LpqO$0Rpq{NE5h*_5h)E
z*yOZylYWC}T!u+Rpm1D%6H!k7ne2;9%3CM>R*c;KcAesNAVM=7sv!B}VCqCB_9uWx
z;(vZMb>ih@I^wrwzss<lAQChkzhCzNo2C}_v<b)tXuOV5GokUubsgGq!$vx(>$45R
zZmsOl^^(Q7Yr_wOQ`dFYk0zf%@Dl)Hm+mKyRlwgHW=%C*lk56#h~Jj{@MhS?eSmeE
zrvSW9)*|HD1JKDHN0aK%`W{Jr?q891H6Cc8LRt+{F$w=J4u_1W!LNn?TjT$(1V&#&
r%h>;dJc_*%9O5<h2FzhC;ky8=$&w`fog}{`hrfwDBgNMV0AKAt75R<X

literal 0
HcmV?d00001

diff --git a/F2LLM/__pycache__/run.cpython-313.pyc b/F2LLM/__pycache__/run.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dbdf9f213d3d721664280fa54bb1f5f4a7ea7c36
GIT binary patch
literal 10414
zcmbt3TX0*)b$cHG@gfKkAVE@mTs}k*q)3XQ9wsf4rbJ2<A5x4<$d(2B8U!vWNFV_1
z1!YNTJ8+uBl9N=FTUS)#iRrX6k(y~LXEGBfKk=g<?$n*Z6*vNPV@>U}Kc04`dN_48
zlaHRg7Z;bL=(vw1xO;Z@?AhJ3=bSxf@59nk8-g_bCwrp*R*lfVkcyrh1>j+`6`|J=
zk9cYlO;DKP2ux4X6AWf1Sj?(*X3{ia#^#9<Try$77PXC?v|=mZvXeG!Q%gIxLus0H
zOqAkM6~{d3oG8O(DqJ$@nkdKRDr}jom~dlvfsO}zV4QWba-s@Xscp7N??g4OR$=>O
z%|tD(1=ta^`uFG?FiO638&rZ+GumBf#C5^)HMRO+y?>v9uS3DQSVIx6_Ydo^Q3mUF
zQ(6sXch(}z@nw)V1xuQNOGY2iA2mklP<sIgVOX8je^75X%4QU-^N$;K9daVx#h3Tf
z913m)9IJmy?=edMQ3KYY&8hJfyJ-!Bck2+1aC^|^_v<5#Qe9KPsOyl<+h9BI;Vb(Y
z;0R0pbc!76fj^1Hop^h&OI>wPA8V8<^%sn~4(YtqOE((7fyf%${UII4DETTKk4GkG
z#=XH(I1%svic_1cBG|6)1~?fp=F=g*x}V`|)EWDNeg3H4Zj^j&u(yW_?uLE#>1*tQ
z0Xkhw#w{55I>c{*6GwbqKLZ$@{)FCcl)>I$pEma{TBi*1vHeSN>&ZIT;!ghrAv=OG
zW`EM4t3&F^fTV6r`doM**y%>c&@oD4cECBq3DqF92$Geg0w`G4i~<zz0=}KyNCBk3
ziErp<1$ugmwgQQXQ*ng%1-E}C#m4^?#ldO>a=_IhzNyIZA-)k01C{jS>*CQs1wx@-
zSm6kaYpzAXeg1Dfj;G7MyJ%r_t^nO{KaNjM9IVSzdJpe{6>Mr@_?FFA1{R>TkI`p=
zGpqfw^MUaf^?8gkSjTS#S*i)v_+K?zb;$oc9WqLNk1*Fp>sAeOZ%*g3F<yssI<T%K
zz0D}0^);iWLwp;*t)ImcK?|HhdvF4<{!;HVN@z_RH67x8Fmej|Hj_KIaSQmrua7WF
z{~HFZLwtvNo7DM#sJ9qp@c%-uQ>9n$f6JhwLz{CI_CK|o(Qp=_4A#WP^bvRh_FCir
zE4^-%I^W^^hTy#R>9T|U!9o9z4Llvv@j;JkH9f{NH~><***XI{wcucIhU{m$u3$@s
zi?<w5QSF|;i2Fa%jW5xQ?VF$WV|u|5y$IF^Yl5&(!nyUfceh2`FNfyYCbS*ttBp_y
z&B6WJ2=<UehnOS6Ak&EEC<)p$>of;8&VYSgpAkYnO0gwFSQ3R0o|k;I;tGYsVob!L
zlqjTdC>mG12c|}N{_w%W2S#QNA3Y+Bj?9ekV>7&uQA$S^Q;C_xX)zwXAY#QLi77!6
z#fVZmPoVHgF|r7>j=(IASRxb=BB4|WkjSi~08T-hh@oa5(PvGNs%uS^Pr*_Mfh3HV
z#50RxJWT4Qkw|Fa83G*KIW;w{nC3z;NmQz4j!uppIsDw1pBKJ1;vbos8k;)IPlpQ*
zgUUQJ<P7{jybamwD1g9d(-KWCdk~%ygc8j>7=IRhjh?n@Vi9NJbbtXowut9MD9)Y$
zwreTC>S6+;T!m34z$nh_XLVeoY(^(wJ}m{9p5nEt(~6q|W<RW9V+xpbj8^Sf={Q|D
zU^>pup&Qf@pGje2Vq7t$5;%NPF{i}1l)wrjEiNb~DH)5Vd?kuC8c!~!glI%kN)|%r
z1TugjHI^KeLY-4sXp(RhEI=YF<+P-j@nXC?d0sIKQYsWajXCIp>k~=OLzYH&wsvRj
zJwH0W9A2_4dA~FL*75Xc#@=(Mj?3DczCXHj=DP=$s6RV+ZIm=OeOy{`IrwVujh5xe
z%Kjg8WlP)B2lMvw%lj_vTV}KN`V3qD=s^i`?0BTun<Nqge9Jk~#9pf$X=B616M$wC
z1gIzb5pbQHEKd=qfu~7+0{*r1BoraQ;F+UkfB1aj6gUCQz_Wl4ba|?WI@*4M$d8)*
z1!dIhq=XZ->-7_*Is|TIVV!yzp!5qpPM;{#@l;u4iZVuIv5z;A)f=)X(Q#%|JoDpt
zT`*F^1<3{ZQYG9ARCl^T>c>Hb69@Q`0LwE36O56ik5Q>Gx(rXlsS+m(j0hW7vDR=5
z<a}c)?#grmToEn#JvwBR;9i+PpUlO*x?wGIepuVa#8W!YfCrU@)zERX-Wo4CK_pL2
z0TXXM0ft*kelY4A6L0Hh;--Mf-?*^{B;*f{)aUazJw8&ueBzd8p9xq_wCEUtVo<eS
z7I}NOsi?V3QFC=j<#n;uJcoRa3-@iHiSwzGTw;zZYV80wD{&oM`%bQti!Uw+Cqp<Q
z#Kn1^Z3ou{eO<i+9GFaeUK_%JYTIB$7q_!R>r93uDKsyx=_Wk|gwC}j2`NIJ1M=Kl
z0&`MmAsG|7UK<&)4z;5_+STjZj7SG`Y)&T1wMV%*oLJy`xl{s{?z3THIu%FZ(h%aI
z1@SYYMV~?JkCZZXUqX=;N_k-~YnrUE)=(;XRumMQ(L4k9oP9Qw3ZE3_qF72PrEs@I
zqVaj*Y$&!U`b?O}6S>aL5Q8Ww&QJ=hXDXVA3kxCXv_j8HxEWA<6__ZC!jj8VajfMQ
z7|2jOl2}m88k@k5Mqwrsw9bpFwN#wM;1=e9bHyOqNHw$yE0Oz@7!SpoDqgSZ4X9SZ
zUMqB51e%HXJSNKJvnp0?M>zBn?ja*xx-7uPBhj!ZDHQyo>fSKKEl4SW$<_Upt>2#{
zksGIA={XJ)O;K#&L@Y+Ug1I<;igd%jM7)kPy5~YQ%_~jU94jx#)w@=oIGU|KdZl+Y
za6A{7lLK?<sZSa@u7|P>J<HS;>F39O@%+!8|NC7ZnLeETN9zZ}nVA=}yF(e)^RcVy
z&bA#{OYe`)uQX-sb*t9;x6aF!-aEdXSxevF)U1qT><z2d#v3)VrSCpNS$BQfJFsdA
z{H*5sNOpAQoii7YFP&K~zalM(%L5sE+p2Y&JUSy=x4m6+%M!S6qOHfM&&|kMnzL+?
zEn6O1P37kF;m;kY%yT*RYV7U)?3Tfw^<O{m=J>Vom8X9=`F6j&Wiaa;N+0@HSKadQ
zo1-6DbK@__@N)_2!}+SltFbGwzwXbq^vf;%*{XqD)v#POoUIy3AN{1J`NQGWSur!0
z$j&D3A#{MAqM?|kkI?r??I@{zjebF^38ZkmNZL#<(vKcgBJ0jaily(-Z!CdF56q};
zNFoydUW0S2-16Q|=UA2PeQU$m7RLvk+Oa0f3^+j+@f?VkkT`w8N@TJ7l$3}o)JvZc
z4T5enhyV!i1xq(Ld!RQdrKA9WD%gmEfhNR2M6BTucx^%?iotIn?w=~>^FKZG=>^YE
z|6>?@KAYMs5D5hVI=MJE7Xv|5y*@T2N+}<MCty;=rir5}$xlJU!7yaSMAVq1hdUs9
z9R(4lc!X)5!VFJixQ^ge%EYsfn|TxDCA=AO3txh*^A-?x`}ATg71jL5&v>A5;csn+
zQ>xo4af!2_VIdBLKGjZ)2G=#jt#LOwP)rVssYM)@xNw3Pv6RTE%N3<=+enHNfxvlA
z5TZa)5P(!%e2LTanM+`BS-B{T#3HCe<VjoVq{xZMMEE2p#v>B<(n&F1pg??H4Ou*Q
zGPEcGI+p<VwcEDNA0>VvLzwY>l^M^vVo+)+fc!eRrt}l+4N1R&;8x#Oc*bZsQS><d
zMK9AB7AS_}o6i!Ufe@PZX*cdX!f-<)AFJ54ZGn)4!Jq+;79_=93>(13EJ<P!#7hKR
z5RBLyCVNn*(+YJ~A}b=6MKdZE;Bh>f5(LGw=0Lmk*5iOI4MCPh`7Ld$mg>BxI_GJX
zJ*_!UhwSON?b&{5^y0|J&0V?X-E#Bpo1tv;6BkEwjyl;<xBPV0(fEKtm0b^k0$S%M
z605Cp{1^bQBg2d5sao)t{6uXwBtIFmAsIZ^A>Bu4MLzn-x+%%V`{4iK6Ogrl`P2fB
zaTkOUl(7JC3k$k&7QJrb&@?zv#QmB_dzm>(J%SsQYVvQ;3f;W}gKG+29b`IBt^4N1
zxOgs!hm^MUOa)sn2;KW)i7<ppL)}F@fsh~;<}+Y)reg3`%f98%U-T`Vxw>a*4^$pK
zB#Zw>bu9(TO&m1sK+WoHDfuW&xG0fj7ml?=AonJms(X_KkY`GX+@5Llaao02F}SiT
z*U~4q^yOLx<d%WemVMcZ!ED)J#xjVB%f3!kh{LTO+;?F*I5?<kX|p3EFL*jP11MHJ
zR5;+G3$KqyXtOX&KUNYT9%G8{gyp(|1!%+BH`EE<1wmB`PBRG{QLH%MT36ps!j%ol
z541NXeHCl=QVa=UFGV-o7`HB<g}WX?j7q(C^W6v35J{f_9PRp|qfORd3~A=IaFZbc
zanV5qNHY!&OzgR0_G`WmgTXx^%8z-{%o2O5S_~}VoodTz@w}v%h>@05p;k&>5~K4c
zQ<9HWrAjfWmK8rkh^V4YMA0xHb}W)d2Ng;2u9dbm9U&MZeGf8_ICss}!Pf>?Dzolw
z7uoMx@?E{Tu0gqLFxPcJ?mDpAHMUxL@K)E@TQe(9FNNOlEQfyJeeIOoHFm4=AmH0R
zuB=&ZeY4|Q$D2LZda|{h*~;ytIX^J;>yBS_WW8g*>bUvz8_e=(u5P<rxBdFla$V2u
z>K(uAkiBCU+3z_XJv5=JL)4?+ddDQf(_dEaf71NEtN8%6K9D8GrUm{V{v707w-$tx
z8<YP26PhJ~-ey{`nc)J=jf9}Sxn%HEKdlAOajF5GSSxwz*SPhB0&2jm%Mr*v4R(y;
z2<`QVYOT0>(9LN$rg`{lLMMuPQG!A<aNJ)q+FuNt4bq0jlOTDsIXBZVLwD7=irQ+>
z{i;!o=m?%e+M64()IJ7Yy>J`|U}ATCR=hyqC}c`W_+)}O<Z8FVg0W8F)1;%6PbHF?
z8w0ThXbO03=M*NHNb2gq5>-)5s<T2KYR+wPp{h>HV;8F0IuEl*E07UOpLbSVK6Uw2
z-tE2m#FZy<?iShIvNHPPiMJ-+VSnxTr6c2R$+*Yf4ax5Di=+2wb7|Yh)pg4=Z$5YJ
zx$CT4-<7TIUNYsYw!CJ)XGLXhLhC!H{_Ara@-#g}Ole!bs`l!sE2nZ*ZE{uHN-A5m
zeTm7tJXdX3Y*(FEoXgUxtA*4ZR~$JPC%d>6_ifkKdnGXR_fjt`@*5+}fokeKbKS^Z
z^j>p0fp^m+-#fD9Kqd1*1*v@Cp$J?_P$6<7eAG-%k>4ttkN9i~cpHR$a4*>eVIe`@
zCINN`!kNWTtk6>?Xfa_d8W-aU=!Uy2k_Za|Ce8>JNtPtp*CA6X1@ioriiQP<pm20{
z5j<c)xPjD*OLcMZQG!e|Vge=dAn|Q<pJq*#2R6pk|G-9>h8~z%(?RNY4y&n68%WR}
za~@Q4@c(umFu8uQdgBwhEI19Am`F7{3xMGZ)b794IkFOZqi^}ln|qe`K;;n*1IC5n
zj;~1E42d2frslxwO>(m$ycmdF!7&`*E;MmpL7)TFryHj7(ewZG5lR0(JRiLL{_om@
zY8c|s?g=3xhC}BSItKU3tO$?GiaDH+;Orn$u_ltK=z{t(?INN1OCh|ln1llplaf+F
zTGUX6#Qj=ZgBIE>M8h~C7~zYMgeYJ>xu|TJ$Dv3R;wS;U-Nl7P2#3j&fI9fX&{yqe
z14lx0ppgbce8&_Lxh*aLc?lC2M=>p?qA>}R3r~AyaKQTF5-@T>gbS1yDNNjYOq?Qx
zPQarr3H!7w*iv{kkuWjXic5V2?p7&wlP*kbw_+>0?II@E(c0(#ZX($tCbn38noue<
z8u566435XOHwwGfp|TsplOik~v`dU(VxN@~F@83RVO``jF_?3(bA<UxoB$grLC|SR
z;%GdDInw_W=`V{)@X!*C>o|&KA#_@Vpj1+9iNzFou_h5Jn@GZQHJc2jPQum`@U4QH
zgNN(Ig(T!8IB{wRs<T3Ig2x&yeuV&8fd_Gj$&?cEHbW?u83P1D789>n4T13?vapf@
zDPUYABEXBt;zC^WTU^>m5&;Y9<GNxFC1H6HrHnjk!A?XK17@?S%+cuYAyf-v4T)1q
zHELR*B`Kxax(ij+nka4(<>F|h@R>%HLdC9)QzcUK)FWg9A~?WJ)k~7_F49ED7L@v;
zJVVSMKAi*(rieC(@z5*;_2k14m`jiW34e=>DUFFCOmtcxpNH@zmGnBTa>TIl*++3j
zL{POPd=L_nvBh~fpEWJvM0_qfkBM7`1B8-|IC2s3EZmGbM+mpIO{)&1;RX6=e2$Ev
zBa#~X?ATF=C--S)eF(n~-QYSQ=~>X9dkjTUcM<o`=*cf=mV)ON$iA>4syd6jcTv+_
zwCyfxzKgnkgB*8J=Ur5P7kNL~)}5wbvAt}|*jr@O`e{k|pZ-yrz2mI;&O+LrujF!-
z-Ew7jnq5T|d1TL_av7B`wXP!X1D2&49yqJ07wP*u5oNtt{!M$Hapsr?_~lviE0f=t
zT-tSY_{wmmqUCz(7Q5??we;fb<@rnVmt&V=%e&qjzBYV)GV6Teot9PW(7R1}i{rBO
zRqImgRo@lgpLZ^wxn6$D()k60Y{U1=sJV5;pFs_2=aTb|wQPyLYJ1JLyeqe*N8Zwt
zb?vxq?M;v5-JYv^uk2kO$hzBB&d6?Gdg_j|cDes%#V@>Xdw)^)cHKLX+>l=$@@HlO
z+1_KB*}2?oQih-NOa`Bqofp!F^3KYflarm?O2f_VHyhq#-aYhzL++i*I;RVrZL+iN
zX6w7`hrJnRTSjeWD{^d&%+@ULyY9W|m3{r0+JRN}$^5$ZsvC`&+Wy<@!2MEW+X=6U
zrL{SS@0P=Nz4h;UZuDdw18M7h3#x4S+{BdAzx6a<vRq{EG00@S)Uo7W@!V|9?K~v!
zJd~MvLAD9ESmBPR`2j&qm)>`L>9ES1yK;Twa^H9+Ajq~CZ?P{L!@jW9Q*HMVWcT({
z$Xk~|?mSbHW85<1UJ7Ly?;UTgT)Y4JV6Jmm?i^n29Ld)1&wBU2JChqbCd1ErEIqo)
zdh)dm8P@xWE*=>VpP6|!HxrR(A{k!12cK-IL*&`dJx+fP@_LxQV=28DxtzF^SWe{{
zcgl@B-|@(np|mNFOs`m8w&YNojM`RF`=`i4#OhN=`O?;_?N{1!6<g(st=Wog`No!9
z;|{rTN4~NqSGi5D+?KCyxeq?oR^Xuxx$2jn&A0WaVb74<HI(n^%k>P)J;Q+F8llpT
zdp7hO^#YYU9+%;VTv=3+Lm>YxIkZbgyE3~2GCGz&_FV4RSs8wtAoyj(=UaPnt$XFx
zy?NI9%J|FU7o*E{4;gwZEu*Hi>6?~|zNH|DE@jRk7tjC|y5nwG{^P8>D}!8lM@`Pr
zC_5T&JDOe|O^>9{<h{)~FN9DX*L$<xuJrU$Q<nAIXHaSLe_9Yr4kNRrGwa=cJ(cTu
zN`{~JDUJOG<NX=_nH(RM`EbS`0gj8*L6z}`RK}0f_hB{VOP-~#uZ(3npM2-}e0lBi
z)Qy(w^FP`CJFp&4eDQS})a|x)==TrnK(Zb^v_P&pN*@d~J>AEASk3uO=6|3#zuheN
J+5B|Le*;rz=oSC~

literal 0
HcmV?d00001

diff --git a/F2LLM/__pycache__/utils.cpython-313.pyc b/F2LLM/__pycache__/utils.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..62dc0c1d872aee556388691b28f9dbee689d8238
GIT binary patch
literal 18810
zcmeHvZEzb$cHqq5g8&JF;1~E!f*%q;#1Dxw^+kPA{FX#g0tk{4DZxWvNJ0b#-~f<F
zO0u}Qt6DjCi6zG_$<F4)^|{W}##NT{<1BBbO7iX|k~eqfX#(p(W~qy^+0@n6{gG@}
zwp4Xhxz{ro0HPs@n<!hmRT)v;Gu^M>d)@tB_v`N0_&PH)oq(t7wH@xquMosP;1A_d
z$6mhvFYxj<VIyqh5#lh(krw<;9ia}ZIF<CSI-=&(kfu7KIjjv(7UFOkr;~EjNA!o&
zx%3!R2A9!7*fht<IRnI6h%+HhgV<=(O{i@8iL6)Dw)A4+jG8mqGKvW<yPU9@Yz9an
zxg6;|Q+m&}86h{%mIYz{w5mS)SD4v)Qd9@$TwaJXZ6U9h<`zadcaY%*A;r|m`2vA%
zHpuz>3rFF#UL)qyUV72TI-I@`3t&^UGZ>;hVpc5K@AJ@5enC{by{<_yH|U#pI{}zI
z%WwfY==QMzQSAhv`drZ%E5k8o-ORawsGp?SSvNbqbElZbczqaH%<u+%euo=KvBB7f
z%jc!ttZ4Gmfq?rg;|Mqz7HIlJqmmK>FAkn#n4lv7McrNq9L#)>1AZ~yJer$#pLIAr
zp#anZh&ueO{uHT!)_`c9bo)|4r%IRLy^Jd*e2R1opU*KampizgnH0$wx-<}^owLlm
zbB1Q8ne~O9or}wwphei=0t>A@&G|z9K>cPhjpn99G)s%>0PAs!YOfU1I8^!RIZ+ds
z3(+ny^C_}onl}Kl;`E8xEFBDSw8t?QVghpi>SlaFzb`mPi<&70`dw5r9(S9lo^nHy
z78;Wd%!xX7%IV|$p@69Mx}jG*5OYDdYe7s4INeyRMAh7!Uo4X7`T)(8$9K*Z@+atM
z0>QwxR$wp~Xl)e@5KS_ya|ZaD74<RM!W5k>>u`A?_Icb4BkG}64nNHWTSc8eGzpyo
zKm~zTALn$?lL1LY98Pyol2$QK&Ir1L9wwgsbZQbTv@Wm!z2fuwIR@ktL@h1gXPh8p
zqAtj}&$?-#rk)RkykhQCO&VjV?5V`$`Z{nAJ|`Osuo3WL9d?|PlvvbxeA5n>+ZlAK
zu(rn@EyVcy>yr??P1s2*8OuqE+G6jyL|*|xgeZdWzhWn>$#`NAW3Sk$wphA_7$_o$
z48lT8!`L!dPl*~BO}qgyop!lERcRO=>NQ*!6y>@h5VLSod6*yrxk1Js5LL6xf~Yx5
zdqAEv0Aaz8s0#(%o<OsILClt_=74q%__#?Q&AGS%0Lz5`flUxB5m9sbHTEj|rFrw~
z>6cYeomtRTB3<Qj^@{IH-TtpsL_zJ>07y77dgal<i_|9b&=xOh6ANy$6fI#R?J6U&
zoob7<rv#@=3JN8N>tgS82|?H?EAEeVk5#`e0Y2@jr|@Q^fS{~~Z>K7ySdCqi8ZXo)
z1(%R&{5Cd7%}$Z}T*@|Tw_0k8=g65PF{;7Ed>efh#$$_fhH=jNeK3|=f<8;VO3ZQx
z9C+k+_&J{wbPI+g8ixO=5GxPq>7Y45Mw0e=J%|YnL+X@|bKoIp!N)S9#t#F1kUIw4
zi~68%mSNqCpq5z@8c<izd^gLuL_>%@$I*U=*XLq9BIWVI&<K=7<20U45=6A38ph6m
zm_a+8jECXqppO$Za;bD*DCiFbfg4UVcsP*!8O9X?ATdkE?gxRFKm)k<B_X$PM=@(M
zKZ)vdG^FOh|G=L@0OGCA64aGQT^UhVOYiweozE9Gt(;kz;LUp?>h_0eIYL?${6%${
zZ)ClmCFp9Au689oqT3!dR|@84WNuyweKdb_K5X8#G!#|m3hHVE*mOD3!fK&#J1Ud`
zHzV`rXl}WX+k|qPR+x`wZq9^rcRtb+nwrOiMx%XXAT%bKnV+evxk2FXDW!@JG>fuQ
z5vc|m8<`N$aTsRgCzU`}5q7YmY$}_2w~E!;Rn{~GIuY9w*wS8zEiH~sH;xAY>9I=o
zo$@8eRm9kg6%R4%9%Ybhi}7t&H-TER`Xp>AR0y!0u$tDPf=`=fH#KIn;=W$@G{I2S
z1Zix#or2QuD)iV4dxkZC9WZ<<e6a?*p@yi}4sw{mUrE6~!*i1oNx!IaxxF_@QR@N&
z%*oVefSiLyh-8nbXMLQP_TVq=G##7)xz&JlJ7-{)ri0#)M<j!ymgcYt!npypm>JVb
zu+?15JeUy-&DLj%CYY{aI%2$&*v4T&TXMh{41y(=oThh5(-q8?+yq9J0aJz_D^!SM
zL~0Uj1loZ)5)G3MC$>o))7Wyzo|ICPlZ=62$c1e^nE2d5DCnUl8Bah=^Wai|NsV6u
zxGQCyi-of48Qkn79dyn>=|F&60-!4RANa2jED?`PM0&BHFGu?F>vLg!<<g<GOye8l
ze>lz;)vp}CbqHndT<Up<wPh2^-NbL+70%tgbo7^nMK?0u%~(EqtK)VnD%{Vj^M9FN
zd~M>*iRH~g!#>ooFWhh-oPY3cJIWti8vJEu&KnbdIB~s7*t7@1UuOI5NuhHB!QcJ~
zlsU1~^S8!=>&CFLWvTaJM$Q|1U*G$m_Ahlk%*a|gBI{rBWP&FVX;S-dvi?y{h^I-I
z#vxw+*y7U`t9_y7z{<s@26<JnY2$H<*0>HOaD&d0))Z5fO{-|Voob<MT3gy~iltsi
zSJHlouFjtJ0=zn`HL0}LrjFCr$ogtm0iXJ$nxxcPyEX|Th5p+0sdU$-+pSXc^|`v5
zZchhY)ert3rS&AG<(%-zxp2Th@GIPN^&~fqBe1Sq!3EG1tb+9!+!=_tSsZw9z(Rn{
zUe-wmMSX|`OP*msrB&Ga)WF>5lk|a|mdbMh00$&NTr`A>=FWh1<zSiVBwgjs;%uy?
z+&LV~<6r>-Q7=PdHPyznPcLa5P7h!aNYXf2-{c~avi&jS?}7h;pFjZ0mP6=D5X@j%
zIS=(kFVebS7FXP8e77;GD;9J$NLRCbJglpY>PjAIRCU@%TEdX|I89Yz<kbb=q!ZaW
z*D~JB;7eO>ZM$8CO#7DlqsBbJSdNTXuZ@+<{m9rPWVWKr)?2ON%pJE&P-fRs&)=Jh
zu5W&S(+6AL+p@y_<)%9gpEled`Qp^)r%=^+*fb%SXk?<pCg)QB!;Cy$ohNH!@(hLN
z6-gW4g4DN(tpu9}b65&ZR7USyqL=LZPR#gzy@hBY{6Dno!65%<m<bFo(iH^@MS$r=
zrJO4biXO0;<8g!2o@paNafp=K6(1u2O0^*<HHI4NXu}aatPy6c6f-G|5?L}ta%eXy
z9Hufll^QBAP*2@>eD-VyM6`n-#`6`7FSBM)Bejf|&9bNe1~tl3xZPNdV2=p?DdUF)
zBw_$01~0In#b9B!{!!Y*LL|vY;d&@MvDq^eP9!S=mLlsP1=rZT5p0v~R4o9kZ($cm
zH1IS6?ToDp>9MA!mma4FBc1g{^t3WP!2KWP`X=EoRVXE5s88DSb!o&jk{wXB5CIA_
zXuqsgtclIGo2(THJj$CbP2tw2!=n4NT)CjG12xbZCTpcqA`#p4N?B#0C&BLp`0QiU
zz(Kh_0Tr9gniR<AwTC^;mX6#0_oxNpvh~th!0^&rVDoP*1K1jr9z3?hWdQdnR1@pu
zZ`7xmzXLS_8J3@yQX``@LXcKy+4YYi2Q+L@jMpo<W7Bp`V(SP-v@J?bBDQ7OHBWD<
zOcRwvV|)|E1>@lqWg#k{{b77m4O}INeX0s#ip2Zsa*s@b*1!0@-ZUth<pql$HkWDG
zUY%m3MM!}A55SOEs3a?~k}Vd2l>{4xuphBLYthsKn^|s`w5D)iTWB#aIR!Q}q&0^~
zwn+A#n41KyWG+^AoSkmLTNG{vvQw7NN-8IjDSKuaDZ2`1J3V+8eaa0MBCNiW@k%h|
zGK{iG{;mAH@ey1%sqiU_4L0yB`z-Zlt`}NMHb2u?pJSSX4dgV~i#dmP>#(H<o1!sW
zR7?B)4C~^&I8_6CykM&4Si6U<{oNxSM;%=q!yUHnVVkrV<7^m61-weOs;HGW0bvK&
z?{No39pDL^a|dU{g3hBIHd}vBe`m*V|IlC@i<sMa)NUK@w)PM9#uKFtA!!eh8wULK
zIovozvWa^N6U<f`mUc0mw7(=9!TlJl3qxe$PQgn~DOWT=gU|ukEMjRdBbwymI1OqC
zC}N9ISd|*$_OS!LG_o9|$y-MO?vF73OBg>nE0Sje*s@77p<}PIC9RW)!2TEaAwa=w
zOa#<wX}2iPyfhGPXcrnfP(z2%(1~=LFB_tks^vphN`Ice>2mj4w)tAwn`LiTM8S$~
zdZ%ec6E1GPlD1a5X?dD&?m?S-h0Q}~^ALaRczCmwA0Fo?&Z6OS!tf<DeCZKEbWn#V
z*iW^SofLd^Q%7+$K+RB(@s}Ha%~C-OQg%pnMISYl3Z`mgs$M=K)a*btJ8mt6YdVCQ
zUR2W?uIZ1M4o7n<BGql-+_trn+LbhZYagoX7wV3qy5qdn7OorSM^5pl=h4W*uL)w5
zJcQ}s2<UWDU6{@&*^R$?sbl!7^fYy)E1FkwZSd;ga=TF7hN|0cxx&@(+JUM&!quIT
zyslqo5;>J`Ry<Y_=FPD7(B}!dO-Q#XqN`miD807u=E8DmxS$ytuDw@iKZ@FqhT8`(
zXI?k*n|JW$ok+JUno$rbY5FpwY0X@6&Hbi(IW26iyWAV?JbZ8OXM2CV|MI}~LB3%>
zUwj~9IQY1d*wRIQQ$y@IaHsT#rM!Jou+Jd-OvHZX8*EOUr&jG}J|Dh+9NL^`eF7Uo
zY=}R*5M~$o^A`|%5ugrH!?@-?a+vz@9Mtv%b&`SxIYBvbGL9h8MJ>pQi`2b2WIywj
zj2&8K&jp;Zr$Yt65aN_h)zSc;(}vVL*4p-bGVvD^{PEMmaThx7iX5K;ik&c^t{$KI
zJnw$?{SN-jtZ-%yotfjgQ25MQ{@gq|vj9M^k;gFoS%`kT4LGn<Bbbn#a^PefLE@{_
zoSeu}_qL(qQ@|ER4ovI_;*1>&7#KpFa-PC$ZA0qTHE6EJA2#wMPGQ82M%<B+S)kZQ
zj#H~6v!A=})BJHO@AC`3v&aV=ErxyP`3o13?={RkG!NkPlP9S!NHj7FBym9?&_01l
zw$nHpLY(51NbW%DoohSVKk@v9hqpQeD}$^|#5xVgx=0(fYMuVP=6)sg(X2<9<<Kn0
z2hN6P&++pMXm$~RE|FG@(gV@G4rHAMintu$-#Lsa?mU6BA;c-;62(@e-X2vpZ`X81
z*PCxwM0EX0yS$An4!&_8Z{Ghi^?_e+0hzs4@&CRqmqg~t*Ob(XIL1}OF(w%3gVEr>
zca{%Ur2X~Y>cQ6Zd)0Y3Y}Z0~e_!?BuJq4q@^H9U3*k@qR}bz_|C>!(2>(ZI^^iLK
ze;TzA{;!Jk!IliC4v;AiUel}K|JUD`pM7SM*xt3^B@0Z}>mM6sPkVZTe+HZiHm>4}
zj0Bbql~qGo7!cP#8!D@Tvhhu>1cnWj)uyHkHB4^F7*f1pm6{gL*$}<7aoj7?lQ=Kh
zP)Qw72IFk~v!Sx_1&@Uok8hpj5+k|*6<ctDq3OE}+a0F$_+g_V_uFa8(lc(Bg6VD7
zfuRkirDSMRtZpuCJWnb4Z%!+H9AsR6{>^D+fOMo-LdQ*LXs_`Sg&XL#6w6^-`fhTF
zwBe(O_~O=<VKeL|+4S*BrR;dM@|L>qmBlIW1O2!DQTW+H*fL@BHp6CwO{wJG&kRso
z!SIIVb|duugYo#Xz^W8YLRm$Cp-)*Gl9FPtRw%vxv6*(mR5H*kO9N|UGk<g0f`0t%
zahL^LZ2y|JG5(9&#`Ifin}0cn*}!4yo^M&-?}?)=7-^EFH^sc5NH1)oruE%{t;d{a
z%q!XU99vEkkb-Tl-0do*9L!fL>$Y!mV9!a00PNbne*)~eP>1a)pmP;yHg8-R)(Cr^
zEe~%iS$BTBge{IApz=2aWyVlr-;Zyy=G${^1vrg0+q3QFebhb*e?cu_>ouSX$Xj_?
zi5z>rb@#V9QP{QOVR+r6<UNJaoRD!`gr0$sYM)Z@W!4$$8k^180=p?uk99RPCUWcr
zFQbM-lr0M=7TEK#ys(A#!e`9aFbhL2X+5CSJ`vjs6^Q@|Gsu$n3@l)E*o=F|z>tSA
zKM6L)JdL5~s{p03b|h#iZ%S_gMePgnHP%k0R3c6)ud#L|(v>%xQIfAh970`sl=MWr
zCkOZg&JtRiWT~XYskD+3!#o0W8C#SZKh!$~U-lxIFT61|0P~)-agN&@^nf*t-L>{5
zI8@%6;;r7RrlBq1z~YFKmxzIj6lE1&!F{tZHAl%UwUuOx?Z)TXKTu}|I4uE58c5Jq
z-azt8aQzgj)*&S)5i32%mfA}}mfnhOT!Q#M1E+E0IPInQ`1BdF3yj%|?Ikd#7Rg)r
z1Jkkg&-z!?ID6yVZMeo+8^^i98W%rZ;}=;z_G0VtM2{(NO3#6vQZiEZt)q()w#;5)
zwJFev*jA#*gDh)LkIC_E>k_LyQAT;Ql`3Tw6D@vpQTEi)MHw5XVjWdVCt`(nd$Fwy
z>)!8C3zWa~7N~gXEdZ8u2rM3U<1!FmDaBV*VA0!gpF&5+jxILdr<UJ=8pYRRFQrD6
zxJJ*g53B5kZ>@r#w?2cpW&DJq3wAw>f`-H)M?xEatLu+{Um+<S0`a=l<L|`^32YVY
zuD$L_*ediPkl)m+D13^s?oq~P3o-6cvc|}<nz0Y<`nEJV#qunC&s~*)HSnr}F%c`X
z2@O^Z)FcH&QcXai$0wDtR+sXYh^^C!cjXP}&M5DR*j63W-Prn&Egzp%a>qzJWiPjD
zl~t1kbC$}o{!6f#RIqcd9e{0H3o%6D@$#i{Sd&<Ng6H@~`Fyr4oQrXrHgNHGLn3<9
z27VN?{Pb}-$Ohi@R<F_*i8vvd({P7CI<|$qzSse7>bJ~z?(^PMEX;55gWwmxQ|$Aw
zNxAi#1{Ys#*x&=lqj2fOB6*o(2lovYYgo*;42HaNIZJ@Xw<Q8_%DQNjk{Q3xIU{`+
zS&lKBMfT;jNJohl?9PipD=fWm1nUOBSPS^7hroYVI<d7#H!d(hzNOdWo1{JK%H_yM
zy5L}Fk?3I1Ld&oZPBIhqh$Go>OKh~}>*3%^8u;<zLsqy`#DYsdB<SJtR7ko2fOB2$
z06hs__E?L!KfnPV6BaAhVUoK7cY<6k>2!b5w7yHYD;UF79K4Bx_aT7$0Ni3hi_(ko
zseb&JK6hOPK1ApK1Q#<uqeRWqhxDnT#GI$orL%d<^GZq(n^K(cr$8k679?)MrKrMU
z*7z{K91%a_$Cs`czeChY?dPc9DIJ}Q1_`@EmPxp6hRev_4Gzh(yaam!U@>$gi(%~I
zPbM4kDt9{=xCi86;QF78LJ~3VPjNeD$Y<#CLAx663I(`jNawzfgJU>QLjbM;lUPhR
zygKG!>;~Tg$yr^@hg&2bAKXKF>Mn`otHAvk28L}ELUw7_NW{eqxX1-(`BJ60YdH6h
zac~_1>^cv(@n*Ppamo@-(M`hbJnZKH&h*ekq8_{1${r8~xO7H);T_++!`I$ehX>yd
z0g1*p7CAV=7quZjI0`V5I|TP#jI|dB_&zCj0|x;dz$8k<{0byRj<ui~yCFyp0Ag<9
z{s@S9ET6*uzJ74$7u9FrVhwj1<DxMxjT1Z(nEHzKt`D&;O!zKv?_qGg&kt8BVQ}F%
zY(2mwK<K(ySIGmENVx*?Ew8f}K<%HTISxBafQ|-azX;hm7++2kjR`*p={sGzT`Ko6
zTo8ksrjp}~oS>0=Vg-<KH*xSsIKa9oJ4>WX$bxu~5=pmcl=)JeGq@iBAk-Hl<^CKO
z!mSX1jinU66;F9v$c`4K_+=kPt}*uuTps`b1K10Zt_k2fG18?R^L#|TkaT+6#5W({
zn-22kj)?kDJpH<HIVjZbLbbd2&Aa6rJn=lfaNDgKp|uya_VU~McyoV5eK;v|=WVsH
zYYgog<9D9m%_k%3@ubYA6_?Q5iJCj_&I&ya1b@vAesT(I7$^8@JdQ^#lH*2m7e1LU
z=%(Q4TGK-%;c57AJKu63yyYO@(7~GzMbw>1nOkq=3EMi*whn&lA>P~>QFkRWrRx7<
z?e1{V^lI(y<s81#CUiPbr$gv;p-xx0a|-R7x>1E{ccY?dUTuER*cmRLTW#!Ip5zBk
z2?K64;1&j0G{A-j{HWJ|gF}s-sC<rBmprIz4;Q;v>)MyA_-?z<O`~pF=$=B|Q{nCz
zbYSL2E2?Wp#cpu<e%Rh4w2#2wTc=iD`KbM7`)dA9e&W@o!8Ma*Wd|~~F7>ZvWWA-i
z;u6gG!c*8(duv>18$oR&k!>R=V|1x2YA#qBdSGM1rm0mMb3g5So3Ok2a^P0mC%Zo0
z^~r&c51``C)$C4WW0v}P(^Pb9Mi>jCv7j)vfW{UgW9P&97gop4-yi*6=*ES2FRXOl
z*4)v3s=Jf*X%?#JTQ&EgvGYrVeEx+8R#!NiS+%<Ep8H<gjlJ*gT_JC6`lRmTx=&g@
zZb2o7R&x#^t83{npUp%^r-jh~8Vv}e^JsKFGP)QxpI;qayx;r2<^#if2Dp<F`egp&
z`A;r=d<j{4R||U4=;G24Z$AG}t^aP{cly3N_?^LsIuHDRt^|dGI#f_6WY=HTM0L4>
zt_bOh_|o><-FGWL?Y+I5?;7Td?GfEbR96^tv4^iMYuJD2AvnBvuX>le!{&y|z2E4F
zqN?RuzTpt6>J+MupsFMHJHl0i{IOAfj6=r)!m;z{81~BuAA1c1u7m2sa@S9}utauH
z4E~y?{Maj^=r!tcf3(E1T#ib%UOpN%lw3a=Ho#>YWN3ysYAC+GH*Ba|=@%OJqQ<@9
z#{EKL7i#PZH})Vy59CC%N+K28!dcta3aXcTdC08k7HS4i&A@#+Tyu=Kp5RXgku@Y(
zFCyzj{<TX$)JAq-7COO?3BC$XQdiVb6DDM;Tj@ZiCWxbO6`&EsL>8w%-zRL@kGAXw
z1wp2R5mW8Mg5oRchec(}dQ?<@`7qo+D6Uy{37f%{ss|PINGX|xg293emgVAzp%Eam
zEz6bICkh6FUIc$xz4w9dqx|t#c_;S3;oV-ry@1>c;bRLx{+jWsF=DbvzEn`IGGeNR
zRN1d8V%ikVEfsR>QEvT8CCY7F8AiFSw}w9%|9Cu{dvL9+>izA@3qtKaRJ$)+z5mOy
z1J}vup8a>We7fbjUMOrvh0QB-2#-7A!kyp{Req3sq$4s*ug?L$mxrQR<w9jEg1@ZR
zTXZCAXVjE;E#qp&^)8{b36(ZQOwA9gHm~S~y8Wnb|Lr+c*KxN7)%Eg~eOHVRi>hvv
zzf=BYQT>&UXlbob+Kft@R~Bzq-n<wt-6xcGpwf<TY3G&hXaUfBdm-9CEcB0~e(*VC
z_^D|$F%#~03;kZy?+y3+c<vnPKgXZH1Vh>dasmrbEb51^>&BJJm0Z5DldtUx7j{2R
zBZ?cKBE@w=Q6nm9{IaMynTJcjX$#OkB$W1`(w=Z>UxJD5V?y^R>IMOx;-_cOm^<8k
zM(AcyHyiHu^MQHPJr5Fd5d;Sqxk#SEjKrdD_)-`-z}FrO7j|GqT0l(>!vXylr9Um@
znSj77AZ8)LoQJV@lpIp6GUw4Lnm=`#f0YKz2Pp~jL8=#H#t|g;!Ouy6fF4x*?FQw%
zAv}KDK#e3wh6<040q_}W7V~xn{O}+hN01nz22@hwph_4WL(F;bP{Py!>tXU3&N>YD
znE@V0QsSuUijlAAMy8&%?!)&cel)?;K7kG)IuxPLVY+0mYLz~RPMqRToa84?fwLN5
zxggIrI0C9&z&;?mK*sd`Fy`n2c?9!4L`hy)7f6~4+lB#nikilJPr-NqP&k6bIjS2o
zH%0ZR1lus8&jH_<GGOf?`*2ndIe_`bk(4+j@eSI0XzlRO7mYt{<fnqd)FPT%j7(hs
zx?`k=TAjLpPEYcu9Xve=M6g#QV8X)_V2Y1Y(xA{m4PZV7sUbP<80LK#nplFIrG&8)
zXzBuRh4BIdM@TQmb%f+F1dgP{Acb4A2bp@;dXC)l{K&&k`i04}X!2}iavozOUDWF2
zJUV%rKRJ$t;lf40a*^!9Sa1Y9bOV2Y>>}BZzYc>;NO?ywN5^DWz>B1l5{B()avnIs
zI03$wWH3j)<QWW)BPr1%adZfoIv<)!1QQ-vmWOT)@!Pxjs_uxXN4g8#EaWz?<!xGK
zZ?SiMk-U)yj=69tx9XS!*U<Nw4?ORAZf(CEx-<Xj{GCgmUINF_)v_Vvn7g9qOSz~k
z2xJ-16d;Qu>8nTn>cLDiAQ!+(RX+vX;t&4Bs~@&~wD$*lZ>#Qh-|PFV@7~a7LukwJ
zYSplWqYrq7szZSXr~Towxz*Et-gff+&<7XZy8w4CnL9I|&fM{R>O-}ItL1~}wEs#v
zUp5zY1_b9N<itaV3*1Ek6^?)b7b(eSbsuH`fAC|D54%4)`h%mlv+uUu+x6M5dj~!{
zfEsP9)i$YAFLfmg7=QvWj+-ik${h&)vUc3A3}>}RP5IY!S9RAiuV%iLwPq^3p10C{
z*9{#VG0iD?@>q@w=LuQ0@V7D~>>ok!*Ej+_A8s69E33FM`p)Q$iFYPeYCdYY*>c-{
z_W*y$#<vfL%j{Ru*Gv`5>RWBM8}51{Cfh?8p{rU^RqK~ot$%CEe{83~sr8$a5Efn=
zy*her;_Ae5%?B;tZ@D!RpWnB4hx2<br?2S>uB%ttZZ+KYM07`@8O1_bD}uia80x>w
z*cmlsztQ)4-x~w35B%q$HACK&;T6r@dj7O0V(=<?gRc(?hSJBg6p_>LPb@{~%+fC~
zlp<Z}&vfOFRFLrGt0O9+c!qo;md`yAi``GYG7#C*@R@(%iI~ki5zXhHe9e;5V1&IG
zv2x=Ws}qi~5I^}UohS>CPrjmX*FO=<=I|?YLf{J6;y*D|dbX&4vP}!&Us08wt?Iw3
z)#7khrKe5(*JWA=?`LfH>`{MSy4`a?{nMiDUbXsf8n%1&YH?e&*J%8CVIB^*Y9U-}
zt@h>_9~9-`aGMsw|GmB1TWtKhVl9LZORK#W<KL^a5dNZcyLYqhADXs%x9ENe*tY8a
zv3<L@O;=A&zxxh;ZXT#N!;cTZFYYwcA-GX3ElmrgtJTf&Ph2GbumxVq%5L=VLppH#
zx|wC0mESvn)eXh6VtV3Ry7>veG7^K7*S=q16w5e}R>;yCT8$T3vd24K{YeW~c~Scz
z{=^HKn}l?KG3H#p7k;S#e!O5m_kSUag#Q72)AW&wB*_Ov@dIMp&k4id5fwa9@qpO$
zb3*@%VlPh=Kz|f;r13;9yqJADp2&HmrN{%z-bVyPw}ao{=&SThvgT0(kze#phM6=y
a+Kb;Zi^%-1b`_Hc$*=d!lVpX&%l`+2or*31

literal 0
HcmV?d00001

diff --git a/F2LLM/arguments.py b/F2LLM/arguments.py
index b967c8f..77d1a01 100644
--- a/F2LLM/arguments.py
+++ b/F2LLM/arguments.py
@@ -27,6 +27,8 @@ class Args:
     log_interval: int = 20
     checkpointing_steps: int = 100
     validation_steps: int = 100
+    # gradient accumulation
+    gradient_accumulation_steps: int = 1
     # just placeholder, for logging purpose
     num_processes: int=0
 
diff --git a/F2LLM/configs/config.json b/F2LLM/configs/config.json
index 2ac3708..7b8505b 100644
--- a/F2LLM/configs/config.json
+++ b/F2LLM/configs/config.json
@@ -15,5 +15,6 @@
   "warmup_steps": 500,
   "train_epochs": 2,
   "log_interval": 100,
-  "num_hard_neg": 7
+  "num_hard_neg": 7,
+  "gradient_accumulation_steps": 1
 }
diff --git a/F2LLM/run.py b/F2LLM/run.py
index e40b707..0731f58 100644
--- a/F2LLM/run.py
+++ b/F2LLM/run.py
@@ -134,7 +134,9 @@ def __iter__(self):
                             num_warmup_steps=args.warmup_steps,
                             num_training_steps=args.train_steps)
 
-AcceleratorState().deepspeed_plugin.deepspeed_config['train_micro_batch_size_per_gpu'] = args.train_batch_size
+if AcceleratorState().deepspeed_plugin is not None:
+    AcceleratorState().deepspeed_plugin.deepspeed_config['train_micro_batch_size_per_gpu'] = args.train_batch_size
+    AcceleratorState().deepspeed_plugin.deepspeed_config['gradient_accumulation_steps'] = args.gradient_accumulation_steps
 model.lm, optimizer, lr_scheduler = accelerator.prepare(
     model.lm, optimizer, lr_scheduler
 )
diff --git a/F2LLM/utils.py b/F2LLM/utils.py
index b167d3c..4d48beb 100644
--- a/F2LLM/utils.py
+++ b/F2LLM/utils.py
@@ -124,7 +124,8 @@ def accelerate_train(args,
     accelerator.print(f" Num train samples = {num_train_samples}")
     accelerator.print(f" Num epochs = {args.train_epochs}")
     accelerator.print(f" Per device batch size = {args.train_batch_size}")
-    accelerator.print(f" Global batch size = {args.train_batch_size * accelerator.num_processes}")
+    accelerator.print(f" Gradient accumulation steps = {args.gradient_accumulation_steps}")
+    accelerator.print(f" Global batch size = {args.train_batch_size * accelerator.num_processes * args.gradient_accumulation_steps}")
     accelerator.print(f" Step per epoch = {len(train_dataloader)}")
     accelerator.print(f" Total training steps = {args.train_steps}")
     accelerator.print("************************************************************************************************")
@@ -165,14 +166,20 @@ def accelerate_train(args,
             
             loss_total = loss + loss_hard
 
-            # backward, optimizer, scheduler
+            # Scale loss by gradient accumulation steps to maintain same effective learning rate
+            loss_total = loss_total / args.gradient_accumulation_steps
+
+            # backward
             accelerator.backward(loss_total)
-            optimizer.step()
-            lr_scheduler.step()
-            optimizer.zero_grad()
-            if optimizer.param_groups[0]['lr'] < args.min_lr:
-                for i in range(len(optimizer.param_groups)):
-                    optimizer.param_groups[i]['lr'] = args.min_lr
+            
+            # Update step only after gradient_accumulation_steps
+            if (completed_steps + 1) % args.gradient_accumulation_steps == 0 or (completed_steps + 1) == args.train_steps:
+                optimizer.step()
+                lr_scheduler.step()
+                optimizer.zero_grad()
+                if optimizer.param_groups[0]['lr'] < args.min_lr:
+                    for i in range(len(optimizer.param_groups)):
+                        optimizer.param_groups[i]['lr'] = args.min_lr
             
             # log
             completed_steps += 1
@@ -180,14 +187,15 @@ def accelerate_train(args,
                 pbar.update(args.log_interval)
 
                 train_log_dict = {"lr": optimizer.param_groups[0]['lr']}
+                # Scale losses back by gradient accumulation steps for logging
                 for k in loss_dict.keys():
                     count = accelerator.gather(count_dict[k]).sum()
                     if count > 0:
-                        train_log_dict[f"{k}/training_loss_in_batch"] = accelerator.gather(loss_dict[k]).sum() / count
+                        train_log_dict[f"{k}/training_loss_in_batch"] = (accelerator.gather(loss_dict[k]).sum() / count) * args.gradient_accumulation_steps
                 for k in loss_hard_dict.keys():
                     count = accelerator.gather(count_hard_dict[k]).sum()
                     if count > 0:
-                        train_log_dict[f"{k}/training_loss_hard"] = accelerator.gather(loss_hard_dict[k]).sum() / count
+                        train_log_dict[f"{k}/training_loss_hard"] = (accelerator.gather(loss_hard_dict[k]).sum() / count) * args.gradient_accumulation_steps
                 train_log_dict['Avg/retrieval/training_loss_in_batch'] = torch.tensor([v for k, v in train_log_dict.items() if k.split('/')[0] in RETRIEVAL_DATASETS and k.endswith('training_loss_in_batch')]).mean()
                 train_log_dict['Avg/retrieval/training_loss_hard'] = torch.tensor([v for k, v in train_log_dict.items() if k.split('/')[0] in RETRIEVAL_DATASETS and k.endswith('training_loss_hard')]).mean()
                 train_log_dict['Avg/classification/training_loss_hard'] = torch.tensor([v for k, v in train_log_dict.items() if k.split('/')[0] in CLASSIFICATION_DATASETS]).mean()

From 33af82cc855d0e12a972660f422813db58afc448 Mon Sep 17 00:00:00 2001
From: "fluoryynx.l" <fluoryynx.l@antgroup.com>
Date: Tue, 9 Dec 2025 20:53:48 +0800
Subject: [PATCH 2/3] remove some files

---
 .idea/.gitignore | 3 ---
 .idea/vcs.xml    | 4 ----
 2 files changed, 7 deletions(-)
 delete mode 100644 .idea/.gitignore
 delete mode 100644 .idea/vcs.xml

diff --git a/.idea/.gitignore b/.idea/.gitignore
deleted file mode 100644
index 26d3352..0000000
--- a/.idea/.gitignore
+++ /dev/null
@@ -1,3 +0,0 @@
-# Default ignored files
-/shelf/
-/workspace.xml
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
deleted file mode 100644
index d843f34..0000000
--- a/.idea/vcs.xml
+++ /dev/null
@@ -1,4 +0,0 @@
-<?xml version="1.0" encoding="UTF-8"?>
-<project version="4">
-  <component name="VcsDirectoryMappings" defaultProject="true" />
-</project>
\ No newline at end of file

From 61fac22b35c0e0841199c9ececd5b9ebe92c2fb1 Mon Sep 17 00:00:00 2001
From: "fluoryynx.l" <fluoryynx.l@antgroup.com>
Date: Fri, 12 Dec 2025 19:10:12 +0800
Subject: [PATCH 3/3] add ray support

---
 .idea/CodeFuse-Embeddings.iml                 |   9 +
 .idea/misc.xml                                |   6 +
 .idea/modules.xml                             |   8 +
 .idea/workspace.xml                           |  57 ++
 F2LLM/RAY_TRAINING.md                         |  39 ++
 F2LLM/README.md                               |  21 +-
 .../ray_distributed_run.cpython-313.pyc       | Bin 0 -> 27687 bytes
 F2LLM/configs/ray_config.json                 |  23 +
 F2LLM/ray_distributed_run.py                  | 491 +++++++++++++++++
 F2LLM/ray_requirements.txt                    |  14 +
 F2LLM/ray_run.py                              | 494 ++++++++++++++++++
 11 files changed, 1160 insertions(+), 2 deletions(-)
 create mode 100644 .idea/CodeFuse-Embeddings.iml
 create mode 100644 .idea/misc.xml
 create mode 100644 .idea/modules.xml
 create mode 100644 .idea/workspace.xml
 create mode 100644 F2LLM/RAY_TRAINING.md
 create mode 100644 F2LLM/__pycache__/ray_distributed_run.cpython-313.pyc
 create mode 100644 F2LLM/configs/ray_config.json
 create mode 100644 F2LLM/ray_distributed_run.py
 create mode 100644 F2LLM/ray_requirements.txt
 create mode 100644 F2LLM/ray_run.py

diff --git a/.idea/CodeFuse-Embeddings.iml b/.idea/CodeFuse-Embeddings.iml
new file mode 100644
index 0000000..d6ebd48
--- /dev/null
+++ b/.idea/CodeFuse-Embeddings.iml
@@ -0,0 +1,9 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<module type="JAVA_MODULE" version="4">
+  <component name="NewModuleRootManager" inherit-compiler-output="true">
+    <exclude-output />
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="inheritedJdk" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>
\ No newline at end of file
diff --git a/.idea/misc.xml b/.idea/misc.xml
new file mode 100644
index 0000000..f03c948
--- /dev/null
+++ b/.idea/misc.xml
@@ -0,0 +1,6 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectRootManager" version="2" languageLevel="JDK_23" default="true" project-jdk-name="23" project-jdk-type="JavaSDK">
+    <output url="file://$PROJECT_DIR$/out" />
+  </component>
+</project>
\ No newline at end of file
diff --git a/.idea/modules.xml b/.idea/modules.xml
new file mode 100644
index 0000000..698e3e6
--- /dev/null
+++ b/.idea/modules.xml
@@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/CodeFuse-Embeddings.iml" filepath="$PROJECT_DIR$/.idea/CodeFuse-Embeddings.iml" />
+    </modules>
+  </component>
+</project>
\ No newline at end of file
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
new file mode 100644
index 0000000..c07f011
--- /dev/null
+++ b/.idea/workspace.xml
@@ -0,0 +1,57 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="AutoImportSettings">
+    <option name="autoReloadType" value="SELECTIVE" />
+  </component>
+  <component name="ChangeListManager">
+    <list default="true" id="9249b3fb-9604-4562-8306-8849664d4934" name="Changes" comment="">
+      <change beforePath="$PROJECT_DIR$/.idea/.gitignore" beforeDir="false" />
+    </list>
+    <option name="SHOW_DIALOG" value="false" />
+    <option name="HIGHLIGHT_CONFLICTS" value="true" />
+    <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
+    <option name="LAST_RESOLUTION" value="IGNORE" />
+  </component>
+  <component name="Git.Settings">
+    <option name="RECENT_GIT_ROOT_PATH" value="$PROJECT_DIR$" />
+  </component>
+  <component name="MavenImportPreferences">
+    <option name="generalSettings">
+      <MavenGeneralSettings>
+        <option name="customMavenHome" value="$PROJECT_DIR$/../Downloads/apache-maven-3.5.0" />
+        <option name="localRepository" value="$PROJECT_DIR$/../.m2/fullaplusintegrationtestNew" />
+        <option name="mavenHomeTypeForPersistence" value="CUSTOM" />
+        <option name="userSettingsFile" value="$PROJECT_DIR$/../Downloads/apache-maven-3.5.0/conf/globaltech_paytech_settings.xml" />
+      </MavenGeneralSettings>
+    </option>
+  </component>
+  <component name="ProjectColorInfo">{
+  &quot;associatedIndex&quot;: 8
+}</component>
+  <component name="ProjectId" id="36YKoh4C7uZ5VJP75QtyTgAZbdR" />
+  <component name="ProjectViewState">
+    <option name="hideEmptyMiddlePackages" value="true" />
+    <option name="showLibraryContents" value="true" />
+  </component>
+  <component name="PropertiesComponent">{
+  &quot;keyToString&quot;: {
+    &quot;RunOnceActivity.ShowReadmeOnStart&quot;: &quot;true&quot;,
+    &quot;RunOnceActivity.git.unshallow&quot;: &quot;true&quot;,
+    &quot;git-widget-placeholder&quot;: &quot;gradient__accumulation__1208&quot;,
+    &quot;kotlin-language-version-configured&quot;: &quot;true&quot;,
+    &quot;last_opened_file_path&quot;: &quot;/Users/limfluoryynx/CodeFuse-Embeddings&quot;,
+    &quot;settings.editor.selected.configurable&quot;: &quot;MavenSettings&quot;
+  }
+}</component>
+  <component name="SpellCheckerSettings" RuntimeDictionaries="0" Folders="0" CustomDictionaries="0" DefaultDictionary="application-level" UseSingleDictionary="true" transferred="true" />
+  <component name="TaskManager">
+    <task active="true" id="Default" summary="Default task">
+      <changelist id="9249b3fb-9604-4562-8306-8849664d4934" name="Changes" comment="" />
+      <created>1765178240734</created>
+      <option name="number" value="Default" />
+      <option name="presentableId" value="Default" />
+      <updated>1765178240734</updated>
+    </task>
+    <servers />
+  </component>
+</project>
\ No newline at end of file
diff --git a/F2LLM/RAY_TRAINING.md b/F2LLM/RAY_TRAINING.md
new file mode 100644
index 0000000..563f3a4
--- /dev/null
+++ b/F2LLM/RAY_TRAINING.md
@@ -0,0 +1,39 @@
+## Ray Distributed Training
+
+This directory contains the Ray-based distributed training implementation for F2LLM embedding models, providing scalable, fault-tolerant training capabilities with automatic resource management and seamless scaling from single-node to multi-node clusters.
+
+### Usage
+
+#### Single-Node Training
+```bash
+python ray_distributed_run.py --config configs/ray_config.json --num_workers 4 --num_gpus_per_worker 1.0
+```
+
+#### Multi-Node Training
+
+1. On the head node:
+```bash
+ray start --head --port=6379
+python ray_distributed_run.py --config configs/ray_config.json --num_workers 8 --num_gpus_per_worker 1.0 --ray_head_address HEAD_NODE_IP
+```
+
+2. On worker nodes:
+```bash
+ray start --address=HEAD_NODE_IP:6379
+```
+
+### Configuration
+
+The Ray-specific configuration extends the original config with these additional parameters:
+
+- `num_workers`: Number of Ray workers (processes) to use
+- `num_gpus_per_worker`: Number of GPUs per worker
+- `num_cpus_per_worker`: Number of CPUs per worker
+
+### Requirements
+
+Install Ray-specific dependencies:
+
+```bash
+pip install -r ray_requirements.txt
+```
diff --git a/F2LLM/README.md b/F2LLM/README.md
index b0adba9..9c5fbd3 100644
--- a/F2LLM/README.md
+++ b/F2LLM/README.md
@@ -36,16 +36,33 @@ Note: we recommend setting `num_processes` to 1 in `configs/accelerate_config.ya
 
 The training script supports gradient accumulation to enable training with larger effective batch sizes on resource-constrained hardware. This feature allows users to simulate large batch training by accumulating gradients over multiple smaller batches before performing optimization steps. Configure gradient accumulation by setting the `gradient_accumulation_steps` parameter in your config file - the default value is 1 (no accumulation). For example, with `train_batch_size=8` and `gradient_accumulation_steps=4`, the effective batch size becomes 32.
 
-For multi-node training, run on the main node:
+### Distributed Training Options
 
+We support multiple distributed training frameworks:
+
+#### Hugging Face Accelerate
+```bash
+accelerate launch --config_file configs/accelerate_config.yaml run.py --config configs/config.json
+```
+
+For multi-node training with Accelerate, run on the main node:
 ```
 accelerate launch --config_file configs/accelerate_config.yaml --num_machines N_NODE --num_processes N_PROCESSES --machine_rank 0 --main_process_ip MASTER_IP --main_process_port MASTER_PORT run.py --config configs/config.json
 ```
 
-where N_NODE is the number of machines; N_PROCESSES is N_NODE\*8; MASTER_IP is the IP address of your master node, and MASTER_PORT is a port available on your machine (e.g. 6379).
+where N_NODE is the number of machines; N_PROCESSES is N_NODE*8; MASTER_IP is the IP address of your master node, and MASTER_PORT is a port available on your machine (e.g. 6379).
 
 On worker nodes, also run the above commmand but modify `machine_rank` accordingly.
 
+#### Ray Distributed Training (NEW!)
+For scalable, fault-tolerant training across multiple nodes and GPUs, use our new Ray integration:
+
+```bash
+python ray_distributed_run.py --config configs/ray_config.json --num_workers 4 --num_gpus_per_worker 1.0
+```
+
+See [RAY_TRAINING.md](RAY_TRAINING.md) for detailed Ray training documentation.
+
 ### Citation
 
 If you use the F2LLM models, data, or code, please cite the following technical report.
diff --git a/F2LLM/__pycache__/ray_distributed_run.cpython-313.pyc b/F2LLM/__pycache__/ray_distributed_run.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0ccdb9f10b0f1b6f63b4e4a9a0d2968cd375f110
GIT binary patch
literal 27687
zcmd6Q2~=BWdg#@PHne~Qh*c~G#E$U>25b!22E6Jb8wbaVj0DIQ624d1F<Hi)_ogMY
zJma*fagz5;rt?nlblNyQb6)VAo@ZyK)1<G{Ru_?6<&JaW>7=J8@AP!MWSY9CZ~4Ce
z>Pmu<<IKFA*Z!9O`|tbz{onTgJjl-0QDEHvb9>;KLlpIM^hidTa6I^98AZKB(G)|`
zGFm<)V`StjXXNCoU=-x5WR&EqVpQ-|45<gRn5;n!qZ!mPS_kG;4(SH<jDFC-7>Hj!
zl+9#AxN0bS(8w4EO^k_ztB1^k7REA|!{iWu)==)Cm9Y-m7~5bTlSjfdL-~UROaXCg
zhwOueOd)aWhKdG@nPTGB50wm-GNprMOd0VTh8%<COgV994^<3SGL?f>Ox559W&;T`
z4pk4<Fg3(&8mb+1GEU+)57iCUGxfx68EP18WEzP(XQ*kgnQ10&`B2MXD=T+UgBzJP
z5|TT#X>c>MnYgV(TL!l<Tfi+pvlaetqiuy0(@y7s-9hJry}f{{py+}^inec-izCl;
zlCVMuD@ulS(Z!Iu`}hvJq+^7lyc&u+-d#a$PE3}AnvhS(ou#us(Yd_m9lih?VFD*-
zB7UDE!gvFrKxo3jjxmAhh+{m=ICgK`w{O40KXuaY^I_Cf*yj(jO}gR904t@NX2NF!
zK0o@sLGQ_+zriu?oe4%7BjKQ*@rEL)lD%V0m}MPP5F3~d`W+!Cj&*oLKF6LzZdP|L
z5Ses%XCmP#ZzM40VEk-&h8goaro18Vgn!BpMPXXj@0|+zp&YCbTGgcc1bcVDsSuQX
zfw737=n0({GzX_6fpEwhbjk&-&l~ZM1-&dQsJ*NY(m<e!bXZVEW<q{U<C+QehC}0l
z2_c&n3l_altYJ9Jj7<*X0Qngqdz$f2dl|onjD}#5ykV$tDlqG3oH8Mcg$6?P;LPrW
z%2|ITQJPH9^-lW7PEUseA#8@ShnZjn9Tdp=Jzj7_mi*p*Jv2SAd!V;xc;MgxPhZb)
z58XdZLsPPQV0?zdr~M(UNzg#S9@g*o3E30q8k_X{W?<N%5JNER^?9)8kmedxi|yD4
zVPfnwM6&)fGyc$+A7WKKKJU~~$fhE54i0lKPF8;?!i1;K?*k`<DI;fmQ)95-lSTzD
z1^j>D0_!EpO`V}e6YG<rToQ~(CZ}K(yD3*zT0p`{%Qh#<mA+?`uu>JXPTC)FOa#Lx
zy+OyhFmu|^IL5-Ei2rGEiQ+OAgJBfOjCiKKk;wy2m0<9Q5oA~y8&o8i#+mSx2WE^+
zJ`9@zhE1?Y2_w?LLSMBw86I3LEH=y`^fkL#Kf^W$15@L{nJ{zyeCX-sURc7rXIOt@
zzqCo%W-@}!jQ2d`PVO%cGZSi>J}>0pj3wHY=m+D3@*ChkTM5<$>aLoymR#6(yI=!f
zuz96m^Yy@6Q*Tb)+85h$I9A}|l(q+uj2cT0GkDbSpG?F1;J|6frH;s1c{9bzbE&;B
z+~EqEa?6y|A^CnSMd>LA6;g!cZUv-MCes-yDx@4uPOn=jO$FpKCvvGEMY8716Fi!n
zUbmu|l0cJGR!HquyPys0jawz9sDf5I;D1OyF1eKB)HNB-sUqkP!Pdq7D5xX;5F2I$
z1v@h(sMzUXAmYptw1Lp{OvDrLu|n3A_h}DiP@qqVdqI#rEhr&~WtyP@EVk4k8m1Q9
zg4)9Zs5s4R15X>KcoM7&)CU`yV*2K9A6pok*UaaCWB+T%F7!q9%^wsyV*2uz`{vJl
zvv*$hpLSpA!{GAU**O=FfBpEYl?%SbU9U98vTHBwj_WNKJ74HrP{#BnQDw=)`&pEs
z<)NT2XYq*rnz5%`dBxUKtz5Ia3=l=8RRi`*)F^mGGp47gQH&ubwRik7H=H53DQN}T
zqsbk(9eiGxI9hqomMSOXPE^rqY0^S6H=N7lB!Sv!d9&<b?I@fnqHz)IK=O&-3TiZ4
z3K=y?E;>t^T<PnUCF_unTBLMj;VO~~5*Kb8t-+q87A`CdMaFd6UrpBtImNWF%waK-
z?T`<pZp?)(vKJP7xR=(sm9!F58Yx=eM#k-sLR#?q?c%~`6(MCvfvFxddImaM>Y4Nn
zsYY`kBQY+k<Vt-3CaPc~s+0ZBg?5d*pq=XtEtkd*#seT4Ze$n_wG<l48in?X#;u}_
zqlJ>sRV=wuU)t2J2&vpES6M1da(#YIsXkY^ls@&9aE*{=<fvOSS}Dc2DJj?5HA<VC
zRLL!`NN#z_MaDfDsvf7Dmf3qc*uoQlEriD%$?e|ZILSKd9JL!A^^VZYlxNb*_&g#1
zgj3hzXoR@N)(!`pcg%S)ivwVS4stX)Hr9!e(|{lVqLCJjF^L5A=|y5uSiA#@Cx{a3
zokE1BRfjp&B(19rG`2c36;cNgnTrWHY6A{DsT{42NEn*#)XnxEU3>P0!Vzd_AQAu^
zXx8s*avTc!;iPu}>JkJLY5f`F7!NRPq=`Y$Ef^A5fhXjh@_&NxUNEG0?-K-zpA=xY
ziHw*hImm$Sh@+Giq=iucjP0!7Bk0nCjR<`K#XtxQa}}TfZVUs)qd)15j7@q-g8-TG
z64cUj)*GDhJ5|g^tQF82l8qIN-UvW>#N<3vUiP#gKglv3ki?n8;KC9NfVKhJ<?m;h
zFvH;9Vm4s78Zb{^cuG)<GXpRmj$%Otp%Z=r+?gg!i-&-qWD%DtLVq>-4Tu{NQ~*v9
zK_2o$?r>;=!Oic~3R<!KjQ1SViOJ2<LW8~oy5MI88T<mIC(I^H0odRfJaYuo+TO4%
zo`Z?=$Keo9Al+Cv81zQ`p79U^7(9i&WxoZJbb<QRN@=WIR?)}C!f4USm~kws8M{+Z
zzF2<6uy}$i*tELsV65QarPfuqmv{R)w?8@_iJm<db3c7yA0QQF^-JDZY4d{Y68rrl
zZ$0@ZPyX4apQzqF`Ip)s?T8LP72E8MDy_H8c^}lY#5AqnKEGHV)fca7OI|zAX<9#U
zZj5Q#zH49XiRw#NwPn}roTlxbLZ;pHv(}DPjr&jROFgl^;pH=P$L7y0ST3>i{)LXH
zzIs(#!}Sew+L|}*D;oDbm0Wv7_NkiE+IUR?rzwcqolBcynwAGzl|_AF;8O!-vR({+
zJ@{sOtf=cx+LwB-?!B^i@$i2cdb6D?>WUe=FYNhLLs?1|j$Q9t-FuARJI=w+JaJ(l
zo>z7`cqzDAxrwjr;VOG#dAs<$JzU<NSl+;egLmu|@9tPV2?G+2ot(Z)QN8kga`^0*
zACTWe-$C>plAjQL9{d=d!Z6iS@`v~Bly>7oLDTl|ryBRe`)aDVo5kJn_7-D*v*w37
zWB(@I56esY+YLY3SlGWqGX`-<gWC(ugBGw}qK;EQA5%yh16?c!npgq!nu=C}t)^9A
zXVGe~HFOrEozTE?)9*)eNkrT~ISysa{*i7V0+dw*Xs7U5K!?3R$Bjj5aWgv_yB%qG
zKB1QY*_~lREMUzDqauC>S-*ZD<9Z?vKNN7@;qe5ZM2`oG3i;1D#J%GPGe9difYKXd
z{7{>3yDl>6clf8nW0MYl$j3U)P5MKL5|G#s6Z@Z@^v<wIQHFuEXwt30Qx(vD{Qm&A
z`AgJ@IS60T09k-B>r4u@0n(Ln$`23-hEPPTks#=T9%w}Xd8BDbQ?dTwID?oQi||g`
zSsLgjKunKEu%?Y^lN5Rq)8~P8fr=MZuWAb78iTk>7cB2-ikLcxT7#V-x<NW~1RQ{!
zNiz++j6$Sxu<mung?ZK)>AcKMQt8q;S%n>5QzfEvh?YJ;{IrsCK(&b8>@@@CE=x54
zkgG&v&QdR_9Mpb5KM+-zptdT;Wen09*JK2qU6Tv)rWQeVcFjm>J16`h|I^b<w@|%y
zr~r(4JWZX!Fq|`NcT+Om1Qbd3#3wL((VVW8%FYGv@3qaJxx8h53wRzrz@~q-pit&i
zFt`)Q^ayGK_JOoyJXioWIspc=Ja}%vT;*nHz&IwZ0P6yE+myrQbS=WJZ{sT4_{t8h
zvSYQfGnUg8Gj&BZUE;K*PX(f{WZJ$7)ukiVnI;TSv*cL1sbI1km|mp0)|pInO=^0N
z$d4#kMT>}p0?IoBrA=45<)eVii^i>x=FKDD4@e+E?-Ybmqk_r$QfM`_0!f5*#+5{;
zQxQ@tr1GIJNg51FNusBz9BU{@I2=RrQJWN-x%X~Dct|w>f?AS9P~}ixvX>Ju0uBlg
zYM?-qh#k1dx^x<tL8wMhyTk)r!NAFjTUk&6jG6*64nY<1Ff6kVBb2B8=UG98@Q)>n
zTF5%*4@^u(Sf`S#D?vpdgCIN2kadbn5l>xm;4&w$jQsRfmIh4%5XpWEELdr|_RC!_
zb}iasxixdjZ))O=t$bq_*Vx53_HvEAtBw7uw%sd@{jUu#9-jBUYF+TYlK<i<uCaf`
zwj0vxZrkh&Rafh-)Lm`9(i|(SkJ%b9INs5Hv+f6VvHboY)LlRPs$!v!FK*z98<q}p
z#m(;*wA`rU^84qM-!eRWprZ2j$R7S}em{$2d81(0cJ&X<6}_^xL?eQjO8Eca`>?(x
z7~z6|^#%!EG~Sa)BxPFtnZOmK6tk_dGp`6*)-D&x(U7c^8cknu8AwOB44W>kAK*^N
z0eZ<C*tRuwiJoNZVHfT9QUKc~sB&sFxgWA9?=VdBBXYZvq-m<?)J{hNGgF<Jc2;W7
zlDd++G*#~7a+OgBm~pC0QAUl+5I#E<2LK?Rg#s9aH%=`xgYIdtgsid2FyfdbT2KOz
zjxa1nWYdxGw1^h~vJCqp<nuo*D5k^H(k4*i1`$-`^hb`!)9jjkAmH&xuz+7V9!Y2z
zYGD__LI@u>=3G2=@l-rF|MIp=+xXl{F1K>A@Abjg2A7pL4L1zY+{$Qf|1B?<yLYbd
zu3Vj6eY>D|VfgA3SDsi>awUzif~I*@Jg?|Q{ar0(%Ehw2aq6Ex)lt^+2b3baI-XZ}
z`P8LTd|ow|SG^dC<u%MJ;%4h*-6h>+<0az)yK1gPzu}UBH#<19V=?!A^M<=wko8~L
zR%ql`dlbC|vbWX6JzJ@_D=g^VEJu55Pf@Q;@uM8{{KzUpw+)j5>4D=&Kuv1A$uJ*q
z>Tqyy_~1O!d64l7Ojd9kJf1T%-e4le<PnJ)U`qQ#VTgt^%oiT>c$lZK<RDrIY?%K5
zmSFQBs|gt09v})tCOqr$T%*W=B|@erFfm$)_OVF7|2B0`u2gC6>*T89`x=?5`@UMK
z+AaH~L9413Gh*^F_@6X5$!H#&0xJ{#d0cf|eLQOu0p6SBh>4z30{)4(sFpS%HhN0N
z=)jdlTzXmqF$P+DJR4H$NNOXkhcFXu0NYGwGnNUX(=2F!H%oY-pF9Iq&pN@|coJyT
zG+6^-%BP7ML;-`KMBeKf#1X-T0(-GjJhZ_U4XtW{BRUi6C>?otkfj~Ga401YUa63b
zoa*fm>qFoIhu=sg9LT^WNgc?2vMs=C3u2pyq0uLeHDG|?OX7OOmjn#NhZJ@yAEG2F
zUlL5xcx)yCC9N1m?35T6k{{~~t*n8NQE07b=p?TQ5I<S^k?T~?Zq*GWnFkI;>!rDJ
zh*LsjF-egSOven$Us#=pe+#N{K>z$g-tfVp{sRL~^t))!p&nPyzJ2}s2I&3FH=qSh
zBa;Ik<_uT@Yz=P+SQfC}!y#Da%tZ`Ui4qiTQgQ-93nnGR5X__jM1~<^`$9J0ivgcU
z^s$0A$*>np5_tn+jfj7m735)H0Q*B{157x?;J_u|AgP*p8k?2@8F&iYWswFWNgF&5
z!R$O(K!ocko1L?cEDgW$#I+~BcYL+z=y#9fnZJDa&#L%cM>zO(9eJg1q37kkYsXiL
zjzU^E=e2R0ogDY}68IS7#f~}Us>U97RN=QIUQ&+V!gwOOj6@d$)!wr8oAQgg7j)6w
zdQQ`Tw6kU2@-6+t2Srrzh>XSM@k-&YLgNiJSZjy{JPOI4ISH!`B(yS+&QgQ2kPPIE
zD1ns^0s`hpJC@TB(Ts?tbTms}$O{})(YSyFS#OA}CwU;JVl$zeQkm&1zL{#Krh7+|
ze9+P4s&^HpN|RiVtPKI@IwRF4eSw7f5K!Dl@IvXNAVfksB)9;))ADsigEy6)CMZov
zo#KMhs<d8I{c2tpZsK(YkdaKIn4w=FL_w4R%p>wh9S{={n^w0g=qv<Qp)7Znt3E9%
z;iNTgb+c>~`Cr7ilid79$R^cDaw9`+ouRd~4%V9<c+FXEg$qyTb!KEjtbbD)#BwVi
zk<x%IO;5T1BM~kWVV35IHc4VtCm{U`BfkY}16uKjG1<7TIp7^dz8x`icDoW_Ka3l~
z{*W%D32EI*I8#2aCgYb-lOAgt-72-?5hWssU1uJV5;+FzOy-m*6@Xm`=cH&LRfptG
zeO;X?x8!o|kX)&+bP5Bk=#fIxnL2Jc*|%S`hF+<R)K{t@b8lRIsg#oI5h-^|@u@Fu
zrY-GC7>(pkrHvuOBk~WX@<}dQ)&Vo*-3u#fe=;lwxI;SELCK%`N<H~iPS7K2Je0~S
zxo}5jP95AJrJ;2p!zi8f<wAOB;d+y~6c-Rx>&+ulW*QGG8O<b&89gSI<<?2C7)Cn@
zX-2LGkxx&I+aLiiFRZ;ZXhgXX>0M`1rDcSjzv0MD*d}ZVOiCNlB$yY95OF*6W@|xL
zVP;xXlW73aO+rnhf$(8b=;BCVE`+dSP*let6ra^JfdUAKS|UPL!U1ed9p(U%0+d|@
z?U)yIJAm8CFdEE-`(@&f_xx<u`p3W6F${_!IuTbwQ3l8xCTGUSgCMscsv%0?6i0yV
z_6Lwh(23FuBJvo4fZaf9A~NQbPyE$S(EP)WiQ^Z4_{-Ykzu1AQFCr(!<MWSs&kOP(
za9&ROL8W93qM?NRZSep9oh!-spcuvvRyseDnS=nLC5e>*uXkozRKEeVQdDxuz>~a*
z#URQ+c#<^-SGFCv-ugYoQqLReB{g^+GN-Uy^;nn%iVX(nCG?t65_ZnZOhFYQCYggF
z5-u!;9dI@Sc8XdEO*4@Is6^pZF@>04F9s8wmO&s&)H?*_S<vtiaZeitB0ym((7FN^
z$f?2%@XVQ4(36G2Dwt})ltO@sR*RrPzB}UP3?8Elc1}>DzKftd1qwyXYZ#ydk(vjj
zNHbF*ksX%6qj4E{h?)ebK}}CXQ4)r|ZcQ+ySU7@O=J&8bd2mW7nP9xW0MGy)SceJq
zB~ZTd_(Q1kMG$PF#RNn$unSn`b<CIzGD!xN$~-8p5XV=aSg44ki=5!onA9K!6Gk1&
zAj$`8FKrf>--jSV3^SL}wE&hgo3QuDxRaq4jHv;GMFQeOkzT;rA%597**QX1B80gB
z#RziH4#^gCO8XOw7jjX&!hmv{IQ!z%XG07!50gd|+gUR$N}=R)*X)Z>6suDpRq=P4
z<_|R+5W6pWb<?8qb?s}~S9Yvw>LH}ChPQ87v2VE^dF%X}=lQKe+}5F(eIHU0KpxaJ
zEV&kpw=Mav%CG8P)-7&&z5TUzzOs`89(Y05`<Cvxp18?;arTATg*x7}A!gbTFLPWy
zcjesTY^-eK^;WKI^St49VfEtqKXu(adgJKL<2R1KTlF{2zi{${W8C0a)IT2UnuxOJ
zc=lP2efBeoipch$cr5WL+KW=M0r?>eD>^Kn&x#k8^MwsuVZ+ji<>2y(pY%o#9sSFF
zT-Qjf@K_>tBUiX_+4pW=^yo;maATB&n@f4~2F|=;@!930+~)ph_3l;ko_Jd5kvBcj
z>i+l5yYHE(oE`V_sFM0mRSLWAZ;R_LY37x86;!rmzHY&_WL>Vh>Ad0OJBGQA;Z^Tx
zE+@ER2!2ppcUMJe^X^fQ=bqt_xoyjvZnocO=eN7L?e5i+K`v)%#W1xdH;5_oiWW9q
zZNJja7d3N5&DX7O+26GDtpi-^K=jZsf9MzoKid<8;L{k8e7l(aLN>2y1F7k%X7g>0
zdEW9({XLl6vW3Xi*(<YGpS$uLU$&Ji+ZrotkJmT9(SEI+ukYdNd*bCAUbnwy=gYTo
z<=f&_&G)htg{@@r4OCfGR8th!n=ZD$(9Y`}oZhk68q-(ZuBzc`4lZZ&+xBtW_N{I^
z5UV*Dt2!8U9pPQ0oNJVKO>*$7nw;yqIPk*2s-ZkyQ5`jueO&BZs*Sg8eXIM;Ze&Z7
zK|I8D9Ex}Dyg6`VfbTrabsmNWl+ZFly~040H!SUsIXV(VY#orW|D>i2Wzd8rC12ac
z)po_Ix^G$EvA=ESdyaDOt2!!H`<|g3=FCv`@WFr#rsUxR4cIIaIzQghcwmG2&+8ix
z)T_smd=rR3&IoK5>cQX2kfL=f#(*a?3IU?Y#KH!xS<qq1q^L&A+vQcrI|Ax>y`htW
z7@*zoz$GTLz7uLl(V#Ph^i5h@GEi)Q>B=)Po>SUUpfD$=vuI5_=r}#LUPZEA4bW{S
zsg<d3TDcm;3o|jI>7?47Th*us8W5-(q?Xcpl7Ys66za4T)>NI6%dO2g=Gu0JL@#F2
zZ;~+Jkj||G>8EbCuotA(pr4#nw;_rqfJU+G-%C|plL=~{|17Y@30n0DQox`5A21-?
zluZi?Uto&a4q<@ltl|fBe|?ej(|+b}&}T?#f{*~_0E7y%-GVk0W~PXC4WbC4F>gfB
z&V*RN()^$<(t@c};0UwKVRS2}{N9jLFAAK@qS{PSbD9-$63U*Qw6NTy=15wg7Syld
ztVAZh9t2*{OfSgq{mfphMD6ups|2l>6P@Z{cp?BtofgN0C_NGBQ1W<^q~Br|OeEwa
zPbE?ehT%}K0$3NQJNi;iUwu2b;Bx1Sor{WSLnq(R%fT<VFKXz!lU>4RS8&-C0BN!}
z%*k(CaxNFWSQIU3ylz>RbC&IM>W@n+uLfTZ#to&sp_Vh$E?HuR`naL&u1e9MgComq
z0T5D_1E33eX?d52UL1-#+OD5jKFL{o=Ctvg0zRjL%fT9QHY{nmoL1hlg|lqA&crMo
z%cGoS@0|K)){=$s@AzLo{q57&H~y*r=BXQ}qKA+2hfi?utM<gKPw`eiXZ6Rd6LZ=-
zrh=%ZK$HZ-Hb@!-Ed-ow5y6Sf1>f~1MXZ7vUxK;vNY!RwvC*(C0Tieon-(NviL_ax
zNg(G+0-IDjDyWeO7i`V-M%paWhH@*(2G*pNmJtYzjJT3)yHuI93V@E*t$^BIkV?!1
zFr-=&TU0%}hYo;ZNnktxjQv0eIQ*d9MK&nvqK(afE)%R}!sCZ!=cq;OH9Qjmr4m?n
zjiC7N0OhesP)ZkRqA0Y8;m}$^>#xBA0T}K{=6$qyw3@&Y)NoB;Y9=ViBCst)#V%aM
z%um5e>_g@@1^{P|Vt`3RF?Z0yjl}#6EJ1xz+)YL{GUG$kHnEk|aE}4*IiT7X%Vyq9
zxh!_t4+<qB?o9SoadKZ}i2XU#$UX-a?6Al0q2#t|zTUcA!CAUsTiHvm7QbA)IR3`u
zwaGs`6|=W54{`QAbH<M?d6$b{EM7RtJG(jfS$52+KQI+6l*UXgylFFM+8i@&om1X1
z<<9BFO_09Kabb~7@IKgUwOHVU1a2`<_sL}sX%i+BbkB5>O3TGTwSWo%l$BwDf8OHG
zrS{17jwLvGn+QkPkNmg2zeIjzO5B@iNvH0;$SES6&D0Nz)T7il#or8RpvAeV7|G?<
zi2Bton-r4zrntY5N`>&|v8mLU3h)R#`Bkt9)tSylI8l?jy{X!y@s;=;&`(85cXvC?
zwD$<%2qpP>sk~omFJzl>6@dZ3pvu^O-4|;=@QdM}1cE?$31|-Fy{64I(x>YTVkFWS
zWa7z7<1|tUTHd-gIkMT;kCYF3ut&BZcq@;sD~UBdwl2L`7nD1m;8TC`{ZzTGli-#5
z0rL#lYdO_G)g}`8V6MmI4yp{s%7Oj(T`Hke;55t{K~L5}h+zVbL31D+!h1hj1}+SZ
zA%qt4M4Uy^?;Qu7KfpU!f;tHWQn2)uq6K?W`*(fR-@kkX&9xoZWXv6C<bhdpvn0Pu
zpenQ0^pHTvL!c=r_X1uoG9Q>f1(%@oLq<aL6M3R|0AzuX9k~)h7Ti?>UV)GKJ4~A;
zp=duqpK2UP`iQ6*{0kBwUhu$Eg0Rx0qXG{I!GQI6fQ7*X#zaM9!7Mfz83rPA0N68d
zEO_92fGbvset?hpEi51ljyAwoS>|Ib{~y81e12$1slXIT6E;dgKu=Tbe}&n+Kz(ej
zS~|;Fw*Xd@PDU1Tn!;60@tu78oFU${k#E|`HSOe^c5_X;`KG;`p>A$pysCOhK7ahD
zcIUk6wyp5;lP^B`k|$nTarM-dQ+#O)SK4yj7AxI4zXv3cuNz-8#tX`#j%{2)J73Vl
z74+OHj}`Qhunw+ZJ73Vt74+Wfi52W7VcWTa&Uit2ysGxDo+@v?OR3BA<_GQ?DO)*j
zt>LUSOWHR~*G#e6_El@go&3tx`dzX7UGcI?k;IJ`S4OKkx#BLqxSuNqHIZ2HUJ};L
z74P7S_i)8~-j&6Q2jj&X9%LyUg$v5NI?C?2YP@1xjJ!Vk+Uy@ZyIQd6vq~y&!zIr>
z1yxx0X)U#*Pj>V44^F?^5bHk5cOU1vkH@-C%<Ws~jyl_;_72XlJ#H#mt?YQ;)Ny<F
z&^xDpcslAj7Tf&<zuUv@_QZC3=M4+bM;m*hCA(J5z4uzF<^kE=O_Vk}MZFhsnj)0d
znu-8-{j3$LzwG%J78ycsH}=~06lA?qpxaZcXU;)LX6=RDri^DSo{O2zrgUT#%0!b=
zQUVB&Iad;y6my{c7{x?I+U*!P?Pj1Y)0+S~qHviQJV%Jk6HZIFBJJ)8xt#&hFcm9L
zC^l|^yDRQA_-T~NNPU4OM+GZ$DnxQ+k_>0MF#{;J9HesF5>h!eNN&IQSmaB!rM?nW
z{WtGP*00r*q^3y5p8WrxRh)${Z&o$G)>wSGv-;)sL<^*25_ikIQfW2fe<=7eQf&wi
zP?)gJ&?>x%S5E<!2p2c^sP^^~Y%BAaXTtZAGPaN&YQQsgopI}Fa*Hk#R+Gj}($hKw
zO^;2b$5d`P4R_)IuQj-Jv=Ku>*(3kCOWq~kQ_N}v0LsFhKg7sJo|D4e2G{3cKduds
zc%6~<aC&*}?6ok=8-(^y8Feha%%01WxUg~LTT+i;cGG)0C55|<Uq(+4R(t`NEA=r0
zzYZa4$T;#3xB^3_k-IJltxOwbS6!MX;Up{vliTFNjO&avBjlvYw4TX&hxz!Tb-~Fd
z?g8)5$UGt+V4caNHL|818`ot3?_=|1sz)j`tvD%&^fyx;I2+d+kwT<RWT#{v2{`4}
z8=_U<0XhZwn#7EDNiG=AFIcxkFG*jZszHn!GCyKQGPL81*X1^24`~zb^8GMSNYS~e
zE?Gu6C+-w^5cZ2`pq>ot=MnAfmU5-Ojmed>NA3mK0lWxHW-42nLl_H~tx%3z<IW*1
zS9O3al;A){SbJ(QREou2@QBuA+A~m~+v3gvO4KY;hY}_OeEiQn#}aMQW^7YdqD_g|
z-?&YdwQU;RDUG9Rm*h%)f$q*cH^?{og6nYI9>_4$bWW4fZRt;5#eubxkw=o6y?+N7
z>0{>d-?)W{X=*-ywf)*H{Bp4-#Q(Jau3HFr-6K|iW=P(b+BcFb1)03Cc%igCQcUVA
zt?E$jZ@3q8>D(r{J9o|g$-HYbw|j4@Et0DP_%eiFrrN(7uh~pk5u#666WUSmRzmV>
zm+DtsYwz^`YP>x3*f6JUHV=7Pz{W~FFhsORnETL1<^fuNh1OrAh1B(|x}V%#6@`It
zO%z@q8Ut03083O@eu?S+39Zl2`e(ErqSb-c5?HhO%|uHC6<P@EM`Bpb=B|rCxtdc6
z`d6UkLf8Q$Kl3sa;*>Kw8E}en66_vey-5tG1I`U1<Lffkcmk~_(K>?`;%tQPMJ}xq
z#T>#L6NQ!$jCG)ebuj;m*59G^zraHAD7<Pi$^35&K`t0kL=uXUIz8U8u^Eu15Z+)y
z>q&DG-a#Q;wU;mhwwdVQ2wD_+ii|h7DbIMPz#X0ejeGSJj7N}R_G5ZP2a!QG0U{C*
zXF_Kg;C(<-;PE6-bxN?+(kf(BSi>zy<FtxuJ?FqJ%55%yOOU~Z8Xrrp;Ut8ec<os*
zrkHTV5BKNcNdWO)FkA{iH<5B;B;nC9O00<R=g7?dBNnbBr9|L{LXdHj0Pk6Gl7R#I
zGz2gd<YI9W(j==%r>FyzP;DZsP_QP2L1~&zxmXCOeXL>afk;#fx*;W;ri9lxIgN8^
z!>Xp`u7;{_=IeHFbvyXFA+BzSuRF}u9bT=YS8dO%)X`VYEkvS6M_0#Yxudg}eOw(K
zvpw@bA+tRv6Kv0bW`#?3O!lfDC9z9wpgT1C=ImR~z4@G|Kg5;pTe0o?fTYvr+@&zr
z9j~AFp5?q}Vfmkw^`brxeu!_c=-Vs*6axq4u)7L}<gn4u6Fu_ecQ(J?`R&f@isinW
zgEt0m?!U30?>xl8uk!Fp;bBtJpnT2<oK47fr>^NY=vSW9ufwtt*{d^GpMCk+rJn1)
zw@$rz3ZF;fw+wRdD;rwL8%p#m7y1Rc?mXq=pPJ#Gnt`5pWxKE^_#r-`$>arvCg_(}
zHh}#q8pM8~C+a@_o&MMNeS05Bwm04ExY2R5>qZy9{U8UwszWP9he$~S@;MXq3$lHT
z7d-jGX0EV#S-m`S>+p?p%Yo>Yy)aAs(bL?~)6wwsitEgKHfFB>j&#ATmdmSMvc>Y6
z=l0wwC`J}%+?*dRXyMGQyt$n-w=b8+%$+1`BWG^o&D%Ni_T`?KxtoNwapp~NvmLIJ
z04LU71Dsg9ac<zQnJO+{Eai$?fDvpciW!`6o7B(*-?*VL1`_!JzM+$A=!`XV^9_Am
zLtm_6H)q%lF?R@$G-m3E=NIw$&0KzS+*%YZ-o#lq^VTlT+O_PBS$C4KEu3{LZ{5LJ
zcifW2th?gY5@6OA<bWoYj<OWR%(Y8BoVgLc(7u?tW@*zK+plf^!!EwQo2&1R)$ioY
zJ6Fv$ALkcee)h#@7kjT~MYkQ|S`PCqBOLtlkIgIZ*h@IOb8ZkeNMY6Mf!6|j^$-U?
z`w$7s&gTtfoS_W#mmr13#+$1+bJgM*4yx{ZW8fNe@-PQK)8VN5NX&EuFAT!vLEc=+
znJZV#8^F(-%Q<s7Z?5Ld)vMUjM2cD{W7S*-#aat4cVFt}bDOx_rlm7nZtL|bE_bV>
zVK&Hh490Q?Z<kbjrwv%s&%gFOU$cv=*%hnoeZQn{K^EW9d-ME_^Zbs3+>V0_N}OK4
zpp7eNyADit(CCX5bOQgnv|k1_Wm|ZIW5wWD?BNU>-ZMBL2pVXr<V=-|KC$<mTy-aB
z>bxaeHTB#nDVx{D?G;x`uav$IT>hSTKD-2S>AA%-@8#FV`wzT(=I!Ir;S*8MQ{1qZ
z>-R?e0p1_t{2^HQ<FX;#28mBU_!e}F-bFfEyCYh;Ggi=ZPX$bMXh2~tZ*So24e#5V
zu!3qB+<fO!&wKfe@t%XxLx;H@SJdqT9YM}L!Szf;Plx%_5$<#Z>IljXV;zZ45BQ`y
zwnvF>BG%Ci8X%T}%f=V+LKI)z!WFl~ODf`prB|D-H1UO-xx&rYy<Fk8Wh+<M9j~e9
zYqoPW+wW=BjvQEJ`Q>-@;QEwOTXOH_P<{|r^FD_2F{{2vtaxU{7l|Hw3Y0{G-ws}H
zTaMhEy)k?9xf{>%J7^Am)x#?#!<;WNuZ<SZ!~^H}z_VQ7+10@FvGT911fGwc@PBXf
z8=c?nTvpubduQ<N!FTq*y`S$J;ow()Y^CBD7kGZ&7%l%wd~AvzW4JM9bu1DqnOPZ&
zL`OW|nR)%$Z$EpzXW56UDL1EXO!3_=4t_QCN-52aMdo$Ul9~AAIezk4Zt~gH$>(Dg
zUs;)aKKi8Zd;M?h`|iGF%dJiCbiCd1PS@LAeD6^Xehnill_T8b^Yf-?#aA+{j-6cf
zPR_Iw#5AUUkhP#n;VWMO<xX?{+5xWHa!;j%0aR1@m3KkD0t2Xo0W_wTTjcfgubt;>
zI=Pz8_f4H2m~Hn@%c(q8_V7VAmG`Xd;eB$<JiM<&aQ^V;wr4N|KrMy<AbfcLfSf8h
zD|;xEf90W2GV@TV_zH_S<l6@Glg;Y49cr{2x}Myu{E?;W$qwb8Z8bl+L;YjD8twe9
z6DsAOcXpl7Dc|4Rb;6{MtGiBE)gM5(T`kmhohVhW5w2uG!63M$9<0LQDqVBK+vAx;
zDnPEn)i-2z0STG$+Gi#uhIK+04b-;IWKs>xToPWa1!Y08{tWs#nG_j5PY(w~7KG8C
z5Wm1^h~k@(O&}lv0Rg$Tq=L5=l%u&)qhV|ilUZjnky^-<mPGNiMsmq1&~GY`vS(t=
zfELjay!h3wfXjxc=_Hr(0+9eO6FTty2SOw~T7*3z7w^P7^|LnGdlnu7#pg#IDgAST
z)gKs!#~L;Mr$J@j6F$9WWhkMA*yjiP!1@9&eNdU+JCKMkSOZ8zfT>EnRG|>X&`K8C
zCg|`oH(t=d$3;c#{J%lk^lJ=)rZecBI_dLv3w2545HqK#)TdozNTmIbh%(|>U!cC{
zf8*45Pc7T{_5rSaAl5$g?(k}pi>UO#7-W;8#%DrAoIgw6uWUNSf@EKIj)_76kVcKq
z0>HbYM)9J7X3Bfo4;Kws@e+cGl#qHIGmXf&2>J06JoXQ+@18-gG7NVJ80;nU7V(qH
zl)jm%X=j$G2dNXq;pE=RE0~a=(i7;aLF>n0vABT~n6!vTi|t6wvrzD;;X03lgOy*P
zey*{^HM)!Xuj}Urm#izACV+1syfwaH<Tcftrh0L9RkKkHOR8gU;4~ZJhP)37U8ovf
z4XWW<-CYA!Q!gI3+qmj&e04Wh-Mw19bJg0jQoZwvZ^1i%_{CuWwR2ifSG)~6=M|T0
zF4bIaxYV#PyR<!)vvoOlHM{GU<+j0map3C%^MR$-6+`1^3d-0W&F*^mKtb7d$v(>N
zdM~@{U)UUI``cZ{-dyz$H|6!(6+g1;dTX-Q+^)glA@I!rHoo_hNlQ^$rJyF0Sf#+$
z#`V9>q*S766ER)~u#vxD9(ZF2TSH7rFB0lZ3L>F(NujZn5?Yc0&ZRM(zYmO76nP<m
zxX!rKuY>{=L9#OSTqKRTzF>W{q7iy2?P0=pArD*nKnw;VDpK+nFAW88gc<x4iX<M9
z4<~n>0hX^?stp8v00AMdZCxVproSrk`Pcs8M1yx+p_Ia3Errf%N-DC0A{A^^JPm%$
z_G;PyQa_@V$&1mj2J)o(Gd)f~*u-COrrcOtrrv1Ndo!VfbD?5Cyvdy6{{+L~X@~!5
z{}_4E`s8_h)nK;B<%b7ifoCH=sh9#QO-)UN74!-26OludP~T~u&1xo8ya#TDor73G
zm&!&sEVJt7@c_OqorpIRUm74MsSW_3{U2C3Vhn;2pJ+~%BdDes;Ejmv5`?eJ+h~;l
zND~zBcA}6CFK~e(I6k}p4-qmg5J7k-3~~`fUXn`Wlx)HP(oSQld<43Jb$z=qltqCC
zfw&^P1-OpSM#76F=`SCMLHI}(I|vqeml*jJ<(#H`RZ|H!lMEJKU$&wz<Mrhnyn1Ud
z<?W3t_QsgKd2SG*vvZ<3&8vnMaHg)yv~oqQ@7p%c^~Vin-cZaLiWl6ghDrd;mOOZw
zQ2Q#qXn~hx23{NBt2(%<j%6=bwIf!NL~P&P5OvXi;f#(P=SRHUh?gG;aU-Gk214=5
zIv_F0wV7R9{jO+T@2#!xZjK&y{l(UIoze2)c_6HT-XkR9iB<Eaj}vGykQ)^(DbfP*
z;eSGW_@0HzYr9)YRXCTdZ`iNddFM{fxiebZb1N@ewl}INCeOnabDH94Nh=&Jw>74V
z#;+UUnTN~AE*;}-^_;Cf?$|_>p4zywwtGMv>wZZowW1ELQzKpmB<#B1$BF+vv|d8%
z3R;)ZS^x_l1Nvw9f>zwuFzmO{`W>|9(0TzaJRjg4<Osu%wfq!@k%dQifWJU5ve)3*
zA6Rg>!o=0oiLS3>>^IP=LkrIZ=3A2W3^>>Uuzs8RK-qRznWM5U3@=tLvWvA>PJBv%
z_kQhm)rjoVSy_(C{%Nfq0t(Aj#dmkhd@@zuV(zCDe(&#7SX52FtgcXry(blnL9t1b
zR73s_Ips!^5t*@g>AVZ!d5Ft-ouOqZEqK5_5#v`9j6YLaRqCn@ttLvik4~#iDHOo7
z2Jjfp=ag$mD>s`qer{S*T6;k(m`t0!u4CX$_8l)afiQBtNuKPLa8@SOaWbh^fg+YA
za~W_><+Lg2+;*9Rf(N4?R|;bIR-|dt-iVXAk|#o{h0>`H6omY76h!Lm4=HH)0~2)e
z^mb536|M{lF0_r#lTLWIg0|H_#iL0z7wD-Y)e^}yS|PbyRgx?9&7>+KjX#tp4RtC5
z(3hFiB<TDmIb8tvLX@eC>!V5WD4gHQ(N?Jt+D;c@>v5@~G7w!v7sC@BCGAQOH>q50
zQo7VvY7tOnl9QrK-D=D&jX2CrY8JPo@=C50W(X7-^=PW>z<*CrWn~9uHI0pMtqJ~S
z!tiXtA-KhXuN8{{jzRk10eEyc2=}Vt&j!G4D?!7+pBo5(zOkU3^arPBvl|=9RcrFD
zG0U_8ESj|)n1Ofn8GP3nj&A8;e>h}&5PD_#{NztdFuf$Ln15n=hV{TXnRrxxLhR4o
z9kcdSS@`EA9FQha;H*u|I<__|A(GOw^{&g7)7Z$stNxRIcpn(<Sc7sjJKKou#1Qh=
zEF6hoa@_?4Dv>}V{*j9$hB6E95})sAZk|<lw6?Ugv;s+%mB<3u(sBb6aJ$RzVf^Hs
zQn-5zuiIy%3?&lw_!xL$nPJ*-AdJ|I6m|ev70^~e0sVyG)~5}tkOhC7zyo6>SfRP(
z?`fou7QCDaB|!`{6$Cir8-u|qk0>95yZ<a)Wrqi`$<=e_0t~E>1x+{^X8j=BvPl=F
z!_#TQFIduo#ibw^6Mv`!?xd5yuc3oKg^+O1mJCaOb|m?JQ<DP`HfT?W!&xk7;O!}p
zGQne0#-7A0REN;Z2nM|7F1<{}bi=qXJJ2FRE+qQ}Gj=Y0wgd%)zzdS_^cB;91Bn;=
zVEHnQ=z;4#ULScrn!(eE8N$+Vj|$4M8J|}$1Xz#vtT#aZ%88JRqr7efiGk}@B!k3{
zc%tgCFvU33z7;Ffz&i~QU-(=I{%nDobdnK~f*)g!<5>MLrpqE@3S9=_85tQQ!U+B*
zUG7s(0UpduK;k#yKl?{u!Go3AHa@#*CA%t?T@8PLK&j)E`J6I;LHE7f>yhZL<5BcJ
znF=?3Z)~|W+WQ0vA5Dfw3!1<0zePt6o+1&a*F=onYK;z!lZc75h=%XC-BLz}W=X^|
zcl3ZL7IXUIn7;HvAE0{hux?f{{BCRX7d2nkENoe<;w!dt6<ed_+m_W)`;M4q=f`3k
zsHX!v_`V7#bGU7+GtT)go_^u<s<v>!d)s2WY=6<d(E7W@b84WkbwwaEE8Bn??n`A+
zV9b{eUD!RhgHskE23i@n7Vy?8&RTWbY{Q2Hd2<bCu8EnQcXIQ2cw8&D9-cE49rsj<
zQr*3*tUUFF1Muj!spxiTb-d6K&);x6w>WOEj_2AJsu#<+!q%vLW7N_Xx7q-`v+C|?
zwI=n2J$DNzqwV783!~q7^1|+qmD(uCU#gc1qPmT%$~I_=O7lDWzPj&g2R`eUL8IT(
z7XAyl_WYxb`FmuFcVxOfrYz*O;GB9q&YdEPN7yI0PDLT`ATE(3;DtYfaef-88-fFh
z=pP;&f*x-ykjLCWf(a5wcv%{)C$Iz!x{zjv`ybx(O=Nj7xH!qe7fi{(Ci0ktxPlQA
zVG!LAvM}BYPmv(OPJj{mni6{nPZ=R6k)$a_k1!UDK(>_lmYn!J9NDNU@`wfzag&E2
zLM+_qn8IfyY><aMF2UquZjJPk19|#_c>`mSQWSE;S2seT#Cse}C?vk<ejSq_svzRm
zrI<K3nONeMd4urIdq~iw{N%QwppjCFa(M@qQ;im&R^r1R%r<lZHz4si1;LzgBZ|oS
zTD%%Kfa2Sc-3)TB;774Hz`CoD$z<@dqfGfgN6B<QrSw0g3_qo^e@dA?qN+Kn`XkEu
zb4vFSRrC?n^bs}4QG*{+MITbNA5zZ0r>epJ3^Ieb1*~5}2^AkwH6K#-A5tYBQu!ZI
zWl^f^Lu$i^lnpkB%^syJaZ~OE1H2sxf2!-gQ7J3EZ!D8NCI75XRxAT97+9Zmvr3u%
k9)<S(pmvKa_bwx&l!m$4n8N;nQuDRlAYoP(5|ZKn0+)43`v3p{

literal 0
HcmV?d00001

diff --git a/F2LLM/configs/ray_config.json b/F2LLM/configs/ray_config.json
new file mode 100644
index 0000000..7011b93
--- /dev/null
+++ b/F2LLM/configs/ray_config.json
@@ -0,0 +1,23 @@
+{
+  "model_path": "models/qwen3-4b",
+  "experiment_id": "ray_distributed_4b+lr.8e-6+bs.16x32+context.1024+2epochs",
+  "train_data_path": "training_data/data_tokenized_qwen",
+  "output_dir": "output",
+  "tb_dir": "output/tb",
+  "cache_dir": "cache",
+  "train_batch_size": 16,
+  "checkpointing_steps": 5000,
+  "validation_steps": 5000,
+  "max_seq_length": 1024,
+  "learning_rate": 8e-6,
+  "min_lr": 1e-7,
+  "weight_decay": 0.01,
+  "warmup_steps": 500,
+  "train_epochs": 2,
+  "log_interval": 100,
+  "num_hard_neg": 7,
+  "gradient_accumulation_steps": 1,
+  "num_workers": 4,
+  "num_gpus_per_worker": 1.0,
+  "num_cpus_per_worker": 2
+}
\ No newline at end of file
diff --git a/F2LLM/ray_distributed_run.py b/F2LLM/ray_distributed_run.py
new file mode 100644
index 0000000..b9e6943
--- /dev/null
+++ b/F2LLM/ray_distributed_run.py
@@ -0,0 +1,491 @@
+"""
+Ray distributed training script for F2LLM embedding models.
+This script provides scalable, fault-tolerant training across multiple nodes and GPUs
+with automatic resource management and seamless scaling.
+"""
+import os
+import json
+import torch
+import random
+import argparse
+from typing import Dict, Any, Optional
+from dataclasses import dataclass, asdict
+
+import ray
+from ray import train, tune
+from ray.train import RunConfig, ScalingConfig
+from ray.train.torch import TorchTrainer, prepare_model, prepare_optimizer
+from ray.air import session
+from ray.air.config import DatasetConfig
+from ray.air.checkpoint import Checkpoint
+
+from arguments import Args, parse_args
+from utils import CLASSIFICATION_DATASETS
+from transformers import (
+    AutoTokenizer,
+    set_seed,
+    get_scheduler
+)
+from datasets import load_dataset
+from torch.utils.data import DataLoader
+from torch.nn.utils.rnn import pad_sequence
+from torch.optim import AdamW
+from model import F2LLM
+import torch.nn.functional as F
+from torch.nn import CrossEntropyLoss
+from tqdm import tqdm
+
+
+# Global variables to hold tokenizer and arguments during Ray worker initialization
+_worker_tokenizer = None
+_worker_args = None
+
+
+def set_worker_context(args_dict):
+    """Set global worker context for Ray workers"""
+    global _worker_tokenizer, _worker_args
+    _worker_args = args_dict
+    _worker_tokenizer = AutoTokenizer.from_pretrained(args_dict.get('model_path'))
+
+
+def _stack(input_ids, max_len):
+    data = [ids[:max_len] for ids in input_ids]     # input_ids: list of lists
+    lens = [len(x) for x in data]
+    tensor = torch.tensor(sum(data, []))            # (total_tokens,)
+    return tensor.split(lens)                       # list of 1-d tensors
+
+
+def collate_fn(batch_raw):
+    '''
+        length of input_ids: bs * (2 + num_hard_neg)
+        0 - bs-1: query input ids
+        bs - 2*bs-1: passage input ids
+        2*bs - 2*bs+num_hard_neg-1: hard neg for sample 1
+        2*bs+num_hard_neg*(i-1) - 2*bs+num_hard_neg*i-1: hard neg for sample i (i from 1 to bs)
+    '''
+    global _worker_tokenizer, _worker_args
+    
+    if _worker_args is None:
+        # If not initialized via set_worker_context, this should not happen in proper Ray setup
+        raise RuntimeError("Worker context not initialized. Please call set_worker_context first.")
+        
+    num_hard_neg = 1 if batch_raw[0]['dataset_name'] in CLASSIFICATION_DATASETS else _worker_args.get('num_hard_neg', 7)
+    
+    # select args.num_hard_neg hard negatives from a total of 24
+    hard_neg_indices = [0] if num_hard_neg == 1 else random.sample(list(range(24)), num_hard_neg)
+    input_ids = _stack(
+        [s['query_input_ids'] for s in batch_raw]+\
+        [s['passage_input_ids'] for s in batch_raw]+\
+        [s[f'negative_{i+1}_input_ids'] for s in batch_raw for i in hard_neg_indices],
+        _worker_args.get('max_seq_length', 2048)
+    )
+    seqlens = torch.tensor([ids.size(0) for ids in input_ids])
+    # pad input ids to [bs, max_len]
+    
+    # Use the worker's tokenizer
+    input_ids = pad_sequence(input_ids, batch_first=True, padding_value=_worker_tokenizer.pad_token_id)
+    attention_masks = input_ids.ne(_worker_tokenizer.pad_token_id).long()
+    
+    return {'input_ids': input_ids, 'seq_lens': seqlens, 'attention_mask': attention_masks, 'bs': len(batch_raw), 'dataset_name': batch_raw[0]['dataset_name']}
+
+
+class MultiLoader:
+    """
+    Iterates over a dict(name -> DataLoader) and returns complete batches.
+    At every __iter__ a new random order is created;
+    the epoch ends when every loader is exhausted once.
+    """
+    def __init__(self, loader_dict):
+        self.loader_dict = loader_dict
+        self.reset_epoch(0)
+
+    def __len__(self):
+        return sum(len(v) for v in self.loader_dict.values())
+    
+    def reset_epoch(self, epoch):
+        self.rng = random.Random(epoch)
+        self.iters = {k: iter(v) for k, v in self.loader_dict.items()}
+        self.names = list(self.iters.keys())
+        self.weights = [len(self.loader_dict[k]) for k in self.names]
+
+    def __iter__(self):
+        while self.names:                           # until every DataLoader is empty
+            name = self.rng.choices(self.names, weights=self.weights)[0] # pick a data-source at random
+            try:
+                batch = next(self.iters[name])
+                yield batch
+            except StopIteration:
+                idx = self.names.index(name)
+                self.names.pop(idx)                 # this dataset has no batch left
+                self.weights.pop(idx)
+
+
+class RayF2LLM:
+    """Ray-based training class for F2LLM models"""
+    
+    def __init__(self, args: Dict[str, Any]):
+        """
+        Initialize the RayF2LLM class with training arguments
+        """
+        # Convert dict back to Args object to match original code interfaces
+        self.args = Args(**{k: v for k, v in args.items() if k in Args.__annotations__})
+        self.model = None
+        self.optimizer = None
+        self.lr_scheduler = None
+        self.train_dataloader = None
+        self.valid_loaders = None
+        self.tokenizer = None
+        self.completed_steps = 0
+        
+        # Set environment variables
+        os.environ["TOKENIZERS_PARALLELISM"] = "false"
+        
+        # Set seed for reproducibility
+        set_seed(0)
+        
+    def setup_model_and_data(self):
+        """Setup model, tokenizer, and data loaders"""
+        from torch.utils.data import DataLoader
+        from torch.optim import AdamW
+        
+        # Set worker context for Ray
+        set_worker_context(vars(self.args))
+        
+        # Initialize tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(self.args.model_path)
+        
+        # Load datasets
+        train_datasets, valid_datasets = [], []
+        for f in sorted(os.listdir(self.args.train_data_path)):
+            if f.endswith('.parquet'):
+                dataset_name = f.split('.parquet')[0]
+                dataset = load_dataset("parquet", data_files=os.path.join(self.args.train_data_path, f), cache_dir=self.args.cache_dir)['train']
+                dataset = dataset.add_column("dataset_name", [dataset_name]*len(dataset))
+                dataset = dataset.train_test_split(train_size=0.99, shuffle=True, seed=0)
+                train_datasets.append((dataset_name, dataset['train']))
+                valid_datasets.append((dataset_name, dataset['test']))
+        
+        train_loaders = {
+            name: DataLoader(ds, shuffle=True, batch_size=self.args.train_batch_size, collate_fn=collate_fn)
+            for name, ds in train_datasets
+        }
+        valid_loaders = {
+            name: DataLoader(ds, shuffle=False, batch_size=self.args.train_batch_size, collate_fn=collate_fn)
+            for name, ds in valid_datasets
+        }
+        
+        # Initialize model
+        self.model = F2LLM(self.args.model_path, self.args.max_seq_length, args=self.args)
+        self.model.lm.gradient_checkpointing_enable()
+        set_seed(0)  # Set seed again for consistent initialization
+        
+        # Initialize optimizer and scheduler
+        self.optimizer = AdamW(self.model.lm.parameters(),
+                              weight_decay=self.args.weight_decay,
+                              lr=self.args.learning_rate,
+                              betas=(0.9, 0.98))
+        
+        # Calculate training steps
+        override_train_step = False
+        if self.args.train_steps < 0:
+            self.args.train_steps = sum(len(v) for v in train_loaders.values()) * self.args.train_epochs
+            override_train_step = True
+        
+        self.lr_scheduler = get_scheduler("cosine",
+                                         optimizer=self.optimizer,
+                                         num_warmup_steps=self.args.warmup_steps,
+                                         num_training_steps=self.args.train_steps)
+        
+        # Prepare dataloaders
+        self.train_dataloader = MultiLoader(train_loaders)
+        self.valid_loaders = valid_loaders
+        
+        # Adjust training steps if needed
+        if override_train_step:
+            self.args.train_steps = len(self.train_dataloader) * self.args.train_epochs
+    
+    def hard_loss(self, query_embeddings, context_embeddings, hard_neg_embeddings, criterion, temperature=0.05):
+        """Compute hard negative loss"""
+        if hard_neg_embeddings is None:
+            return torch.tensor(0.0, device=query_embeddings.device)
+
+        bs = query_embeddings.size(0)
+        a_norm = F.normalize(query_embeddings, p=2, dim=-1)
+
+        hard_neg_embeddings = torch.concat([
+            context_embeddings.unsqueeze(1),
+            hard_neg_embeddings
+        ], dim=1)  # [bs, num_hard+1, d]
+        
+        hard_norm = F.normalize(hard_neg_embeddings, p=2, dim=-1)
+        logits = (a_norm.unsqueeze(1) * hard_norm).sum(-1) / temperature  # [bs, num_hard+1]
+
+        loss_hard = criterion(logits, torch.zeros((bs), dtype=torch.long, device=logits.device)).mean()
+
+        return loss_hard
+
+    def simple_inbatch_loss(self, query_embeddings, context_embeddings, criterion, temperature=0.05):
+        """Simplified in-batch loss calculation for Ray (without cross-GPU gather)"""
+        bs = query_embeddings.size(0)
+        a_norm = F.normalize(query_embeddings, p=2, dim=-1)
+        b_norm = F.normalize(context_embeddings, p=2, dim=-1)
+        
+        student_logits = torch.matmul(a_norm, b_norm.t()) / temperature  # [bs, bs]
+        
+        labels = torch.arange(bs, device=student_logits.device)
+        loss = criterion(student_logits, labels).mean()
+        
+        return loss
+    
+    def validate(self):
+        """Run validation"""
+        criterion = CrossEntropyLoss(reduction='none')
+        self.model.lm.eval()
+        
+        eval_metrics = {}
+        for dataset_name, valid_dataloader in self.valid_loaders.items():
+            loss_ls, loss_hard_ls = [], []
+            for batch in valid_dataloader:
+                with torch.no_grad():
+                    outputs = self.model.forward(batch)
+                    loss_hard = self.hard_loss(
+                        outputs['query_passage_features'].squeeze(1), 
+                        outputs['passage_passage_features'].squeeze(1), 
+                        outputs['negative_passage_features'], 
+                        criterion,
+                        temperature=0.05
+                    )
+                    loss_hard_ls.append(loss_hard.float())
+                    
+                    if dataset_name not in CLASSIFICATION_DATASETS:
+                        loss = self.simple_inbatch_loss(
+                            outputs['query_passage_features'].squeeze(1), 
+                            outputs['passage_passage_features'].squeeze(1), 
+                            criterion
+                        )
+                        loss_ls.append(loss.float())
+            
+            eval_metrics[f'{dataset_name}/valid_loss_hard'] = torch.stack(loss_hard_ls).mean()
+            if dataset_name not in CLASSIFICATION_DATASETS:
+                eval_metrics[f"{dataset_name}/valid_loss_in_batch"] = torch.stack(loss_ls).mean()
+        
+        self.model.lm.train()
+        return eval_metrics
+        
+    def train_epoch(self, epoch: int):
+        """Run one training epoch"""
+        criterion = CrossEntropyLoss(reduction='none')
+        
+        # Reset dataloader for this epoch
+        self.train_dataloader.reset_epoch(epoch)
+        
+        # Initialize tracking variables
+        loss_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in 
+                     [name for name, _ in self.train_dataloader.loader_dict.items() if name not in CLASSIFICATION_DATASETS]}
+        loss_hard_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in self.train_dataloader.loader_dict.keys()}
+        count_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in 
+                     [name for name, _ in self.train_dataloader.loader_dict.items() if name not in CLASSIFICATION_DATASETS]}
+        count_hard_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in self.train_dataloader.loader_dict.keys()}
+        
+        for batch in tqdm(self.train_dataloader, desc=f"Epoch {epoch+1}", disable=not (self.completed_steps == 0)):
+            # Forward pass and compute loss
+            outputs = self.model.forward(batch)
+            
+            loss_hard = self.hard_loss(
+                outputs['query_passage_features'].squeeze(1), 
+                outputs['passage_passage_features'].squeeze(1), 
+                outputs['negative_passage_features'], 
+                criterion,
+                temperature=0.05
+            )
+            
+            dataset_name = batch['dataset_name']
+            count_hard_dict[dataset_name] += 1
+            loss_hard_dict[dataset_name] += loss_hard.detach().float()
+            
+            if dataset_name not in CLASSIFICATION_DATASETS:
+                loss = self.simple_inbatch_loss(
+                    outputs['query_passage_features'].squeeze(1), 
+                    outputs['passage_passage_features'].squeeze(1), 
+                    criterion
+                )
+                count_dict[dataset_name] += 1
+                loss_dict[dataset_name] += loss.detach().float()
+            else:
+                loss = torch.tensor(0.0, device=outputs['query_passage_features'].device)
+            
+            loss_total = loss + loss_hard
+            
+            # Scale loss by gradient accumulation steps
+            loss_total = loss_total / self.args.gradient_accumulation_steps
+            
+            # Backward pass
+            loss_total.backward()
+            
+            # Update step only after gradient accumulation steps
+            if (self.completed_steps + 1) % self.args.gradient_accumulation_steps == 0:
+                self.optimizer.step()
+                self.lr_scheduler.step()
+                self.optimizer.zero_grad()
+                
+                # Apply minimum learning rate constraint
+                if self.optimizer.param_groups[0]['lr'] < self.args.min_lr:
+                    for i in range(len(self.optimizer.param_groups)):
+                        self.optimizer.param_groups[i]['lr'] = self.args.min_lr
+            
+            self.completed_steps += 1
+            
+            # Report metrics periodically
+            if self.completed_steps % self.args.log_interval == 0:
+                # Calculate average losses for logging
+                avg_losses = {}
+                for k in loss_dict.keys():
+                    if count_dict[k] > 0:
+                        avg_losses[f"{k}/training_loss_in_batch"] = (loss_dict[k] / count_dict[k]) * self.args.gradient_accumulation_steps
+                for k in loss_hard_dict.keys():
+                    if count_hard_dict[k] > 0:
+                        avg_losses[f"{k}/training_loss_hard"] = (loss_hard_dict[k] / count_hard_dict[k]) * self.args.gradient_accumulation_steps
+                
+                # Report metrics to Ray Train
+                session.report({
+                    "step": self.completed_steps,
+                    "epoch": epoch,
+                    "lr": self.optimizer.param_groups[0]['lr'],
+                    "completed_steps": self.completed_steps,
+                    **avg_losses
+                })
+                
+                # Reset losses for next logging period
+                loss_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in loss_dict.keys()}
+                loss_hard_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in loss_hard_dict.keys()}
+                count_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in count_dict.keys()}
+                count_hard_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in count_hard_dict.keys()}
+            
+            # Run validation periodically
+            if self.completed_steps % self.args.validation_steps == 0:
+                eval_metrics = self.validate()
+                session.report({
+                    "step": self.completed_steps,
+                    "validation_metrics": eval_metrics,
+                    **eval_metrics
+                })
+            
+            # Check if we've reached the target steps
+            if self.completed_steps >= self.args.train_steps:
+                break
+
+    def save_checkpoint(self, output_dir):
+        """Save model checkpoint"""
+        import os
+        os.makedirs(output_dir, exist_ok=True)
+        
+        # Save tokenizer
+        self.tokenizer.save_pretrained(output_dir)
+        
+        # Save model
+        self.model.lm.save_pretrained(
+            output_dir,
+            save_function=lambda model, path: torch.save(model.state_dict(), path),
+        )
+        
+        # Save training args
+        args_dict = {k: v for k, v in self.args.__dict__.items()}
+        with open(os.path.join(output_dir, "args.json"), "w") as f:
+            json.dump(args_dict, f, indent=2)
+    
+    def __call__(self):
+        """Main training loop executed by Ray"""
+        # Setup the model and data
+        self.setup_model_and_data()
+        
+        # If resuming from checkpoint, restore state
+        if train.get_checkpoint():
+            checkpoint = train.get_checkpoint()
+            # In a real implementation, we would load the actual model state
+            # For now, we just continue training
+            print("Resuming from checkpoint...")
+        
+        # Run training for specified number of epochs
+        for epoch in range(self.args.train_epochs):
+            self.train_epoch(epoch)
+            
+            # Save checkpoint periodically
+            if (epoch + 1) % max(1, self.args.train_epochs // 4) == 0 or (epoch + 1) == self.args.train_epochs:
+                checkpoint_dir = f"output/{self.args.experiment_id}/epoch_{epoch+1}"
+                self.save_checkpoint(checkpoint_dir)
+                # Report checkpoint to Ray
+                session.report({
+                    "epoch": epoch, 
+                    "checkpoint": checkpoint_dir,
+                    "completed_steps": self.completed_steps
+                })
+        
+        # Final checkpoint
+        final_checkpoint_dir = f"output/{self.args.experiment_id}/final"
+        self.save_checkpoint(final_checkpoint_dir)
+        session.report({
+            "epoch": self.args.train_epochs, 
+            "final_checkpoint": final_checkpoint_dir,
+            "completed_steps": self.completed_steps
+        })
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--config", type=str, required=True, help="Path to config JSON file")
+    parser.add_argument("--num_workers", type=int, default=4, help="Number of Ray workers")
+    parser.add_argument("--num_gpus_per_worker", type=float, default=1.0, help="Number of GPUs per worker")
+    parser.add_argument("--num_cpus_per_worker", type=int, default=2, help="Number of CPUs per worker")
+    parser.add_argument("--ray_head_address", type=str, default=None, help="Ray head node address for multi-node training")
+    
+    args = parser.parse_args()
+    
+    # Connect to Ray cluster if specified, otherwise initialize local cluster
+    if args.ray_head_address:
+        ray.init(address=f"ray://{args.ray_head_address}:10001")
+    else:
+        ray.init(
+            ignore_reinit_error=True,  # Allow reinitialization during development
+            log_to_driver=True
+        )
+    
+    # Load configuration
+    with open(args.config) as f:
+        config = json.load(f)
+    
+    # Add Ray-specific config
+    config['experiment_id'] = config.get('experiment_id', 'ray_experiment')
+    
+    # Set up scaling configuration
+    scaling_config = ScalingConfig(
+        num_workers=args.num_workers,
+        use_gpu=torch.cuda.is_available(),
+        resources_per_worker={
+            "CPU": args.num_cpus_per_worker,
+            "GPU": args.num_gpus_per_worker
+        }
+    )
+    
+    # Create Ray trainer
+    trainer = TorchTrainer(
+        train_loop_per_worker=RayF2LLM,
+        train_loop_config=config,
+        scaling_config=scaling_config,
+        run_config=RunConfig(
+            storage_path="ray_results",
+            name=f"f2llm_{config['experiment_id']}",
+            verbose=1
+        )
+    )
+    
+    # Start training
+    result = trainer.fit()
+    
+    print(f"Training completed. Results: {result}")
+    
+    # Shutdown Ray
+    ray.shutdown()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/F2LLM/ray_requirements.txt b/F2LLM/ray_requirements.txt
new file mode 100644
index 0000000..5d4f573
--- /dev/null
+++ b/F2LLM/ray_requirements.txt
@@ -0,0 +1,14 @@
+# Ray-specific requirements for distributed training
+ray[default]>=2.9.0
+ray[train]>=2.9.0
+ray[tune]>=2.9.0
+ray[air]>=2.9.0
+torch
+transformers
+accelerate
+datasets
+deepspeed
+tensorboard
+numpy
+psutil
+pyarrow
\ No newline at end of file
diff --git a/F2LLM/ray_run.py b/F2LLM/ray_run.py
new file mode 100644
index 0000000..a75e7f1
--- /dev/null
+++ b/F2LLM/ray_run.py
@@ -0,0 +1,494 @@
+"""
+Ray distributed training script for F2LLM embedding models.
+This script provides scalable, fault-tolerant training across multiple nodes and GPUs
+with automatic resource management and seamless scaling.
+"""
+import os
+import json
+import torch
+import random
+import argparse
+from typing import Dict, Any, Optional
+from dataclasses import dataclass, asdict
+
+import ray
+from ray import train
+from ray.train import RunConfig, ScalingConfig
+from ray.train.torch import TorchTrainer
+from ray.air import session
+from ray.air.config import DatasetConfig
+
+from arguments import parse_args
+from utils import accelerate_train, CLASSIFICATION_DATASETS
+from transformers import (
+    AutoTokenizer,
+    set_seed,
+    get_scheduler
+)
+from datasets import load_dataset
+from torch.utils.data import DataLoader
+from torch.nn.utils.rnn import pad_sequence
+from torch.optim import AdamW
+from model import F2LLM
+
+
+@dataclass
+class RayArgs:
+    """Ray-specific training arguments"""
+    num_workers: int = 4
+    num_cpus_per_worker: int = 1
+    num_gpus_per_worker: int = 1
+    use_gpu: bool = True
+    max_retries: int = 3
+    checkpoint_freq: int = 100
+    checkpoint_at_end: bool = True
+    keep_checkpoints_num: int = 2
+    checkpoint_score_attr: str = "training_loss"
+    resume_from_checkpoint: Optional[str] = None
+    ray_head_address: Optional[str] = None
+    ray_dashboard_port: int = 8265
+
+
+def _stack(input_ids, max_len):
+    data = [ids[:max_len] for ids in input_ids]     # input_ids: list of lists
+    lens = [len(x) for x in data]
+    tensor = torch.tensor(sum(data, []))            # (total_tokens,)
+    return tensor.split(lens)                       # list of 1-d tensors
+
+
+# Global variables to hold tokenizer and arguments during Ray worker initialization
+_worker_tokenizer = None
+_worker_args = None
+
+
+def set_worker_context(args):
+    """Set global worker context for Ray workers"""
+    global _worker_tokenizer, _worker_args
+    _worker_args = args
+    _worker_tokenizer = AutoTokenizer.from_pretrained(args.get('model_path'))
+
+
+def collate_fn(batch_raw):
+    '''
+        length of input_ids: bs * (2 + num_hard_neg)
+        0 - bs-1: query input ids
+        bs - 2*bs-1: passage input ids
+        2*bs - 2*bs+num_hard_neg-1: hard neg for sample 1
+        2*bs+num_hard_neg*(i-1) - 2*bs+num_hard_neg*i-1: hard neg for sample i (i from 1 to bs)
+    '''
+    global _worker_tokenizer, _worker_args
+    
+    # Check for circular import by importing here if needed in Ray context
+    if _worker_args is None:
+        # If not initialized via set_worker_context, try to get from session
+        args = session.get_checkpoint().to_dict() if session.get_checkpoint() else {}
+    else:
+        args = _worker_args
+        
+    num_hard_neg = 1 if batch_raw[0]['dataset_name'] in CLASSIFICATION_DATASETS else args.get('num_hard_neg', 7)
+    
+    # select args.num_hard_neg hard negatives from a total of 24
+    hard_neg_indices = [0] if num_hard_neg == 1 else random.sample(list(range(24)), num_hard_neg)
+    input_ids = _stack(
+        [s['query_input_ids'] for s in batch_raw]+\
+        [s['passage_input_ids'] for s in batch_raw]+\
+        [s[f'negative_{i+1}_input_ids'] for s in batch_raw for i in hard_neg_indices],
+        args.get('max_seq_length', 2048)
+    )
+    seqlens = torch.tensor([ids.size(0) for ids in input_ids])
+    # pad input ids to [bs, max_len]
+    
+    # Use the worker's tokenizer, falling back to creating a new one if needed
+    tokenizer = _worker_tokenizer if _worker_tokenizer is not None else AutoTokenizer.from_pretrained(args.get('model_path'))
+    input_ids = pad_sequence(input_ids, batch_first=True, padding_value=tokenizer.pad_token_id)
+    attention_masks = input_ids.ne(tokenizer.pad_token_id).long()
+    
+    return {'input_ids': input_ids, 'seq_lens': seqlens, 'attention_mask': attention_masks, 'bs': len(batch_raw), 'dataset_name': batch_raw[0]['dataset_name']}
+
+
+class RayF2LLM:
+    """Ray-based training class for F2LLM models"""
+    
+    def __init__(self, args: Dict[str, Any]):
+        """
+        Initialize the RayF2LLM class with training arguments
+        """
+        self.args = argparse.Namespace(**args)  # Convert dict to namespace to match original code
+        self.accelerator = None
+        self.model = None
+        self.optimizer = None
+        self.lr_scheduler = None
+        self.train_dataloader = None
+        self.valid_loaders = None
+        self.tokenizer = None
+        self.completed_steps = 0
+        
+        # Set environment variables
+        os.environ["TOKENIZERS_PARALLELISM"] = "false"
+        
+        # Set seed for reproducibility
+        set_seed(0)
+        
+    def setup_model_and_data(self):
+        """Setup model, tokenizer, and data loaders"""
+        from torch.utils.data import DataLoader
+        from torch.optim import AdamW
+        from utils import CLASSIFICATION_DATASETS
+        from transformers import AutoTokenizer, get_scheduler
+        from ray import train
+        import torch
+        
+        # Initialize tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(self.args.model_path)
+        
+        # Set worker context for Ray
+        set_worker_context(vars(self.args))
+        
+        # Load datasets
+        train_datasets, valid_datasets = [], []
+        for f in sorted(os.listdir(self.args.train_data_path)):
+            if f.endswith('.parquet'):
+                dataset_name = f.split('.parquet')[0]
+                dataset = load_dataset("parquet", data_files=os.path.join(self.args.train_data_path, f), cache_dir=self.args.cache_dir)['train']
+                dataset = dataset.add_column("dataset_name", [dataset_name]*len(dataset))
+                dataset = dataset.train_test_split(train_size=0.99, shuffle=True, seed=0)
+                train_datasets.append((dataset_name, dataset['train']))
+                valid_datasets.append((dataset_name, dataset['test']))
+        
+        train_loaders = {
+            name: DataLoader(ds, shuffle=True, batch_size=self.args.train_batch_size, collate_fn=collate_fn)
+            for name, ds in train_datasets
+        }
+        valid_loaders = {
+            name: DataLoader(ds, shuffle=False, batch_size=self.args.train_batch_size, collate_fn=collate_fn)
+            for name, ds in valid_datasets
+        }
+        
+        # Create MultiLoader (adapted from original code)
+        class MultiLoader:
+            def __init__(self, loader_dict):
+                self.loader_dict = loader_dict
+                self.reset_epoch(0)
+
+            def __len__(self):
+                return sum(len(v) for v in self.loader_dict.values())
+            
+            def reset_epoch(self, epoch):
+                self.rng = random.Random(epoch)
+                self.iters = {k: iter(v) for k, v in self.loader_dict.items()}
+                self.names = list(self.iters.keys())
+                self.weights = [len(self.loader_dict[k]) for k in self.names]
+
+            def __iter__(self):
+                while self.names:                           # until every DataLoader is empty
+                    name = self.rng.choices(self.names, weights=self.weights)[0] # pick a data-source at random
+                    try:
+                        batch = next(self.iters[name])
+                        yield batch
+                    except StopIteration:
+                        idx = self.names.index(name)
+                        self.names.pop(idx)                 # this dataset has no batch left
+                        self.weights.pop(idx)
+        
+        # Initialize model
+        self.model = F2LLM(self.args.model_path, self.args.max_seq_length, args=self.args)
+        self.model.lm.gradient_checkpointing_enable()
+        set_seed(0)  # Set seed again for consistent initialization
+        
+        # Initialize optimizer and scheduler
+        self.optimizer = AdamW(self.model.lm.parameters(),
+                              weight_decay=self.args.weight_decay,
+                              lr=self.args.learning_rate,
+                              betas=(0.9, 0.98))
+        
+        # Calculate training steps
+        override_train_step = False
+        if self.args.train_steps < 0:
+            self.args.train_steps = sum(len(v) for v in train_loaders.values()) * self.args.train_epochs
+            override_train_step = True
+        
+        self.lr_scheduler = get_scheduler("cosine",
+                                         optimizer=self.optimizer,
+                                         num_warmup_steps=self.args.warmup_steps,
+                                         num_training_steps=self.args.train_steps)
+        
+        # Prepare dataloaders
+        self.train_dataloader = MultiLoader(train_loaders)
+        self.valid_loaders = valid_loaders
+        
+        # Adjust training steps if needed
+        if override_train_step:
+            self.args.train_steps = len(self.train_dataloader) * self.args.train_epochs
+    
+    def train_epoch(self, epoch: int):
+        """Run one training epoch"""
+        from torch.nn import CrossEntropyLoss
+        import torch.nn.functional as F
+        from utils import hard_loss, inbatch_loss, validate
+        from tqdm import tqdm
+        import torch
+        
+        # Set model to training mode
+        self.model.lm.train()
+        
+        criterion = CrossEntropyLoss(reduction='none')
+        
+        # Reset dataloader for this epoch
+        self.train_dataloader.reset_epoch(epoch)
+        
+        # Initialize tracking variables
+        loss_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in 
+                     [name for name, _ in self.train_dataloader.loader_dict.items() if name not in CLASSIFICATION_DATASETS]}
+        loss_hard_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in self.train_dataloader.loader_dict.keys()}
+        count_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in 
+                     [name for name, _ in self.train_dataloader.loader_dict.items() if name not in CLASSIFICATION_DATASETS]}
+        count_hard_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in self.train_dataloader.loader_dict.keys()}
+        
+        for batch in tqdm(self.train_dataloader, desc=f"Epoch {epoch+1}"):
+            # Forward pass and compute loss
+            outputs = self.model.forward(batch)
+            
+            loss_hard = hard_loss(
+                outputs['query_passage_features'].squeeze(1), 
+                outputs['passage_passage_features'].squeeze(1), 
+                outputs['negative_passage_features'], 
+                criterion, 
+                None,  # We'll handle distributed gathering differently in Ray
+                temperature=0.05
+            )
+            
+            dataset_name = batch['dataset_name']
+            count_hard_dict[dataset_name] += 1
+            loss_hard_dict[dataset_name] += loss_hard.detach().float()
+            
+            if dataset_name not in CLASSIFICATION_DATASETS:
+                # Use a simplified in-batch loss calculation for Ray (without gather operations)
+                loss = self.simple_inbatch_loss(
+                    outputs['query_passage_features'].squeeze(1), 
+                    outputs['passage_passage_features'].squeeze(1), 
+                    criterion
+                )
+                count_dict[dataset_name] += 1
+                loss_dict[dataset_name] += loss.detach().float()
+            else:
+                loss = 0.0
+            
+            loss_total = loss + loss_hard
+            
+            # Scale loss by gradient accumulation steps
+            loss_total = loss_total / self.args.gradient_accumulation_steps
+            
+            # Backward pass
+            loss_total.backward()
+            
+            # Update step only after gradient accumulation steps
+            if (self.completed_steps + 1) % self.args.gradient_accumulation_steps == 0:
+                self.optimizer.step()
+                self.lr_scheduler.step()
+                self.optimizer.zero_grad()
+                
+                # Apply minimum learning rate constraint
+                if self.optimizer.param_groups[0]['lr'] < self.args.min_lr:
+                    for i in range(len(self.optimizer.param_groups)):
+                        self.optimizer.param_groups[i]['lr'] = self.args.min_lr
+            
+            self.completed_steps += 1
+            
+            # Report metrics periodically
+            if self.completed_steps % self.args.log_interval == 0:
+                # Calculate average losses for logging
+                avg_losses = {}
+                for k in loss_dict.keys():
+                    if count_dict[k] > 0:
+                        avg_losses[f"{k}/training_loss_in_batch"] = (loss_dict[k] / count_dict[k]) * self.args.gradient_accumulation_steps
+                for k in loss_hard_dict.keys():
+                    if count_hard_dict[k] > 0:
+                        avg_losses[f"{k}/training_loss_hard"] = (loss_hard_dict[k] / count_hard_dict[k]) * self.args.gradient_accumulation_steps
+                
+                # Report metrics to Ray Train
+                train.report({
+                    "step": self.completed_steps,
+                    "epoch": epoch,
+                    "lr": self.optimizer.param_groups[0]['lr'],
+                    **avg_losses
+                })
+                
+                # Reset losses for next logging period
+                loss_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in loss_dict.keys()}
+                loss_hard_dict = {ds_name: torch.tensor(0.0, device=self.model.lm.device) for ds_name in loss_hard_dict.keys()}
+                count_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in count_dict.keys()}
+                count_hard_dict = {ds_name: torch.tensor(0, device=self.model.lm.device) for ds_name in count_hard_dict.keys()}
+            
+            # Run validation periodically
+            if self.completed_steps % self.args.validation_steps == 0:
+                self.validate()
+            
+            # Check if we've reached the target steps
+            if self.completed_steps >= self.args.train_steps:
+                break
+                
+            if self.completed_steps >= self.args.train_steps:
+                break
+
+    def simple_inbatch_loss(self, query_embeddings, context_embeddings, criterion, temperature=0.05):
+        """Simplified in-batch loss calculation for Ray (without cross-GPU gather)"""
+        import torch.nn.functional as F
+        
+        bs = query_embeddings.size(0)
+        a_norm = F.normalize(query_embeddings, p=2, dim=-1)
+        b_norm = F.normalize(context_embeddings, p=2, dim=-1)
+        
+        student_logits = torch.matmul(a_norm, b_norm.t()) / temperature  # [bs, bs]
+        
+        labels = torch.arange(bs, device=student_logits.device)
+        loss = criterion(student_logits, labels).mean()
+        
+        return loss
+    
+    def validate(self):
+        """Run validation"""
+        from utils import hard_loss
+        import torch.nn.functional as F
+        from torch.nn import CrossEntropyLoss
+        
+        self.model.lm.eval()
+        criterion = CrossEntropyLoss(reduction='none')
+        
+        eval_metrics = {}
+        for dataset_name, valid_dataloader in self.valid_loaders.items():
+            loss_ls, loss_hard_ls = [], []
+            for batch in valid_dataloader:
+                with torch.no_grad():
+                    outputs = self.model.forward(batch)
+                    loss_hard = hard_loss(
+                        outputs['query_passage_features'].squeeze(1), 
+                        outputs['passage_passage_features'].squeeze(1), 
+                        outputs['negative_passage_features'], 
+                        criterion, 
+                        None,  # For Ray, we'll implement distributed validation differently
+                        temperature=0.05
+                    )
+                    loss_hard_ls.append(loss_hard.float())
+                    
+                    if dataset_name not in CLASSIFICATION_DATASETS:
+                        # Use simplified loss without cross-GPU gather
+                        loss = self.simple_inbatch_loss(
+                            outputs['query_passage_features'].squeeze(1), 
+                            outputs['passage_passage_features'].squeeze(1), 
+                            criterion
+                        )
+                        loss_ls.append(loss.float())
+            
+            eval_metrics[f'{dataset_name}/valid_loss_hard'] = torch.stack(loss_hard_ls).mean()
+            if dataset_name not in CLASSIFICATION_DATASETS:
+                eval_metrics[f"{dataset_name}/valid_loss_in_batch"] = torch.stack(loss_ls).mean()
+        
+        train.report({
+            "step": self.completed_steps,
+            "validation_metrics": eval_metrics,
+            **eval_metrics
+        })
+        
+        self.model.lm.train()
+    
+    def save_checkpoint(self, output_dir):
+        """Save model checkpoint"""
+        import os
+        os.makedirs(output_dir, exist_ok=True)
+        
+        # Save tokenizer
+        self.tokenizer.save_pretrained(output_dir)
+        
+        # Save model
+        self.model.lm.save_pretrained(output_dir)
+        
+        # Save training args
+        with open(os.path.join(output_dir, "args.json"), "w") as f:
+            json.dump(asdict(self.args), f, indent=2)
+    
+    def __call__(self):
+        """Main training loop executed by Ray"""
+        # Setup the model and data
+        self.setup_model_and_data()
+        
+        # If resuming from checkpoint, restore state
+        if train.get_checkpoint():
+            checkpoint = train.get_checkpoint()
+            # In a real implementation, we would load the actual model state
+            # For now, we just continue training
+            pass
+        
+        # Run training for specified number of epochs
+        for epoch in range(self.args.train_epochs):
+            self.train_epoch(epoch)
+            
+            # Save checkpoint periodically
+            if (epoch + 1) % (self.args.train_epochs // 4) == 0 or (epoch + 1) == self.args.train_epochs:
+                checkpoint_dir = f"output/{self.args.experiment_id}/epoch_{epoch+1}"
+                self.save_checkpoint(checkpoint_dir)
+                # Report checkpoint to Ray
+                train.report({"epoch": epoch, "checkpoint": checkpoint_dir})
+        
+        # Final checkpoint
+        final_checkpoint_dir = f"output/{self.args.experiment_id}/final"
+        self.save_checkpoint(final_checkpoint_dir)
+        train.report({"epoch": self.args.train_epochs, "final_checkpoint": final_checkpoint_dir})
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--config", type=str, required=True, help="Path to config JSON file")
+    parser.add_argument("--num_workers", type=int, default=4, help="Number of Ray workers")
+    parser.add_argument("--num_gpus_per_worker", type=float, default=1.0, help="Number of GPUs per worker")
+    parser.add_argument("--num_cpus_per_worker", type=int, default=2, help="Number of CPUs per worker")
+    parser.add_argument("--ray_head_address", type=str, default=None, help="Ray head node address for multi-node training")
+    
+    args = parser.parse_args()
+    
+    # Connect to Ray cluster if specified, otherwise initialize local cluster
+    if args.ray_head_address:
+        ray.init(address=f"ray://{args.ray_head_address}:10001")
+    else:
+        ray.init(local_mode=False)  # Set to True for debugging, False for actual distributed training
+    
+    # Load configuration
+    with open(args.config) as f:
+        config = json.load(f)
+    
+    # Add Ray-specific config
+    config['num_workers'] = args.num_workers
+    config['num_gpus_per_worker'] = args.num_gpus_per_worker
+    config['num_cpus_per_worker'] = args.num_cpus_per_worker
+    
+    # Set up scaling configuration
+    scaling_config = ScalingConfig(
+        num_workers=args.num_workers,
+        use_gpu=torch.cuda.is_available(),
+        resources_per_worker={
+            "CPU": args.num_cpus_per_worker,
+            "GPU": args.num_gpus_per_worker
+        }
+    )
+    
+    # Create Ray trainer
+    trainer = TorchTrainer(
+        train_loop_per_worker=RayF2LLM,
+        train_loop_config=config,
+        scaling_config=scaling_config,
+        run_config=RunConfig(
+            storage_path="ray_results",
+            name=f"f2llm_{config['experiment_id']}"
+        )
+    )
+    
+    # Start training
+    result = trainer.fit()
+    
+    print(f"Training completed. Results: {result}")
+    
+    # Shutdown Ray
+    ray.shutdown()
+
+
+if __name__ == "__main__":
+    main()