Small MoE from liquid-AI. Very fast on B70 with OpenArc:
βββββββ³βββββββ³ββββββ³ββββββ³ββββββββββ³βββββββββββ³βββββββββββββββ³ββββββββββββββ³ββββββββββββββ
β run β d β p β n β ttft(s) β tpot(ms) β prefill(t/s) β decode(t/s) β duration(s) β
β‘βββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ©
β 1 β 2048 β 512 β 128 β 0.53 β 31.12 β 4848.2 β 32.1 β 0.65 β
β 2 β 2048 β 512 β 128 β 0.14 β 7.51 β 17666.5 β 133.2 β 1.10 β
β 3 β 2048 β 512 β 128 β 0.14 β 7.08 β 17926.8 β 141.2 β 1.04 β
β 4 β 2048 β 512 β 128 β 0.14 β 6.93 β 17860.2 β 144.3 β 1.02 β
β 5 β 2048 β 512 β 128 β 0.15 β 6.61 β 17038.2 β 151.3 β 0.99 β
βββββββ΄βββββββ΄ββββββ΄ββββββ΄ββββββββββ΄βββββββββββ΄βββββββββββββββ΄ββββββββββββββ΄ββββββββββββββ
βββββββ³ββββββββ³ββββββ³ββββββ³ββββββββββ³βββββββββββ³βββββββββββββββ³ββββββββββββββ³ββββββββββββββ
β run β d β p β n β ttft(s) β tpot(ms) β prefill(t/s) β decode(t/s) β duration(s) β
β‘ββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ©
β 1 β 64000 β 512 β 128 β 89.60 β 6.89 β 720.0 β 145.1 β 90.48 β
β 2 β 64000 β 512 β 128 β 89.48 β 7.28 β 721.0 β 137.4 β 90.40 β
β 3 β 64000 β 512 β 128 β 89.18 β 7.15 β 723.4 β 139.9 β 90.08 β
β 4 β 64000 β 512 β 128 β 89.05 β 7.25 β 724.4 β 138.0 β 89.97 β
β 5 β 64000 β 512 β 128 β 89.61 β 7.09 β 719.9 β 141.1 β 90.51 β
βββββββ΄ββββββββ΄ββββββ΄ββββββ΄ββββββββββ΄βββββββββββ΄βββββββββββββββ΄ββββββββββββββ΄ββββββββββββββ
- Downloads last month
- 40
Inference Providers NEW
This model isn't deployed by any Inference Provider. π Ask for provider support