Loading...
Loading...
Självhostad AI-assistent driven av Qwen 8B som körs på svensk infrastruktur via RunPod GPU. Har tvåspråkigt stöd för svenska/engelska, hastighetsbegränsning, GPU-köhantering och en integritetsfokuserad arkitektur utan extern datadelning.
Organisationer och integritetmedvetna användare behöver tillgång till kraftfulla AI-assistenter utan att skicka sin data till externa molnleverantörer. Europeiska krav på datasuveränitet och GDPR-efterlevnad ökar komplexiteten, medan befintliga självhostade lösningar ofta saknar användarvänliga gränssnitt, robusta produktionsfunktioner och anpassning för specifika användningsfall som svenska språket och nordisk affärskontext.
Vi byggde Arktis-1 som en integritetsfokuserad AI-assistent som körs på svensk infrastruktur, finjusterad specifikt för svenska språket och nordisk affärskontext. Med LoRA (Low-Rank Adaptation) tränade vi modellen på kurerad svensk konversationsdata och affärsterminologi direkt på vår RunPod A40 GPU. Systemet använder den finjusterade Qwen 8B-modellen via Ollama, ansluten genom säker SSH-tunnling till vår Next.js-frontend.
Arktis-1 drivs på en distribuerad arkitektur med tydlig separation mellan frontend, API-gateway och GPU-beräkningslager. Systemet använder omvänd SSH-tunnling för att säkert ansluta en RunPod A40 GPU till vår Next.js-applikationsserver.
Polerat chattgränssnitt med realtidsströmning, tvåspråkigt stöd och partneråtkomstkontroller
Next.js 15, TypeScript, Server-Sent Events, i18n
Hanterar autentisering, hastighetsbegränsning, inmatningsvalidering och GPU-köhantering
Next.js API Routes, Minnesbaserad hastighetsbegränsning, Förfrågningsköer
Säker krypterad anslutning mellan molninfrastruktur och GPU-beräkning
Omvänd SSH-tunnel, localhost:11434, Persistent anslutning
NVIDIA A40 GPU som kör Ollama med Qwen3:8B-modell för inferens
RunPod A40, Ollama API, 6 samtidiga förfrågningar, Svenskt datacenter
Arktis-1 kombinerar integritetsfokuserad arkitektur med anpassad modellträning. Vi finjusterade basmodellen Qwen 8B med LoRA på vår RunPod A40 GPU och skapade en specialiserad version optimerad för svenska språket och nordisk affärskontext samtidigt som full datasuveränitet bibehålls.
Använde Unsloth för 4-bitars LoRA-träning på A40 (48GB VRAM). Tränade i 3 epoker på 2 500 svenska konversationspar med rank=16, alpha=32. Total träningstid: ~4 timmar med gradient checkpointing
Kurerad träningsdata från svenska nyhetsartiklar, affärskorrespondens, juridiska dokument och konversationsexempel. Fokus på korrekt svensk grammatik, formellt/informellt registerväxling och nordiska kulturella referenser
Exporterade LoRA-adaptrar, sammanfogade med basmodellen och kvantiserade till Q4_K_M GGUF-format för effektiv Ollama-inferens. Slutlig modellstorlek: ~4,5GB med minimal kvalitetsförlust
All träningsdatabehandling och modellvikter förblir på svensk infrastruktur. Användarmeddelanden lämnar aldrig EU:s jurisdiktion eller berör externa AI-leverantörer
Intelligent kösystem begränsar samtidiga GPU-förfrågningar till 6 (optimalt för 8B-modell på A40) med överflödeskö på 20 förfrågningar
Server-Sent Events möjliggör realtidsströmning av tokens för responsiv, ChatGPT-liknande upplevelse utan att vänta på fullständig generering
Arktis-1 visar att specialtränad, integritetsfokuserad AI kan vara både kraftfull och användarvänlig, med GPT-klassförmågor och svensk språkoptimering samtidigt som fullständig datasuveränitet bibehålls.
Nästa Projekt
ShippingTracker: Maritim Intelligensplattform →