Leistung · KI-Integration & Automatisierung

KI, die wirklich in Ihren Prozessen lebt — nicht als Demo, sondern als Werkzeug.

KI-Integration und Workflow-Automatisierung für mittelständische und größere Unternehmen aus Deutschland: LLMs und Assistenten dort, wo sie messbar Arbeit abnehmen — in CRM und ERP, in Portalen, Postfächern, Datenbanken und APIs. Mit RAG auf Ihren echten Inhalten, klaren Rechten und Logs, Human-in-the-Loop und ehrlichen Evaluierungen. Keine Bot-Theater, keine Buzzwords — sondern Engineering, das in Produktion bleibt. Founder-led aus Krefeld.

  • OpenAI · Azure OpenAI · Anthropic · Mistral · open-weight Modelle
  • RAG · Vector-DBs · LangChain / LlamaIndex · Eigenes Eval-Setup
  • Standort Krefeld · Deutschland & EU · DSGVO-bewusste Architektur

KI als Werkzeug — nicht als Selbstzweck.

Die meisten Unternehmen haben in den letzten 24 Monaten zwei Dinge gelernt: KI funktioniert beeindruckend gut in der Demo — und enttäuschend oft im echten Betrieb. Der Unterschied liegt selten am Modell und fast immer an der Integration. p24.co baut KI in bestehende Prozesse: an Ihre Daten gebunden (RAG), in Ihre Systeme eingebettet (CRM, ERP, Portale, E-Mail, Datenbanken), mit klaren Rechten, Logs, Eval-Kriterien und Human-in-the-Loop dort, wo es notwendig ist. Was nicht funktioniert, wird ehrlich abgekündigt, nicht durch ein weiteres Prompt-Engineering-Pflaster gerettet. Ergebnis ist KI, die in sechs Monaten noch läuft — und die Sie selbst betreiben können, ohne uns zu brauchen.

Zielgruppe

Reale Anwendungsfälle, in denen KI heute wirklich trägt.

Wir bauen KI dort, wo sie einen klaren, wiederkehrenden Engpass löst — nicht überall. Diese sechs Szenarien sehen wir in der Praxis am häufigsten:

Interner Assistent für Mitarbeitende

Ein Assistent, der Wissen aus Handbüchern, Tickets, Verträgen, Wiki und Intranet beantwortet — mit Quellenangabe, Rechten und ohne Halluzinationen über Themen, die nicht in den Daten stehen. Spart Onboarding-Zeit, entlastet Fachabteilungen, ersetzt das „kurz die Kollegin fragen“-Suchverhalten.

RAG-Wissenssuche auf Ihren Inhalten

Semantische Suche über Dokumente, PDFs, SharePoint, Confluence, Tickets, E-Mails. Antworten mit Quellenlinks statt nur Treffer-Listen. Aktualisiert sich automatisch, sobald die Quelle sich ändert — und respektiert Rechte (was ein/e Nutzer:in nicht sehen darf, taucht auch nicht in der Antwort auf).

Support- und Sales-Copilots

Assistenten, die Ticket-Antworten vorschlagen, Angebote formulieren, ähnliche Fälle ziehen, eine zusammenfassende Notiz nach dem Kundencall schreiben oder eine Mail-Antwort in der richtigen Tonalität entwerfen. Immer als Entwurf — der/die Mitarbeitende behält das letzte Wort.

Dokumentenverarbeitung & Datenextraktion

Rechnungen, Bestellungen, Verträge, Lieferscheine, technische Datenblätter: strukturierte Felder, Klassifikation, Anomalie-Erkennung, Übergabe an ERP/CRM. Statt manuell abtippen lässt KI die Standardfälle automatisch laufen — und meldet sauber, wenn ein Beleg unklar ist.

Workflow- und Prozess-Automatisierung

Mehrstufige Abläufe automatisieren: eingehende E-Mail klassifizieren, an die richtige Abteilung leiten, ein Ticket anlegen, eine Folgemail entwerfen, einen Eintrag im CRM erzeugen. KI füllt nur die Lücken, in denen klassische Regeln versagen — der Rest bleibt deterministisch.

Datenextraktion, Reporting & Insights

Aus Verkaufsdaten, Logs, Support-Tickets, NPS-Feedback und freiem Text in Datenbanken regelmäßige Insights ziehen: Themen-Cluster, Anomalien, Trends, automatische Wochen- und Monatsreports. Statt eines Dashboards, das niemand öffnet, eine Mail mit den drei Dingen, die diese Woche wirklich wichtig sind.

Probleme · Hebel

Warum KI-Projekte scheitern — und wie wir das vermeiden.

Wir sehen bei Übernahmen aus anderen Setups fast immer dieselben sechs Muster. Vor jedem Projekt nehmen wir sie bewusst durch — sie entscheiden, ob die KI in sechs Monaten noch läuft:

01

Use-Case ohne klaren Engpass

„Wir machen jetzt was mit KI“ ist kein Use-Case. Wir fragen nach Volumen, Wiederholrate, dem heutigen manuellen Aufwand und den Folgekosten eines Fehlers. Wenn diese Zahlen klein sind, ist KI selten der ehrliche Schritt — dann ist ein besseres Formular, ein Skript oder ein klarer Prozess wirksamer.

02

KI ohne Anbindung an reale Daten

Ein LLM ohne Ihre Daten produziert Allgemeinplätze und Halluzinationen. RAG (Retrieval-Augmented Generation) bindet das Modell an Ihre echten Inhalte: Handbücher, Tickets, PDFs, ERP-Daten, Datenbankzeilen. Antworten enthalten Quellen, und der Bereich „darüber kann ich nichts sagen“ ist klar abgegrenzt.

03

Fehlende Rechte, Logs und Auditierbarkeit

KI darf in Unternehmen nicht das System sein, das alle Rechte umgeht. Wir bauen Rechteprüfung an die Retrieval-Schicht, loggen Anfragen und Antworten, machen Konversationen einer Person zuordenbar und sorgen dafür, dass ein/e Admin in der Lage ist, eine Antwort später nachzuvollziehen.

04

Kein Human-in-the-Loop, wo es nötig wäre

Vollautomatik klingt gut, ist aber für Angebote, rechtliche Texte, Kundenmails und finanzielle Entscheidungen die schnellste Eskalationsspirale. Wir bauen Workflows so, dass KI vorbereitet und vorschlägt — und ein Mensch bestätigt, anpasst oder ablehnt. Wo wirklich automatisch laufen darf, definieren wir explizit.

05

Keine ehrliche Evaluation

„Es funktioniert eigentlich ganz gut“ ist kein Qualitätskriterium. Wir bauen pro Use-Case ein Eval-Setup mit echten Beispielen aus Ihrer Praxis (positive, negative, knifflige Fälle), messen Treffer-, Halluzinations- und Eskalationsraten und vergleichen Modelle, Prompts und Retrieval-Strategien anhand harter Zahlen.

06

KI ohne Plan für Rollout und Change

Ein Assistant, den niemand nutzt, ist Code-Schulden. Wir planen Pilot, Schulung, klare Kommunikation („so antwortet er, so nicht“), Feedback-Kanäle und Versionierung. KI ist auch ein Change-Projekt — und das gehört in den Plan, nicht in eine fünfminütige Demo am Ende.

Leistungsumfang

Bausteine, Stack und Architektur — was Sie konkret bekommen.

Eine KI-Integration von p24.co ist nicht „ein API-Key + ein Chatfenster“. Jeder Baustein wird bewusst gewählt, dokumentiert und übergeben:

1. KI-Discovery & Use-Case-Scan

Strukturiertes Inventar: wo ist heute wirklich manueller Aufwand, wo sind Fehlerfolgekosten hoch, wo liegen die Daten? Output: priorisierte Use-Case-Liste mit Aufwandsschätzung, Nutzenargument, Risiko und ehrlichem „nicht jetzt“ für Use-Cases, die nicht reif sind.

2. Modell- und Stack-Entscheidung

Auswahl zwischen OpenAI, Azure OpenAI, Anthropic, Mistral, Open-Source-Modellen (Llama, Qwen) — abhängig von Anforderung, Datenschutz, Hosting (EU/Azure West Europe vs. öffentlicher Cloud) und Kosten. Vendor-Lock-in wird vermieden, indem die Integration den Provider klar abstrahiert.

3. RAG- und Daten-Pipeline

Ingestion aus SharePoint, Confluence, File-Shares, S3, Datenbanken, CRM/ERP, Helpdesk. Chunking, Embedding, Vector-DB (pgvector, Qdrant, Azure AI Search), Re-Ranking, Quellen-Anreicherung. Inkrementelle Updates statt Voll-Reindex bei jeder Änderung.

4. Assistant-Anwendung & UI

Eine Chat- oder Copilot-Oberfläche, die in Ihre Welt passt: als eigenes Portal, eingebettet in das Intranet, im CRM-Sidebar, in Outlook/Teams oder im bestehenden Helpdesk. Mit sauberer Quellenanzeige, Feedback-Buttons, Verlauf und „bitte das nicht beantworten“-Sperrlisten.

5. Anbindung an CRM, ERP, Portale, E-Mail, APIs

KI ist erst nützlich, wenn sie liest und schreibt. Wir integrieren in HubSpot, Salesforce, Microsoft Dynamics, SAP Business One, SAP S/4HANA-Schnittstellen, eigene .NET-/Node-Backends, Exchange/Microsoft 365, Postgres/MSSQL und JSON-APIs — mit klaren Idempotenz- und Retry-Regeln.

6. Rechte, Logging, Audit & DSGVO

Identität (SSO/Entra ID), Rechteprüfung an der Retrieval-Schicht, sauberes Logging der Anfragen und Antworten, Auftragsverarbeitungsverträge mit Modell-Anbietern, EU-Hosting wo nötig, Datenschutz-Folgenabschätzung als Vorlage. Keine personenbezogenen Daten in unkontrollierte Modelle.

7. Human-in-the-Loop & Eskalations-Workflows

Klare Regeln, wann KI selbst entscheidet, wann sie nur vorschlägt, wann ein Mensch zustimmen muss. Mit UI-Bausteinen für „bestätigen, ändern, ablehnen“, Audit-Trail jeder Entscheidung und konfigurierbaren Schwellen pro Use-Case.

8. Evaluation, Telemetrie & Guardrails

Pro Use-Case Test-Sets mit echten Beispielen, Eval-Pipeline (LLM-as-judge plus harte Metriken), Live-Telemetrie (Antwortzeiten, Eskalations- und Fehlerquoten), Prompt- und Modell-Versionierung. Guardrails gegen Prompt-Injection, PII-Lecks und Halluzinationen.

9. Dokumentation, Übergabe & Schulung

Architektur-Dokument, Datenfluss-Diagramme, Prompt-Bibliothek, Eval-Anleitung, Betriebs-Runbooks. Schulung für Power-User, Admins und IT — damit Sie das System mit eigenem Team weiterentwickeln können. Kein Lock-in, keine Geheimsoße.

Prozess

Vom Use-Case-Scan bis zum Produktiv-Rollout — der Prozess.

KI-Projekte sterben fast immer am Übergang von der Demo zum Betrieb. Wir planen genau diesen Übergang von Anfang an mit: kleiner Pilot, ehrliches Eval, dann Ausweitung.

  1. 01

    Discovery & Use-Case-Scan

    Woche 1–2

    Workshops mit Fach- und IT-Seite, Datenlandschaft sichten, Volumen und Aufwand erfassen, Use-Cases priorisieren. Output: kompaktes KI-Briefing mit 2–3 priorisierten Use-Cases, Annahmen, Risiken, Aufwandsschätzung und einer ehrlichen Empfehlung, womit zu starten ist.

    output → KI-Briefing · Use-Case-Liste
  2. 02

    Architektur, Modell & Daten-Plan

    Woche 2–3

    Entscheidung: Modell, Hosting, RAG-Stack, Vector-DB, Integration in vorhandene Systeme, Rechte, Logging. Architektur-Skizze, Datenfluss-Diagramme, Datenschutz-Einschätzung, Stack-Begründung — schriftlich, mit Ihnen abgestimmt.

    output → Architektur-Dokument · Datenflüsse
  3. 03

    Prototyp auf echten Daten

    Woche 3–6

    Ein lauffähiger Prototyp mit Ihren echten Inhalten (anonymisiert wenn nötig). Erste Eval-Runde an realen Beispielen: was funktioniert, was halluziniert, welche Antworten brauchen menschliche Bestätigung. Hier werden Erwartungen kalibriert.

    output → Prototyp · erste Eval
  4. 04

    Pilot mit echten Nutzer:innen

    Woche 6–10

    Kontrollierter Pilot mit einer Abteilung oder einem Team. Telemetrie aktiv, Feedback-Kanal, wöchentliche Iteration auf Prompts, Retrieval und UX. Wir messen Nutzungsquote, Trefferquote, Eskalations- und Halluzinationsraten — keine Bauchgefühle.

    output → Pilot · Eval-Bericht
  5. 05

    Roll-out, Schulung & Change

    Woche 10–14

    Stufenweise Ausweitung auf weitere Teams, Schulung für Power-User und Admins, klare Kommunikation („so antwortet er, so nicht“), Feedback- und Eskalationswege, Versionierung von Prompts und Modellen.

    output → Rollout · Schulung · Runbooks
  6. 06

    Betrieb, Eval-Loop & Roadmap

    ab Woche 14

    Go-Live, Telemetrie, regelmäßige Eval-Runden, Update-Pfade für Modelle und Prompts, sauberer Umgang mit Provider-Wechseln. Anschließend Roadmap-basierte Erweiterung um weitere Use-Cases — auf Basis echter Zahlen, nicht weiterer Hype-Zyklen.

    output → Live-Betrieb · Eval-Loop · Roadmap
Qualitätskriterien

Was eine wirklich gute KI-Integration ausmacht — unsere Messlatte.

Eine gute KI-Integration erkennt man nicht an der Live-Demo, sondern an dem, was sechs Monate später noch läuft. Das ist unsere Messlatte:

Antworten haben Quellen

Jede inhaltliche Antwort verweist auf die Stelle in einem Dokument, Ticket oder Datensatz. Wer es genau wissen will, kann nachschlagen. Was nicht durch eine Quelle gedeckt ist, wird als solches gekennzeichnet — nicht als selbstbewusste Halluzination ausgegeben.

Halluzinationen sind sichtbar, nicht versteckt

Wir messen Halluzinationsraten pro Use-Case und Modell und behalten sie auf einer Linie über die Zeit. Ein Modell-Update darf das Verhalten nicht stillschweigend verschlechtern — das fällt im Eval auf, bevor es im Betrieb auffällt.

Rechte sind nicht verhandelbar

Was ein/e Nutzer:in im Originalsystem nicht sehen darf, darf auch ein KI-Assistent nicht zeigen. Rechteprüfung sitzt an der Retrieval-Schicht, nicht im Prompt — und ist getestet, nicht gehofft.

Mensch hat das letzte Wort, wo es zählt

Angebote, rechtliche Texte, Kundenmails, finanzielle Entscheidungen, Personalthemen: KI bereitet vor, ein Mensch entscheidet. Vollautomatik gibt es nur dort, wo Risiko und Reversibilität geprüft sind.

Eval ist ein Prozess, kein Demo-Moment

Wir betreiben Eval-Pipelines mit echten Beispielen, nicht Beispiele aus dem Marketing. Bei Modell- oder Prompt-Wechsel läuft das Eval automatisch — und blockiert den Rollout, wenn die Metriken einbrechen.

Die KI lebt mit dem Geschäft, nicht neben ihm

Wir verkabeln Assistenten so in Ihre Systeme, dass Antworten frisch sind: ändert sich ein Vertrag, sieht das Modell das beim nächsten Aufruf. Nichts liegt sechs Wochen alt in einem Index herum, ohne dass es jemand merkt.

Trust

Datenschutz, EU-Hosting und Founder-Verantwortung.

KI ist eine sensitive Schicht zwischen Ihren Daten und einer Außenwelt, die Sie nicht ganz kontrollieren — Modelle, Provider, Logs. p24.co wird von Dimitri Kronich aus Krefeld geführt. Sie haben einen direkten technischen Ansprechpartner mit deutschem Standort, der die Architektur, die Datenflüsse und die Verträge mit Modell-Anbietern wirklich verantwortet — statt sie nach unten zu delegieren.

  • 01Founder-Level Verantwortung — direkter Draht zu der Person, die Architektur, Datenflüsse und Provider-Auswahl entscheidet.
  • 02Standort Krefeld · Deutschland & EU — DSGVO-bewusste Umsetzung, EU-Hosting bevorzugt (Azure West Europe, Hetzner, AWS Frankfurt), klare Verarbeitungsgrundlagen.
  • 03Auftragsverarbeitungsverträge mit Modell-Anbietern, klare Trennung von personenbezogenen Daten, dokumentierte Datenflüsse, Vorlagen für die Datenschutz-Folgenabschätzung.
  • 04Keine „Geheimsoße“ — Architektur, Prompts und Konfiguration sind dokumentiert; Übergabe an Ihr Team oder einen anderen Dienstleister ist jederzeit möglich.
  • 05Anbieterunabhängige Architektur — OpenAI, Azure OpenAI, Anthropic, Mistral oder Open-Weight-Modelle sind austauschbar, kein Lock-in als Pseudo-Strategie.
FAQ

Häufige Fragen zur KI-Integration und Workflow-Automatisierung.

Was kostet eine ernsthafte KI-Integration?

Ein erster produktiver Use-Case mit RAG, Anbindung an ein bis zwei Systeme, Eval-Setup und Rechtekonzept bewegt sich typischerweise im mittleren bis oberen fünfstelligen Euro-Bereich, plus laufende Kosten für Modell-Nutzung und Hosting. Größere Setups mit mehreren Use-Cases, mehreren Datenquellen, Workflow-Automatisierung und Schulung landen schnell im sechsstelligen Bereich. Wir machen Annahmen, Modellkosten und Folgekosten transparent — keine „Festpreise“ auf halbe Anforderungen.

Welche Modelle nutzen Sie — und müssen meine Daten in die USA?

Wir wählen pro Use-Case: OpenAI / Azure OpenAI (mit EU-Region und ohne Trainingsnutzung Ihrer Daten), Anthropic, Mistral oder Open-Weight-Modelle (Llama, Qwen) self-hosted in der EU. Für sensible Anwendungsfälle setzen wir auf Azure OpenAI in West Europe oder self-hosted Open-Source — Ihre Daten verlassen die EU nicht.

Was ist RAG und brauchen wir das wirklich?

RAG (Retrieval-Augmented Generation) bindet ein Sprachmodell an Ihre echten Inhalte: Dokumente, Datenbanken, Tickets. Das Modell ruft bei jeder Anfrage die passenden Stellen aus Ihren Daten ab und antwortet daraufhin — mit Quellenangabe. Ohne RAG bekommen Sie Allgemeinplätze und Halluzinationen; mit RAG bekommen Sie Antworten, die zu Ihrer Realität passen und nachvollziehbar sind.

Wie verhindern Sie, dass die KI Quatsch erfindet (Halluzinationen)?

Drei Hebel zusammen: Erstens, RAG mit guter Quellenanbindung — das Modell muss auf Inhalte aus Ihren Daten zugreifen statt zu raten. Zweitens, Prompt-Design mit klaren „antworte nur, wenn die Information in den Quellen steht“-Regeln. Drittens, ein Eval-Setup, das Halluzinationen aktiv misst und uns warnt, wenn Modell- oder Prompt-Wechsel das Verhalten verschlechtern. Vollständig verhindern lässt sich Halluzination nicht — aber sie wird messbar und beherrschbar.

Sehen die KI-Modelle vertrauliche Mitarbeiter- oder Kundendaten?

Nur wenn es bewusst Teil des Use-Cases ist und sauber vertraglich geregelt — und auch dann nur über Anbieter und Regionen mit korrektem DPA und ohne Trainings-Nutzung. Wir bauen Rechteprüfung an die Retrieval-Schicht: Was eine Person im Originalsystem nicht sehen darf, taucht auch in der KI-Antwort nicht auf. Für besonders sensible Bereiche nutzen wir self-hosted Open-Source-Modelle in der EU.

Wie messen Sie, ob die KI „gut genug“ ist?

Pro Use-Case bauen wir ein Eval-Set aus echten Beispielen Ihres Geschäfts (positive, negative, knifflige Fälle) und messen Treffer-, Halluzinations-, Eskalations- und Antwortzeit-Metriken. Vor jedem Rollout — und bei jedem Modell- oder Prompt-Wechsel — läuft dieses Eval. „Gut genug“ ist nicht eine Stimmungsfrage, sondern eine Zahl, auf die wir uns gemeinsam einigen.

Kann KI komplett autonom arbeiten oder muss immer ein Mensch dazwischen?

Beides — pro Use-Case unterschiedlich. Für interne Wissenssuche, Themen-Clustering oder Daten-Anreicherung läuft KI in der Regel autonom. Für Kundenmails, Angebote, rechtliche Texte, finanzielle Entscheidungen oder Personalthemen bauen wir Human-in-the-Loop: KI bereitet vor, ein Mensch bestätigt, ändert oder lehnt ab. Wo Vollautomatik möglich ist, definieren wir explizit Risiko und Reversibilität.

In welche Systeme können Sie die KI integrieren?

CRM (HubSpot, Salesforce, Microsoft Dynamics, Pipedrive), ERP (SAP Business One, SAP S/4-Schnittstellen, Microsoft Dynamics 365 Business Central, Odoo), Helpdesk (Zendesk, Freshdesk, Intercom), Microsoft 365 (Outlook, Teams, SharePoint), Datenbanken (Postgres, MSSQL, MySQL), Dateispeicher (SharePoint, S3, Azure Blob, On-Prem-Shares) und beliebige JSON-/REST-APIs. Wenn ein System eine API hat, können wir es anbinden — und wenn nicht, sagen wir Ihnen das vorher.

Wer ist nach dem Projekt für den Betrieb verantwortlich?

Wahlweise wir, Ihr Team oder eine Mischform. Wir liefern Architektur-Dokument, Datenfluss-Diagramme, Prompt-Bibliothek, Eval-Anleitung und Runbooks so, dass Ihr Team die Lösung allein betreiben kann. Auf Wunsch übernehmen wir den Betrieb in einem klar definierten Modus (Monitoring, Eval-Loop, Modell-Updates, Erweiterungen). Sie sind nie an uns gebunden — das ist Teil der Architektur, nicht ein Versprechen.

Was, wenn ein Modellanbieter Preise erhöht oder das Modell abkündigt?

Genau für diesen Fall abstrahieren wir den Provider. Prompts, Retrieval, Workflow-Logik und Eval sind anbieterunabhängig. Ein Wechsel von OpenAI zu Azure OpenAI, zu Anthropic, zu Mistral oder zu einem self-hosted Open-Weight-Modell ist eine Konfigurations- und Eval-Übung, kein neues Projekt. Vendor-Lock-in ist eine Designentscheidung — wir treffen sie bewusst dagegen.

Nächster Schritt

Lassen Sie uns Ihren ersten ehrlichen KI-Use-Case durchrechnen.

Erzählen Sie kurz, wo heute der Aufwand klemmt: viele ähnliche E-Mails, schwer auffindbares Wissen, sich wiederholende Angebote, Belegerfassung, Reporting. Sie bekommen eine ehrliche, technische Einschätzung — inkl. „dafür ist KI das richtige Werkzeug“ oder „dafür eher nicht“ —, direkt vom Gründer, ohne Vertriebsschicht und ohne Buzzwords.