Heiße Themen Schließen

Seite 2: Experimente mit deutschen Texten

Seite 2 Experimente mit deutschen Texten
Retrieval Augmented Augmentation hilft dabei, die Ausgaben von LLMs zu optimieren. GraphRAG bringt zusätzlich eine visuelle Komponente ins Spiel.

${lead}

${lead}

Praktisch einsetzbar ist GraphRAG erst seit Kurzem. Viele Beispiele im Internet arbeiten mit Wikipedia und vorgefertigten Embeddings. Diese Einschränkungen lassen sich umgehen: Es gibt auch multilinguale Embedding-Modelle und generative Sprachmodelle, die mit Deutsch als Sprache hervorragend zurechtkommen.

Anzeige

Damit das nicht graue Theorie bleibt, habe ich im Sommer mit den vom 1. Januar bis 12. August 2024 veröffentlichten Artikeln (etwa 7.700) im Heise Newsticker experimentiert. Als Embedding-Modell habe ich intfloat/multilingual-e5-base verwendet. Auch das generative Modell sollte mit der deutschen Sprache gut zurechtkommen. Hier fiel die Wahl auf Mistral Nemo. Um die GPU nicht zu sehr zu belasten, kann man auf ein AWQ-Modell zurückgreifen wie casperhansen/mistral-nemo-instruct-2407-awq, das mit 12 GByte GPU-RAM auskommt.

Dass die Indizierung Absätze in den Ticker-Meldungen berücksichtigt, ist äußerst praktisch. Die Laufzeit ist einigermaßen überschaubar und dauert auf einer aktuellen GPU nur ein paar Minuten. Die Topics sind deutlich schwieriger zu berechnen, weil dafür das generative Modell erforderlich ist. Hier muss man mit Laufzeiten von mehreren Stunden rechnen. Danach steht aber alles bereit, um die aktuellen Newstickerdaten mit GraphRAG zu befragen.

Man kann nun verschiedene Anfragen ausprobieren. Um den Knowledge Graph direkt anzuzeigen, erhalten alle noch das Präfix gq:. Alle Fragen sind so konzipiert, dass besonders neue Daten eine Rolle spielen, die den rein generativen Modellen noch nicht bekannt sind. Die Namen der Knoten sind die Topics, die das generative Sprachmodell erzeugt hat. Manchmal hat es sich dabei vergriffen und für deutsche Artikel einen englischen Titel gefunden – das könnte man sicher noch verbessern.

Analyse einer Abfrage zum CrowdStrike-Vorfall

Anfang August war der CrowdStrike-Vorfall aktuell. Die Textausgabe fasst viele Meldungen des Newstickers richtig zusammen:

Crowdstrike ist eine Sicherheitssoftware, die von der Firma CrowdStrike entwickelt wurde. Sie soll modernen Cyberangriffen vorhalten, einschließlich Ausfällen. Am Freitag hat ein fehlerhaftes Update von Crowdstrike zu weltweiten IT-Ausfällen geführt. Crowdstrike hat den Fehler mittlerweile gefunden und behoben. 97 Prozent der betroffenen Computer sind laut Crowdstrike wieder einsatzfähig, was bedeutet, dass ungefähr 250.000 Computer immer noch lahmgelegt sind. BSI und Bitkom starten eine Umfrage zum Crowdstrike-Ausfall.

Der dazu erzeugte Graph (siehe Abbildung 2) hilft bei der Interpretation, denn damit kann man sowohl zusätzliche Informationen finden als auch verstehen, warum genau diese Dokumente gefunden wurden:

Anzeige
Der Knowledge Graph zum CrowdStrike-Vorfall vermischt englische und deutsche Topics (Abb. 2).

(Bild: Christian Winkler)

Blick auf Abfrage zur xz-Hintertür

Auch der Text zur xz Backdoor ist eine absolut korrekte Zusammenfassung:

Die xz backdoor ist eine Hintertür in den xz-Tools, die in vielen Open-Source-Plattformen enthalten sind. Die Backdoor ermöglicht es Angreifern, eigenen Code auf Zielsystemen auszuführen, den sie zuvor geschickt versteckt haben. Eine Netzwerk-Scanner zur Erkennung der Backdoor zu schreiben, scheint derzeit nicht möglich. Die mutmaßliche Verschwörung übte im Juni 2022 starken Druck auf den Hauptentwickler von liblzma aus, das Projekt in "aktivere Hände" zu geben, was dann auch passierte. Im Februar dieses Jahres versteckte Jia Tan dann die gut getarnte Hintertür, die vermutlich die Authentifizierungsfunktion von OpenSSH schwächt oder außer Kraft setzt. Die Backdoor aktiviert sich nur dann, wenn sie den Programmnamen "/usr/sbin/sshd" erkennt. Github verfügt über eine FAQ zur xz-Backdoor und eine CVE-ID für die Hintertür gibt es bereits: CVE-2024-3094. Der Angriff war offenbar von langer Hand geplant und Jia Tan erstellte sein Github-Konto im Jahr 2021 und konzentrierte sich ab 2022 auf das xz-Projekt. Der Angreifer hat mithilfe mehrerer Komplizen oder Fake-Accounts, die psychologischen Druck auf den Hauptentwickler aufgebaut haben, nicht nur Kontrolle über das Projekt erlangt, sondern auch Linux-Distributionen dazu gedrängt, die von ihm präparierten Versionen der Pakete schnellstmöglich in ihre Systeme zu übernehmen.

Die Hinweise im Graph würden es relativ einfach machen, eine weitere Recherche zu starten oder die Sicherheitslücke in einen größeren Kontext einzuordnen (siehe Abbildung 3).

Der Knowledge Graph für "xz Backdoor" zeigt mögliche Ansätze für die weiterführende Analyse (Abb. 3).

(Bild: Christian Winkler)

Informationen zu den fehlerhaften Boeing-Türen

Die Ausgabe zu der Anfrage nach "Alaska Airline Boeing Tür" ist etwas holprig formuliert und nicht immer logisch aufgebaut. Man kann sich allerdings einen grundlegenden Eindruck von dem Vorfall und der Problematik der Qualitätssicherung verschaffen.

Alaska Airlines besitzt 65 Boeing 737 Max 9 Flugzeuge. Während Inspektionen, wurden in vielen Flugzeugen lose Schrauben festgestellt. Die FAA hat Flugzeuge des Typs Boeing 737 Max 9 am Boden lassen und zu inspizieren. Aufgrund der laufenden Untersuchung mussten Alaska Airlines allein für den Montag ungefähr 140 Flüge gestrichen werden. Die FAA hat ein Startverbot für 171 Exemplare vom Typ Boeing 737 Max 9 verhängt und leitete Untersuchungen ein. Die Ursache des Unfalls ist noch völlig unklar. Alaska Airlines hat bis auf Weiteres alle Maschinen des Typs aus dem Flugbetrieb genommen. In der Europäischen Union sind laut der hiesigen Behörde EASA keine Flugzeuge von Stilllegungen und Inspektionen betroffen. Die US-Luftfahrtbehörde FAA hat offizielle Ermittlungen aufgenommen, um zu klären, wie ein Boeing-Flugzeug während des Flugs ein Kabineteil verlieren konnte.

Der Graph hilft in diesem Fall weiter, weil man nach konkreten Artikeln suchen könnte (Abbildung 4).

Der Knowledge Graph für "Alaska Airline Boeing Tür" ist eine gute Basis für weitere Recherchen (Abb. 4).

(Bild: Christian Winkler)

comments_outline_white Kommentare lesen (1) Zur Startseite

montags und donnerstags - alles von heise developer

E-Mail-Adresse

Jetzt anmelden

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Anzeige
Anzeige Anzeige
  • Developer Workbench für Entwickler und Modellierer
  • Künstliche Intelligenz in der Gebäudeüberwachung
  • Special: Zusammen das Datacenter weiterentwickeln
  • Cloud-Wahrheiten über Kosten und Performance
  • Zukunftssichere Datenbank für KI-basierte Apps
  • Clever handeln für bessere Cyberversicherung
  • 4680130
  • Website erstellen lassen: Lohnt sich die Investition?
  • Themenspecial: Moderne IT-Infrastruktur
  • Sind APIs das neue Einfallstor für Angreifer?

Immer informiert bleiben: Klicken Sie auf das Plus-Symbol an einem Thema, um diesem zu folgen. Wir zeigen Ihnen alle neuen Inhalte zu Ihren Themen. Mehr erfahren.

  • Künstliche Intelligenz laden... Thema gefolgt Thema folgen Entfolgen
  • Microsoft laden... Thema gefolgt Thema folgen Entfolgen
  • Spracherkennung laden... Thema gefolgt Thema folgen Entfolgen
  • Sprachverarbeitung laden... Thema gefolgt Thema folgen Entfolgen
Forum bei heise online: Machine Learning
Kurzlink: https://heise.de/-10185768

${lead}

${lead}

Bei der jüngsten Entwicklung rund um die großen Sprachmodelle ist besonders interessant, dass es darum geht, neue Anwendungen durch intelligente Kombination der leistungsfähigen Basismodelle zu ermöglichen. Letztere entwickeln sich zwar weiter, aber der Fortschritt ist aufgrund der hohen Anforderungen deutlich langsamer. Trotzdem ist es fantastisch, dass jeder von den Modellen profitieren und sie kostenlos nutzen kann. Damit kann man heute auf dem (leistungsfähigen) PC zu Hause Möglichkeiten nutzen, die noch vor zwei Jahren nicht einmal die großen Internetkonzerne anbieten konnten.

Anzeige

GraphRAG ist ein spannender Ansatz, der Retrieval Augmented Generation mit Wissensgraphen kombiniert und damit Informationen besser strukturiert als in reinen Textausgaben. Wer damit experimentieren möchte, findet einige Open-Source-Ansätze, die zwar eine moderne GPU erfordern, aber ohne große Rechenzentren oder Cloudplattformen auskommen.

comments_outline_white Kommentare lesen (1) Zur Startseite

montags und donnerstags - alles von heise developer

E-Mail-Adresse

Jetzt anmelden

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Anzeige
Anzeige Anzeige
  • Developer Workbench für Entwickler und Modellierer
  • Künstliche Intelligenz in der Gebäudeüberwachung
  • Special: Zusammen das Datacenter weiterentwickeln
  • Cloud-Wahrheiten über Kosten und Performance
  • Zukunftssichere Datenbank für KI-basierte Apps
  • Clever handeln für bessere Cyberversicherung
  • 4680130
  • Website erstellen lassen: Lohnt sich die Investition?
  • Themenspecial: Moderne IT-Infrastruktur
  • Sind APIs das neue Einfallstor für Angreifer?

Immer informiert bleiben: Klicken Sie auf das Plus-Symbol an einem Thema, um diesem zu folgen. Wir zeigen Ihnen alle neuen Inhalte zu Ihren Themen. Mehr erfahren.

  • Künstliche Intelligenz laden... Thema gefolgt Thema folgen Entfolgen
  • Microsoft laden... Thema gefolgt Thema folgen Entfolgen
  • Spracherkennung laden... Thema gefolgt Thema folgen Entfolgen
  • Sprachverarbeitung laden... Thema gefolgt Thema folgen Entfolgen
Forum bei heise online: Machine Learning
Kurzlink: https://heise.de/-10185768
Ähnliche Nachrichten
Nachrichtenarchiv
  • War
    War
    Noch nie war Filmstandort Wien so erfolgreich
    25 Feb 2022
    3
  • Ripple
    Ripple
    XRP auf 15 $ Preis? — Analyst fragt sich, warum jemand bullisch auf XRP ist nach einem „großen Rückgang“
    28 Okt 2024
    32
  • Osterfeuer
    Osterfeuer
    Tradition am Karsamstag: Diese Regeln gelten für Osterfeuer in der Steiermark
    25 Mär 2024
    18
  • Sky Go
    Sky Go
    Störung bei Sky Go: Nutzer in Deutschland melden massive Probleme
    9 Nov 2019
    2
  • Wacken 2019
    Wacken 2019
    Wacken 2019 - Sensation für 2020 angekündigt - Unten-ohne-Ikone erklärt ungewöhnliches Outfit | Welt
    3 Aug 2019
    7
  • Icewind Dale
    Icewind Dale
    Test zu Planescape: Torment + Icewind Dale: Enhanced Edition - Nintendo Switch
    24 Okt 2019
    2