Zum Hauptinhalt springen

Unterstützte Formate

Diese Seite ist die Ingest/Export-Kompatibilitätsreferenz für Lore.

Ingest-Formate

FormatParserAnforderungenHinweise
.mdDirektKeineMarkdown wird durch Normalisierung beibehalten
.txtDirektKeineAls Klartext behandelt
.html / .htmHTML-ParserKeineVor Normalisierung in Markdown konvertiert
.json / .jsonlJSON-ParserKeineVersucht zuerst Konversations-Transkript-Erkennung
.pdfReplicate MarkerReplicate-TokenVerwendet Marker-Modell auf Replicate
.docx / .pptx / .xlsx / .epubReplicate MarkerReplicate-TokenAls Dokumentformate über Marker geparst
Bilder (.png, .jpg, .jpeg, .webp, .gif, .bmp, .tiff)Replicate VisionReplicate-TokenOCR + beschreibende Extraktion
Webseiten-URLsCloudflare BR /markdown oder JinaOptionale CF-AnmeldedatenCloudflare-Markdown-Endpunkt bei vorhandenen Anmeldedaten; Jina-Fallback
Dokument-URLs (.pdf, .docx, .pptx, .xlsx, .epub)Temporärer Download → Replicate MarkerReplicate-TokenIn temporäres Verzeichnis heruntergeladen und dann wie lokale Dokumente verarbeitet
Bild-URLs (.png, .jpg, .jpeg, .webp, .gif, .bmp)Temporärer Download → Replicate VisionReplicate-TokenIn temporäres Verzeichnis heruntergeladen und dann wie lokale Bilder verarbeitet
Video-URLsyt-dlp-Untertitel-Pipelineyt-dlp empfohlenFällt auf URL-Parser zurück, wenn Untertitel nicht verfügbar sind

Ingest-Pipeline-Überblick

flowchart LR
A[Eingabe-Pfad oder URL] --> B[Format-Routing]
B --> C[Parser]
C --> D[Markdown-Normalisierung]
D --> E[In .lore/raw SHA-Verzeichnis speichern]
E --> F[meta.json und manifest-mtime schreiben]

Sitzungs-Framework-Quellen

Lore kann lokalen Sitzungsverlauf direkt aufnehmen mit:

lore ingest-sessions [framework|all]
Framework-SchlüsselStandard-Quell-Orte (OS-abhängig)Typische Dateitypen
claude-code~/.claude/projects/.jsonl
codex-cli~/.codex/sessions/, ~/.codex/projects/.jsonl
copilot-cli~/.copilot/session-state/ (oder COPILOT_HOME)events.jsonl
copilot-chatVS Code Workspace-Speicher */chatSessions/.jsonl, .json
cursorCursor Workspace-Speicher.jsonl, .json
gemini-cli~/.gemini/, ~/.config/gemini/.jsonl, .json, .md
obsidian~/Documents/Obsidian Vault/ (oder benutzerdefinierte Roots).md

Hinweise:

  • Sitzungsimporte laufen durch dieselbe Roh-Ingest-Pipeline und erzeugen .lore/raw/<sha>/-Einträge.
  • meta.json enthält jetzt session-Metadaten für framework-aufgenommene Quellen.
  • --dry-run lässt Sie die Entdeckung inspizieren, bevor Ingest-Ausgaben geschrieben werden.

Konversations-Export-Unterstützung (.json / .jsonl)

Lore versucht vor generischer JSON-Renderung eine Schema-Erkennung.

Erkannte Schema-Familien:

  • role/content-Nachrichten-Arrays (user/assistant, einschließlich human/ai-Rollenversionen)
  • ChatGPT-Mapping-Exports (mapping-Graph)
  • Claude-ähnliche und Codex-ähnliche JSONL-Sitzungsereignisse
  • Slack-ähnliche Nachrichten-Arrays

Konversationsausgaben werden als Transkript-Markdown mit zitierten Benutzerzeilen und Assistenten-Antwortblöcken normalisiert.

Schema-Matrix

EingabeformErkennungsergebnisAusgabe
Array/Object mit role-content-NachrichtenKonversations-Transkript# Conversation Transcript Markdown
ChatGPT-Mapping-ObjektKonversations-TranskriptGeordnete user/assistant-Züge
JSONL-SitzungsereignisseKonversations-TranskriptGeordnete Züge aus Ereignis-Nutzlasten
Slack-Nachrichten-ArraysKonversations-TranskriptHeuristisches alternierendes Rollen-Mapping
Kein erkanntes SchemaGenerische JSON-RenderungÜberschrift/Wert-Markdown-Umwandlung

Wenn eine Datei nicht auf bekannte Konversationsmuster passt, fällt Lore auf generische JSON-zu-Markdown-Umwandlung zurück.

URL- und Video-Verhalten

URL-Inhalt

Lore routet URL-Aufnahme basierend auf der Dateierweiterung im URL-Pfad:

  • Dokument-Erweiterungen (.pdf, .docx, .pptx, .xlsx, .epub): in temporäre Datei heruntergeladen und dann über Replicate Marker verarbeitet — identisch mit lokaler Dokumentaufnahme. Erfordert TELEPAT_REPLICATE_TOKEN.
  • Bild-Erweiterungen (.png, .jpg, .jpeg, .webp, .gif, .bmp): in temporäre Datei heruntergeladen und dann über Replicate Vision verarbeitet — identisch mit lokaler Bildaufnahme. Erfordert TELEPAT_REPLICATE_TOKEN.
  • Alle anderen URLs (Webseiten, HTML usw.):
    • Wenn beide LORE_CF_ACCOUNT_ID und LORE_CF_TOKEN gesetzt sind, ruft Lore den Cloudflare Browser Run /markdown-Endpunkt auf, der Markdown direkt ohne lokale HTML-Konvertierung zurückgibt.
    • Bei Cloudflare-Fehler oder nicht-string-Antwort protokolliert Lore den Fallback und verwendet Jina.
    • Ohne Cloudflare-Anmeldedaten ruft Lore direkt über Jina ab.

Video-URLs

  • Lore prüft auf yt-dlp
  • Wenn Untertitel verfügbar sind, nimmt Lore bereinigten Transkripttext auf
  • Wenn yt-dlp fehlt oder Untertitel nicht verfügbar/leer sind, fällt Lore auf URL-Parsing zurück

Extraktor-Metadaten werden in meta.json für Video-Aufnahmen gespeichert.

Roh-Metadaten-Hinweise

  • alle Ingests erstellen .lore/raw/<sha256>/meta.json
  • lokale Datei-Ingests können ordnerabgeleitete Tags ableiten
  • extrahierter Text kann heuristische Speicher-Tags anhängen (decision, preference, problem, milestone, emotional)
  • Duplikat-Ingests wiederverwendet vorhandene Roh-Einträge

Export-Formate

Lore unterstützt diese Exportziele:

  • bundle
  • slides
  • pdf
  • docx
  • web
  • canvas
  • graphml

Siehe Exportieren für detaillierte Anwendungsfälle und Ausgabebeispiele.

Praktische Beispiele

# gemischten Ordner aufnehmen
lore ingest ./docs/architecture.md
lore ingest ./notes/session.jsonl
lore ingest ./assets/diagram.png

# eine URL und eine Video-URL aufnehmen
lore ingest https://example.com/post
lore ingest https://www.youtube.com/watch?v=<id>