跳到主要内容

支持的格式

此页面是 Lore 的摄入/导出兼容性参考。

摄入格式

格式解析器要求说明
.md直接通过标准化保留 Markdown
.txt直接视为纯文本
.html / .htmHTML 解析器标准化前转换为 Markdown
.json / .jsonlJSON 解析器首先尝试对话转录检测
.pdfReplicate MarkerReplicate 令牌在 Replicate 上使用 Marker 模型
.docx / .pptx / .xlsx / .epubReplicate MarkerReplicate 令牌通过 Marker 解析为文档格式
图像(.png.jpg.jpeg.webp.gif.bmp.tiffReplicate VisionReplicate 令牌OCR + 描述性提取
网页 URLCloudflare BR /markdown 或 Jina可选 CF 凭证凭证存在时使用 Cloudflare Markdown 端点;Jina 回退
文档 URL(.pdf.docx.pptx.xlsx.epub临时下载 → Replicate MarkerReplicate 令牌下载到临时目录,然后像本地文档一样处理
图像 URL(.png.jpg.jpeg.webp.gif.bmp临时下载 → Replicate VisionReplicate 令牌下载到临时目录,然后像本地图像一样处理
视频 URLyt-dlp 字幕管道推荐 yt-dlp字幕不可用时回退到 URL 解析器

摄入管道概述

flowchart LR
A[输入路径或 URL] --> B[格式路由]
B --> C[解析器]
C --> D[Markdown 标准化]
D --> E[存储在 .lore/raw SHA 目录中]
E --> F[写入 meta.json 和清单 mtime]

会话框架源

Lore 可以使用以下命令直接摄入本地会话历史:

lore ingest-sessions [framework|all]
框架键默认源位置(取决于操作系统)典型文件类型
claude-code~/.claude/projects/.jsonl
codex-cli~/.codex/sessions/~/.codex/projects/.jsonl
copilot-cli~/.copilot/session-state/(或 COPILOT_HOMEevents.jsonl
copilot-chatVS Code 工作区存储 */chatSessions/.jsonl.json
cursorCursor 工作区存储.jsonl.json
gemini-cli~/.gemini/~/.config/gemini/.jsonl.json.md
obsidian~/Documents/Obsidian Vault/(或自定义根目录).md

说明:

  • 会话导入通过相同的原始摄入管道运行,生成 .lore/raw/<sha>/ 条目。
  • meta.json 现在包含框架摄入源的 session 元数据。
  • --dry-run 允许你在写入摄入输出前审计发现。

对话导出支持(.json / .jsonl

Lore 在通用 JSON 渲染前尝试模式检测。

识别的模式家族:

  • role/content 消息数组(user/assistant,包括 human/ai 角色变体)
  • ChatGPT 映射导出(mapping 图)
  • Claude 风格和 Codex 风格的 JSONL 会话事件
  • Slack 风格的消息数组

对话输出标准化为转录 Markdown,包含带引号的用户行和助手响应块。

模式矩阵

输入形状检测结果输出
带 role-content 消息的数组/对象对话转录# Conversation Transcript Markdown
ChatGPT 映射对象对话转录有序的 user/assistant 回合
JSONL 会话事件对话转录来自事件负载的有序回合
Slack 消息数组对话转录启发式交替角色映射
未识别的模式通用 JSON 渲染标题/值 Markdown 转换

如果文件不匹配已知的对话模式,Lore 会回退到通用 JSON 到 Markdown 转换。

URL 和视频行为

URL 内容

Lore 根据 URL 路径中的文件扩展名路由 URL 摄入:

  • 文档扩展名.pdf.docx.pptx.xlsx.epub):下载到临时文件,然后通过 Replicate Marker 处理——与本地文档摄入相同。需要 TELEPAT_REPLICATE_TOKEN
  • 图像扩展名.png.jpg.jpeg.webp.gif.bmp):下载到临时文件,然后通过 Replicate Vision 处理——与本地图像摄入相同。需要 TELEPAT_REPLICATE_TOKEN
  • 所有其他 URL(网页、HTML 等):
    • 当同时设置了 LORE_CF_ACCOUNT_IDLORE_CF_TOKEN 时,Lore 调用 Cloudflare 浏览器运行 /markdown 端点,直接返回 Markdown 而无需本地 HTML 转换。
    • Cloudflare 失败或非字符串响应时,Lore 记录回退并使用 Jina。
    • 没有 Cloudflare 凭证时,Lore 直接通过 Jina 获取。

视频 URL

  • Lore 检查 yt-dlp
  • 如果字幕可用,Lore 摄入清理后的转录文本
  • 如果 yt-dlp 缺失或字幕不可用/为空,Lore 回退到 URL 解析

提取器元数据存储在视频摄入的 meta.json 中。

原始元数据说明

  • 所有摄入创建 .lore/raw/<sha256>/meta.json
  • 本地文件摄入可以推断文件夹派生的标签
  • 提取的文本可以附加启发式内存标签(decisionpreferenceproblemmilestoneemotional
  • 重复摄入重用现有原始条目

导出格式

Lore 支持这些导出目标:

  • bundle
  • slides
  • pdf
  • docx
  • web
  • canvas
  • graphml

参见导出了解详细用例和输出示例。

实际示例

# 摄入混合文件夹
lore ingest ./docs/architecture.md
lore ingest ./notes/session.jsonl
lore ingest ./assets/diagram.png

# 摄入 URL 和视频 URL
lore ingest https://example.com/post
lore ingest https://www.youtube.com/watch?v=<id>