メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.arkor.ai/llms.txt

Use this file to discover all available pages before exploring further.

DatasetSource

createTrainer はデータセットを 1 つ受け取ります。type で判別される union として表現します:
type DatasetSource =
  | { type: "huggingface"; name: string; split?: string; subset?: string }
  | { type: "blob";        url: string;  token?: string };

HuggingFace

dataset: {
  type: "huggingface",
  name: "arkorlab/triage-demo",
  // split: "train",
  // subset: "v1",
}
フィールド補足
type"huggingface"判別子。
namestringリポジトリ名(例: arkorlab/triage-demo)。公開リポジトリは追加認証なしで動きます。
splitstring?デフォルト split を上書き。任意。
subsetstring?複数 subset を公開しているデータセット用。任意。
これは同梱テンプレート(triage / translate / redaction)が使う形です。多くのプロジェクトはここから始めます。

Blob URL

dataset: {
  type: "blob",
  url: "https://example.com/data.jsonl",
  // token: process.env.DATASET_TOKEN,
}
フィールド補足
type"blob"判別子。
urlstringバックエンドが取得できる HTTPS URL。
tokenstring?ジョブ設定としてクラウド API に転送され、バックエンドが blob を取得する際に使われます。具体的な HTTP ワイヤーフォーマット(ヘッダ、scheme 等)はバックエンド側で定義され、SDK の契約には含まれません。
自分がホストしているデータセット(署名付き S3 URL、社内 CDN 等)に使ってください。バックエンドは学習の開始時に URL を一度引きます。

どちらを選ぶか

  • データセットが既に Hub にあるなら huggingface。最もテストされたパス。
  • Hub に置けないデータセット(プロプライエタリな内容、署名付き URL、社内専用)なら blob
ローカルファイル({ type: "file", path: "./data.jsonl" })は今のところ DatasetSource にありません。使うには blob URL としてホストするか、プライベート HuggingFace リポジトリにアップロードしてください。