Documentation Index
Fetch the complete documentation index at: https://docs.arkor.ai/llms.txt
Use this file to discover all available pages before exploring further.
DatasetSource
createTrainer はデータセットを 1 つ受け取ります。type で判別される union として表現します:
HuggingFace
| フィールド | 型 | 補足 |
|---|---|---|
type | "huggingface" | 判別子。 |
name | string | リポジトリ名(例: arkorlab/triage-demo)。公開リポジトリは追加認証なしで動きます。 |
split | string? | デフォルト split を上書き。任意。 |
subset | string? | 複数 subset を公開しているデータセット用。任意。 |
triage / translate / redaction)が使う形です。多くのプロジェクトはここから始めます。
Blob URL
| フィールド | 型 | 補足 |
|---|---|---|
type | "blob" | 判別子。 |
url | string | バックエンドが取得できる HTTPS URL。 |
token | string? | ジョブ設定としてクラウド API に転送され、バックエンドが blob を取得する際に使われます。具体的な HTTP ワイヤーフォーマット(ヘッダ、scheme 等)はバックエンド側で定義され、SDK の契約には含まれません。 |
どちらを選ぶか
- データセットが既に Hub にあるなら
huggingface。最もテストされたパス。 - Hub に置けないデータセット(プロプライエタリな内容、署名付き URL、社内専用)なら
blob。
{ type: "file", path: "./data.jsonl" })は今のところ DatasetSource にありません。使うには blob URL としてホストするか、プライベート HuggingFace リポジトリにアップロードしてください。