go-i18n/calibrate.go

package i18n

import (
	"context"
	"time"

	"dappco.re/go/core"
	log "dappco.re/go/core/log"
	"forge.lthn.ai/core/go-inference"
)

// CalibrationSample is a single text entry for model comparison.
type CalibrationSample struct {
	Text       string
	TrueDomain string // optional ground truth label (empty if unknown)
}

// CalibrationResult holds per-sample classification from two models.
type CalibrationResult struct {
	Text       string `json:"text"`
	TrueDomain string `json:"true_domain,omitempty"`
	DomainA    string `json:"domain_a"`
	DomainB    string `json:"domain_b"`
	Agree      bool   `json:"agree"`
}

// CalibrationStats holds aggregate metrics from CalibrateDomains.
type CalibrationStats struct {
	Total          int                 `json:"total"`
	Agreed         int                 `json:"agreed"`
	AgreementRate  float64             `json:"agreement_rate"`
	ByDomainA      map[string]int      `json:"by_domain_a"`
	ByDomainB      map[string]int      `json:"by_domain_b"`
	ConfusionPairs map[string]int      `json:"confusion_pairs"` // "technical->creative": count
	AccuracyA      float64             `json:"accuracy_a"`      // vs ground truth (0 if none)
	AccuracyB      float64             `json:"accuracy_b"`      // vs ground truth (0 if none)
	CorrectA       int                 `json:"correct_a"`
	CorrectB       int                 `json:"correct_b"`
	WithTruth      int                 `json:"with_truth"` // samples that had ground truth
	DurationA      time.Duration       `json:"duration_a"`
	DurationB      time.Duration       `json:"duration_b"`
	Results        []CalibrationResult `json:"results"`
}

// CalibrateDomains classifies all samples with both models and computes agreement.
// Model A is typically the smaller/faster model (1B), model B the larger reference (27B).
// Samples with non-empty TrueDomain also contribute to accuracy metrics.
func CalibrateDomains(ctx context.Context, modelA, modelB inference.TextModel,
	samples []CalibrationSample, opts ...ClassifyOption) (*CalibrationStats, error) {

	if len(samples) == 0 {
		return nil, log.E("CalibrateDomains", "empty sample set", nil)
	}

	cfg := defaultClassifyConfig()
	for _, o := range opts {
		o(&cfg)
	}

	stats := &CalibrationStats{
		ByDomainA:      make(map[string]int),
		ByDomainB:      make(map[string]int),
		ConfusionPairs: make(map[string]int),
	}

	// Build classification prompts from sample texts.
	prompts := make([]string, len(samples))
	for i, s := range samples {
		prompts[i] = core.Sprintf(cfg.promptTemplate, s.Text)
	}

	// Classify with model A.
	domainsA, durA, err := classifyAll(ctx, modelA, prompts, cfg.batchSize)
	if err != nil {
		return nil, log.E("CalibrateDomains", "classify with model A", err)
	}
	stats.DurationA = durA

	// Classify with model B.
	domainsB, durB, err := classifyAll(ctx, modelB, prompts, cfg.batchSize)
	if err != nil {
		return nil, log.E("CalibrateDomains", "classify with model B", err)
	}
	stats.DurationB = durB

	// Compare results.
	stats.Total = len(samples)
	stats.Results = make([]CalibrationResult, len(samples))

	for i, s := range samples {
		a, b := domainsA[i], domainsB[i]
		agree := a == b
		if agree {
			stats.Agreed++
		} else {
			key := core.Sprintf("%s->%s", a, b)
			stats.ConfusionPairs[key]++
		}
		stats.ByDomainA[a]++
		stats.ByDomainB[b]++

		if s.TrueDomain != "" {
			stats.WithTruth++
			if a == s.TrueDomain {
				stats.CorrectA++
			}
			if b == s.TrueDomain {
				stats.CorrectB++
			}
		}

		stats.Results[i] = CalibrationResult{
			Text:       s.Text,
			TrueDomain: s.TrueDomain,
			DomainA:    a,
			DomainB:    b,
			Agree:      agree,
		}
	}

	if stats.Total > 0 {
		stats.AgreementRate = float64(stats.Agreed) / float64(stats.Total)
	}
	if stats.WithTruth > 0 {
		stats.AccuracyA = float64(stats.CorrectA) / float64(stats.WithTruth)
		stats.AccuracyB = float64(stats.CorrectB) / float64(stats.WithTruth)
	}

	return stats, nil
}

// classifyAll runs batch classification over all prompts, returning domain labels.
func classifyAll(ctx context.Context, model inference.TextModel, prompts []string, batchSize int) ([]string, time.Duration, error) {
	start := time.Now()
	domains := make([]string, len(prompts))

	for i := 0; i < len(prompts); i += batchSize {
		end := min(i+batchSize, len(prompts))
		batch := prompts[i:end]

		results, err := model.Classify(ctx, batch, inference.WithMaxTokens(1))
		if err != nil {
			return nil, 0, log.E("classifyAll", core.Sprintf("classify batch [%d:%d]", i, end), err)
		}

		for j, r := range results {
			domains[i+j] = mapTokenToDomain(r.Token.Text)
		}
	}

	return domains, time.Since(start), nil
}
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`package i18n`

			`import (`
			`"context"`
			`"time"`

feat: upgrade to core v0.8.0-alpha.1, replace banned stdlib imports Replace fmt, errors, strings, encoding/json with Core primitives across 20 files. Keep strings.Fields/CutPrefix. No translation files modified. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> 2026-03-26 14:11:15 +00:00			`"dappco.re/go/core"`
chore: migrate to dappco.re vanity import path Module path: forge.lthn.ai/core/go-i18n -> dappco.re/go/core/i18n Dependency: forge.lthn.ai/core/go-log -> dappco.re/go/core/log go-inference remains on forge.lthn.ai (not yet migrated). dappco.re/go/core/log uses replace directive until published. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> 2026-03-21 23:49:15 +00:00			`log "dappco.re/go/core/log"`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`"forge.lthn.ai/core/go-inference"`
			`)`

			`// CalibrationSample is a single text entry for model comparison.`
			`type CalibrationSample struct {`
			`Text string`
			`TrueDomain string // optional ground truth label (empty if unknown)`
			`}`

			`// CalibrationResult holds per-sample classification from two models.`
			`type CalibrationResult struct {`
			Text string `json:"text"`
			TrueDomain string `json:"true_domain,omitempty"`
			DomainA string `json:"domain_a"`
			DomainB string `json:"domain_b"`
			Agree bool `json:"agree"`
			`}`

			`// CalibrationStats holds aggregate metrics from CalibrateDomains.`
			`type CalibrationStats struct {`
refactor: apply go fix modernizers for Go 1.26 Automated fixes: interface{} → any, range-over-int, t.Context(), wg.Go(), strings.SplitSeq, strings.Builder, slices.Contains, maps helpers, min/max builtins. Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-22 21:00:16 +00:00			Total int `json:"total"`
			Agreed int `json:"agreed"`
			AgreementRate float64 `json:"agreement_rate"`
			ByDomainA map[string]int `json:"by_domain_a"`
			ByDomainB map[string]int `json:"by_domain_b"`
			ConfusionPairs map[string]int `json:"confusion_pairs"` // "technical->creative": count
			AccuracyA float64 `json:"accuracy_a"` // vs ground truth (0 if none)
			AccuracyB float64 `json:"accuracy_b"` // vs ground truth (0 if none)
			CorrectA int `json:"correct_a"`
			CorrectB int `json:"correct_b"`
			WithTruth int `json:"with_truth"` // samples that had ground truth
			DurationA time.Duration `json:"duration_a"`
			DurationB time.Duration `json:"duration_b"`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			Results []CalibrationResult `json:"results"`
			`}`

			`// CalibrateDomains classifies all samples with both models and computes agreement.`
			`// Model A is typically the smaller/faster model (1B), model B the larger reference (27B).`
			`// Samples with non-empty TrueDomain also contribute to accuracy metrics.`
			`func CalibrateDomains(ctx context.Context, modelA, modelB inference.TextModel,`
			`samples []CalibrationSample, opts ...ClassifyOption) (*CalibrationStats, error) {`

			`if len(samples) == 0 {`
fix(dx): migrate error handling to log.E(), fix build, add tests - Replace all fmt.Errorf/errors.New with log.E() from go-log - Fix core_service.go build error (c.Locales() does not exist on Core) - Add tests for Service.AddLoader, LoadFS, LanguagesErr, flatten, IsRTL - Document error handling convention in CLAUDE.md - Coverage: 85.2% root, 91.0% reversal (up from 83.1%) Co-Authored-By: Virgil <virgil@lethean.io> 2026-03-17 07:51:29 +00:00			`return nil, log.E("CalibrateDomains", "empty sample set", nil)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`}`

			`cfg := defaultClassifyConfig()`
			`for _, o := range opts {`
			`o(&cfg)`
			`}`

			`stats := &CalibrationStats{`
			`ByDomainA: make(map[string]int),`
			`ByDomainB: make(map[string]int),`
			`ConfusionPairs: make(map[string]int),`
			`}`

			`// Build classification prompts from sample texts.`
			`prompts := make([]string, len(samples))`
			`for i, s := range samples {`
feat: upgrade to core v0.8.0-alpha.1, replace banned stdlib imports Replace fmt, errors, strings, encoding/json with Core primitives across 20 files. Keep strings.Fields/CutPrefix. No translation files modified. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> 2026-03-26 14:11:15 +00:00			`prompts[i] = core.Sprintf(cfg.promptTemplate, s.Text)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`}`

			`// Classify with model A.`
			`domainsA, durA, err := classifyAll(ctx, modelA, prompts, cfg.batchSize)`
			`if err != nil {`
fix(dx): migrate error handling to log.E(), fix build, add tests - Replace all fmt.Errorf/errors.New with log.E() from go-log - Fix core_service.go build error (c.Locales() does not exist on Core) - Add tests for Service.AddLoader, LoadFS, LanguagesErr, flatten, IsRTL - Document error handling convention in CLAUDE.md - Coverage: 85.2% root, 91.0% reversal (up from 83.1%) Co-Authored-By: Virgil <virgil@lethean.io> 2026-03-17 07:51:29 +00:00			`return nil, log.E("CalibrateDomains", "classify with model A", err)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`}`
			`stats.DurationA = durA`

			`// Classify with model B.`
			`domainsB, durB, err := classifyAll(ctx, modelB, prompts, cfg.batchSize)`
			`if err != nil {`
fix(dx): migrate error handling to log.E(), fix build, add tests - Replace all fmt.Errorf/errors.New with log.E() from go-log - Fix core_service.go build error (c.Locales() does not exist on Core) - Add tests for Service.AddLoader, LoadFS, LanguagesErr, flatten, IsRTL - Document error handling convention in CLAUDE.md - Coverage: 85.2% root, 91.0% reversal (up from 83.1%) Co-Authored-By: Virgil <virgil@lethean.io> 2026-03-17 07:51:29 +00:00			`return nil, log.E("CalibrateDomains", "classify with model B", err)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`}`
			`stats.DurationB = durB`

			`// Compare results.`
			`stats.Total = len(samples)`
			`stats.Results = make([]CalibrationResult, len(samples))`

			`for i, s := range samples {`
			`a, b := domainsA[i], domainsB[i]`
			`agree := a == b`
			`if agree {`
			`stats.Agreed++`
			`} else {`
feat: upgrade to core v0.8.0-alpha.1, replace banned stdlib imports Replace fmt, errors, strings, encoding/json with Core primitives across 20 files. Keep strings.Fields/CutPrefix. No translation files modified. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> 2026-03-26 14:11:15 +00:00			`key := core.Sprintf("%s->%s", a, b)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`stats.ConfusionPairs[key]++`
			`}`
			`stats.ByDomainA[a]++`
			`stats.ByDomainB[b]++`

			`if s.TrueDomain != "" {`
			`stats.WithTruth++`
			`if a == s.TrueDomain {`
			`stats.CorrectA++`
			`}`
			`if b == s.TrueDomain {`
			`stats.CorrectB++`
			`}`
			`}`

			`stats.Results[i] = CalibrationResult{`
			`Text: s.Text,`
			`TrueDomain: s.TrueDomain,`
			`DomainA: a,`
			`DomainB: b,`
			`Agree: agree,`
			`}`
			`}`

			`if stats.Total > 0 {`
			`stats.AgreementRate = float64(stats.Agreed) / float64(stats.Total)`
			`}`
			`if stats.WithTruth > 0 {`
			`stats.AccuracyA = float64(stats.CorrectA) / float64(stats.WithTruth)`
			`stats.AccuracyB = float64(stats.CorrectB) / float64(stats.WithTruth)`
			`}`

			`return stats, nil`
			`}`

			`// classifyAll runs batch classification over all prompts, returning domain labels.`
			`func classifyAll(ctx context.Context, model inference.TextModel, prompts []string, batchSize int) ([]string, time.Duration, error) {`
			`start := time.Now()`
			`domains := make([]string, len(prompts))`

			`for i := 0; i < len(prompts); i += batchSize {`
refactor: apply go fix modernizers for Go 1.26 Automated fixes: interface{} → any, range-over-int, t.Context(), wg.Go(), strings.SplitSeq, strings.Builder, slices.Contains, maps helpers, min/max builtins. Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-22 21:00:16 +00:00			`end := min(i+batchSize, len(prompts))`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`batch := prompts[i:end]`

			`results, err := model.Classify(ctx, batch, inference.WithMaxTokens(1))`
			`if err != nil {`
feat: upgrade to core v0.8.0-alpha.1, replace banned stdlib imports Replace fmt, errors, strings, encoding/json with Core primitives across 20 files. Keep strings.Fields/CutPrefix. No translation files modified. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> 2026-03-26 14:11:15 +00:00			`return nil, 0, log.E("classifyAll", core.Sprintf("classify batch [%d:%d]", i, end), err)`
feat(calibrate): 1B vs 27B domain calibration tool CalibrateDomains() accepts two inference.TextModel instances and a corpus of CalibrationSamples, classifies all with both models, and computes agreement rate, per-domain distribution, confusion pairs, and accuracy vs ground truth. - calibrate.go: CalibrateDomains + classifyAll batch helper - calibrate_test.go: 7 mock tests (agreement, disagreement, mixed, no ground truth, empty, batch boundary, results slice) - integration/calibrate_test.go: 500-sample corpus (220 ground-truth + 280 unlabelled) for real 1B vs 27B model comparison - TODO.md: Phase 2a calibration task marked complete Co-Authored-By: Virgil <virgil@lethean.io> 2026-02-20 13:51:11 +00:00			`}`

			`for j, r := range results {`
			`domains[i+j] = mapTokenToDomain(r.Token.Text)`
			`}`
			`}`

			`return domains, time.Since(start), nil`
			`}`