braintrustdata
diff --git a/‎examples/src/main/java/dev/braintrust/examples/ExperimentExample.java‎
Lines changed: 5 additions & 5 deletions b/‎examples/src/main/java/dev/braintrust/examples/ExperimentExample.java‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/main/java/dev/braintrust/eval/Dataset.java‎
Lines changed: 33 additions & 0 deletions b/‎src/main/java/dev/braintrust/eval/Dataset.java‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎src/main/java/dev/braintrust/eval/DatasetCase.java‎
Lines changed: 25 additions & 0 deletions b/‎src/main/java/dev/braintrust/eval/DatasetCase.java‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎src/main/java/dev/braintrust/eval/DatasetInMemoryImpl.java‎
Lines changed: 49 additions & 0 deletions b/‎src/main/java/dev/braintrust/eval/DatasetInMemoryImpl.java‎
Lines changed: 49 additions & 0 deletions
diff --git a/‎src/main/java/dev/braintrust/eval/Eval.java‎
Lines changed: 81 additions & 72 deletions b/‎src/main/java/dev/braintrust/eval/Eval.java‎
Lines changed: 81 additions & 72 deletions
@@ -4,7 +4,7 @@
 import com.openai.models.ChatModel;
 import com.openai.models.chat.completions.ChatCompletionCreateParams;
 import dev.braintrust.Braintrust;
-import dev.braintrust.eval.EvalCase;
+import dev.braintrust.eval.DatasetCase;
 import dev.braintrust.eval.Scorer;
 import dev.braintrust.instrumentation.openai.BraintrustOpenAI;
 import java.util.function.Function;
@@ -37,10 +37,10 @@ public static void main(String[] args) throws Exception {
                         // will append new cases to
                         // the same experiment
                         .cases(
-                                EvalCase.of("strawberry", "fruit"),
-                                EvalCase.of("asparagus", "vegetable"),
-                                EvalCase.of("apple", "fruit"),
-                                EvalCase.of("banana", "fruit"))
+                                DatasetCase.of("strawberry", "fruit"),
+                                DatasetCase.of("asparagus", "vegetable"),
+                                DatasetCase.of("apple", "fruit"),
+                                DatasetCase.of("banana", "fruit"))
                         .taskFunction(getFoodType)
                         .scorers(
                                 Scorer.of(
 
@@ -0,0 +1,33 @@
+package dev.braintrust.eval;
+
+import java.util.List;
+import java.util.Optional;
+
+public interface Dataset<INPUT, OUTPUT> {
+    Cursor<DatasetCase<INPUT, OUTPUT>> openCursor();
+
+    String id();
+
+    String version();
+
+    interface Cursor<CASE> extends AutoCloseable {
+        /**
+         * Fetch the next case. Returns empty if there are no more cases to fetch.
+         *
+         * <p>Implementations may make external requests to fetch data.
+         *
+         * <p>If this method is invoked after {@link #close()} an IllegalStateException will be
+         * thrown
+         */
+        Optional<CASE> next();
+
+        /** close all cursor resources */
+        void close();
+    }
+
+    /** TODO: document */
+    @SafeVarargs
+    static <INPUT, OUTPUT> Dataset<INPUT, OUTPUT> of(DatasetCase<INPUT, OUTPUT>... cases) {
+        return new DatasetInMemoryImpl<>(List.of(cases));
+    }
+}
@@ -0,0 +1,25 @@
+package dev.braintrust.eval;
+
+import java.util.List;
+import java.util.Map;
+import javax.annotation.Nonnull;
+
+/** A single row in a dataset. */
+public record DatasetCase<INPUT, OUTPUT>(
+        INPUT input,
+        OUTPUT expected,
+        @Nonnull List<String> tags,
+        @Nonnull Map<String, Object> metadata) {
+    public DatasetCase {
+        if (!metadata.isEmpty()) {
+            throw new RuntimeException("TODO: metadata support not yet implemented");
+        }
+        if (!tags.isEmpty()) {
+            throw new RuntimeException("TODO: tags support not yet implemented");
+        }
+    }
+
+    public static <INPUT, OUTPUT> DatasetCase<INPUT, OUTPUT> of(INPUT input, OUTPUT expected) {
+        return new DatasetCase<>(input, expected, List.of(), Map.of());
+    }
+}
@@ -0,0 +1,49 @@
+package dev.braintrust.eval;
+
+import java.util.List;
+import java.util.Optional;
+
+/** A dataset held entirely in memory */
+class DatasetInMemoryImpl<INPUT, OUTPUT> implements Dataset<INPUT, OUTPUT> {
+    private final List<DatasetCase<INPUT, OUTPUT>> cases;
+    private final String id;
+
+    public DatasetInMemoryImpl(List<DatasetCase<INPUT, OUTPUT>> cases) {
+        this.cases = List.copyOf(cases);
+        id = "in-memory-dataset<" + this.cases.hashCode() + ">";
+    }
+
+    @Override
+    public Cursor<DatasetCase<INPUT, OUTPUT>> openCursor() {
+        return new Cursor<>() {
+            int nextIndex = 0;
+            boolean closed = false;
+
+            @Override
+            public Optional<DatasetCase<INPUT, OUTPUT>> next() {
+                if (closed) {
+                    throw new IllegalStateException("this method may not be invoked after close");
+                } else if (nextIndex < cases.size()) {
+                    return Optional.of(cases.get(nextIndex++));
+                } else {
+                    return Optional.empty();
+                }
+            }
+
+            @Override
+            public void close() {
+                closed = true;
+            }
+        };
+    }
+
+    @Override
+    public String id() {
+        return id;
+    }
+
+    @Override
+    public String version() {
+        return "0";
+    }
+}
@@ -14,7 +14,6 @@
 import java.util.function.Function;
 import javax.annotation.Nonnull;
 import javax.annotation.Nullable;
-import lombok.Getter;
 import lombok.SneakyThrows;
 
 /**
@@ -33,7 +32,7 @@ public final class Eval<INPUT, OUTPUT> {
     private final @Nonnull BraintrustApiClient client;
     private final @Nonnull BraintrustApiClient.OrganizationAndProjectInfo orgAndProject;
     private final @Nonnull Tracer tracer;
-    private final @Nonnull List<EvalCase<INPUT, OUTPUT>> evalCases;
+    private final @Nonnull Dataset<INPUT, OUTPUT> dataset;
     private final @Nonnull Task<INPUT, OUTPUT> task;
     private final @Nonnull List<Scorer<INPUT, OUTPUT>> scorers;
 
@@ -52,13 +51,13 @@ private Eval(Builder<INPUT, OUTPUT> builder) {
                                                     "invalid project id: " + builder.projectId));
         }
         this.tracer = Objects.requireNonNull(builder.tracer);
-        this.evalCases = List.copyOf(builder.evalCases);
+        this.dataset = builder.dataset;
         this.task = Objects.requireNonNull(builder.task);
         this.scorers = List.copyOf(builder.scorers);
     }
 
     /** Runs the evaluation and returns results. */
-    public Result run() {
+    public EvalResult run() {
         var experiment =
                 client.getOrCreateExperiment(
                         new BraintrustApiClient.CreateExperimentRequest(
@@ -67,36 +66,48 @@ public Result run() {
                                 Optional.empty(),
                                 Optional.empty()));
         var experimentID = experiment.id();
-        var evalCaseResults =
-                evalCases.stream().map(evalCase -> evalOne(experimentID, evalCase)).toList();
-        return new Result();
+
+        try (var cursor = dataset.openCursor()) {
+            for (var datsetCase = cursor.next();
+                    datsetCase.isPresent();
+                    datsetCase = cursor.next()) {
+                evalOne(experimentID, datsetCase.get());
+            }
+        }
+        var experimentUrl =
+                "%s/experiments/%s"
+                        .formatted(
+                                BraintrustUtils.createProjectURI(config.appUrl(), orgAndProject)
+                                        .toASCIIString(),
+                                experimentName);
+        return new EvalResult(experimentUrl);
     }
 
-    private EvalCase.Result<INPUT, OUTPUT> evalOne(
-            String experimentId, EvalCase<INPUT, OUTPUT> evalCase) {
+    @SneakyThrows
+    private void evalOne(String experimentId, DatasetCase<INPUT, OUTPUT> datasetCase) {
+        JSON_MAPPER.writeValueAsString(Map.of("type", "eval"));
         var rootSpan =
                 tracer.spanBuilder("eval") // TODO: allow names for eval cases
                         .setNoParent() // each eval case is its own trace
                         .setSpanKind(SpanKind.CLIENT)
                         .setAttribute(PARENT, "experiment_id:" + experimentId)
-                        .setAttribute("braintrust.span_attributes", "{\"type\":\"eval\"}")
-                        // FIXME: use proper object mapper for json stuff
+                        .setAttribute("braintrust.span_attributes", json(Map.of("type", "eval")))
                         .setAttribute(
-                                "braintrust.input_json",
-                                "{ \"input\":\"" + evalCase.input() + "\"}")
-                        .setAttribute("braintrust.expected", "\"" + evalCase.expected() + "\"")
+                                "braintrust.input_json", json(Map.of("input", datasetCase.input())))
+                        .setAttribute("braintrust.expected", json(datasetCase.expected()))
                         .startSpan();
         try (var rootScope = BraintrustContext.ofExperiment(experimentId, rootSpan).makeCurrent()) {
-            final OUTPUT result;
+            final TaskResult<INPUT, OUTPUT> result;
             { // run task
                 var taskSpan =
                         tracer.spanBuilder("task")
                                 .setAttribute(PARENT, "experiment_id:" + experimentId)
-                                .setAttribute("braintrust.span_attributes", "{\"type\":\"task\"}")
+                                .setAttribute(
+                                        "braintrust.span_attributes", json(Map.of("type", "task")))
                                 .startSpan();
                 try (var unused =
                         BraintrustContext.ofExperiment(experimentId, taskSpan).makeCurrent()) {
-                    result = task.apply(evalCase);
+                    result = task.apply(datasetCase);
                 } finally {
                     taskSpan.end();
                 }
@@ -113,66 +124,40 @@ private EvalCase.Result<INPUT, OUTPUT> evalOne(
                 var scoreSpan =
                         tracer.spanBuilder("score")
                                 .setAttribute(PARENT, "experiment_id:" + experimentId)
-                                .setAttribute("braintrust.span_attributes", "{\"type\":\"score\"}")
+                                .setAttribute(
+                                        "braintrust.span_attributes", json(Map.of("type", "score")))
                                 .startSpan();
                 try (var unused =
                         BraintrustContext.ofExperiment(experimentId, scoreSpan).makeCurrent()) {
-                    // NOTE: linked hash map to preserve ordering. Not in the spec but nice user
-                    // experience
-                    final HashMap<String, Double> nameToScore = new LinkedHashMap<>();
-                    var scores =
-                            scorers.stream()
-                                    .map(
-                                            scorer -> {
-                                                var score = scorer.score(evalCase, result);
-                                                if (score < 0.0 || score > 1.0) {
-                                                    throw new RuntimeException(
-                                                            "score must be between 0 and 1: "
-                                                                    + scorer.getName()
-                                                                    + " : "
-                                                                    + score);
-                                                }
-                                                nameToScore.put(scorer.getName(), score);
-                                                return score;
-                                            })
-                                    .toList();
-                    try {
-                        scoreSpan.setAttribute(
-                                "braintrust.scores", JSON_MAPPER.writeValueAsString(nameToScore));
-                    } catch (JsonProcessingException e) {
-                        throw new RuntimeException(e);
-                    }
+                    // linked map to preserve ordering. Not in the spec but nice user experience
+                    final Map<String, Double> nameToScore = new LinkedHashMap<>();
+                    scorers.forEach(
+                            scorer -> {
+                                var scores = scorer.score(result);
+                                scores.forEach(
+                                        score -> {
+                                            if (score.value() < 0.0 || score.value() > 1.0) {
+                                                throw new RuntimeException(
+                                                        "score must be between 0 and 1: %s : %s"
+                                                                .formatted(
+                                                                        scorer.getName(), score));
+                                            }
+                                            nameToScore.put(score.name(), score.value());
+                                        });
+                            });
+                    scoreSpan.setAttribute("braintrust.scores", json(nameToScore));
                 } finally {
                     scoreSpan.end();
                 }
             }
-            return new EvalCase.Result<>(evalCase, result);
         } finally {
             rootSpan.end();
         }
     }
 
-    /** Results of all eval cases of an experiment. */
-    public class Result {
-        @Getter private final String experimentUrl;
-
-        @SneakyThrows
-        private Result() {
-            this.experimentUrl =
-                    "%s/experiments/%s"
-                            .formatted(
-                                    BraintrustUtils.createProjectURI(config.appUrl(), orgAndProject)
-                                            .toASCIIString(),
-                                    experimentName);
-        }
-
-        public String createReportString() {
-            try {
-                return "Experiment complete. View results in braintrust: " + experimentUrl;
-            } catch (Exception e) {
-                throw new RuntimeException(e);
-            }
-        }
+    @SneakyThrows
+    private String json(Object o) {
+        return JSON_MAPPER.writeValueAsString(o);
     }
 
     /** Creates a new eval builder. */
@@ -182,12 +167,12 @@ public static <INPUT, OUTPUT> Builder<INPUT, OUTPUT> builder() {
 
     /** Builder for creating evaluations with fluent API. */
     public static final class Builder<INPUT, OUTPUT> {
+        public @Nonnull Dataset<INPUT, OUTPUT> dataset;
         private @Nonnull String experimentName = "unnamed-java-eval";
         private @Nullable BraintrustConfig config;
         private @Nullable BraintrustApiClient apiClient;
         private @Nullable String projectId;
         private @Nullable Tracer tracer = null;
-        private @Nonnull List<EvalCase<INPUT, OUTPUT>> evalCases = List.of();
         private @Nullable Task<INPUT, OUTPUT> task;
         private @Nonnull List<Scorer<INPUT, OUTPUT>> scorers = List.of();
 
@@ -201,15 +186,13 @@ public Eval<INPUT, OUTPUT> build() {
             if (projectId == null) {
                 projectId = config.defaultProjectId().orElse(null);
             }
-            if (evalCases.isEmpty()) {
-                throw new RuntimeException("must provide at least one eval case");
-            }
             if (scorers.isEmpty()) {
                 throw new RuntimeException("must provide at least one scorer");
             }
             if (null == apiClient) {
                 apiClient = BraintrustApiClient.of(config);
             }
+            Objects.requireNonNull(dataset);
             Objects.requireNonNull(task);
             return new Eval<>(this);
         }
@@ -239,10 +222,28 @@ public Builder<INPUT, OUTPUT> tracer(Tracer tracer) {
             return this;
         }
 
+        public Builder<INPUT, OUTPUT> dataset(Dataset<INPUT, OUTPUT> dataset) {
+            this.dataset = dataset;
+            return this;
+        }
+
+        /** Deprecated. Use {@link #cases(DatasetCase[])} or {@link #dataset(Dataset)} instead */
+        @Deprecated
         @SafeVarargs
         public final Builder<INPUT, OUTPUT> cases(EvalCase<INPUT, OUTPUT>... cases) {
-            this.evalCases = List.of(cases);
-            return this;
+            return cases(
+                    Arrays.stream(cases)
+                            .map(evalCase -> DatasetCase.of(evalCase.input(), evalCase.expected()))
+                            .toList()
+                            .toArray(new DatasetCase[0]));
+        }
+
+        @SafeVarargs
+        public final Builder<INPUT, OUTPUT> cases(DatasetCase<INPUT, OUTPUT>... cases) {
+            if (cases.length == 0) {
+                throw new RuntimeException("must provide at least one case");
+            }
+            return dataset(Dataset.of(cases));
         }
 
         public Builder<INPUT, OUTPUT> task(Task<INPUT, OUTPUT> task) {
@@ -251,7 +252,15 @@ public Builder<INPUT, OUTPUT> task(Task<INPUT, OUTPUT> task) {
         }
 
         public Builder<INPUT, OUTPUT> taskFunction(Function<INPUT, OUTPUT> taskFn) {
-            return task(evalCase -> taskFn.apply(evalCase.input()));
+            return task(
+                    new Task<>() {
+                        @Override
+                        public TaskResult<INPUT, OUTPUT> apply(
+                                DatasetCase<INPUT, OUTPUT> datasetCase) {
+                            var result = taskFn.apply(datasetCase.input());
+                            return new TaskResult<>(result, datasetCase);
+                        }
+                    });
         }
 
         @SafeVarargs