Fix miscs (#35)

pierrenodet · web-flow · commit 58cb9e196796 · 2021-04-07T22:44:58.000+02:00
* fix miscs

* small default changes
diff --git a/build.sbt b/build.sbt
@@ -51,7 +51,8 @@ lazy val docs = project
     unidocProjectFilter in (ScalaUnidoc, unidoc) := inProjects(core),
     target in (ScalaUnidoc, unidoc) := (baseDirectory in LocalRootProject).value / "website" / "static" / "api",
     cleanFiles += (target in (ScalaUnidoc, unidoc)).value,
-    docusaurusCreateSite := docusaurusCreateSite.dependsOn(unidoc in Compile).value
+    docusaurusCreateSite := docusaurusCreateSite.dependsOn(unidoc in Compile).value,
+    docusaurusPublishGhpages := docusaurusPublishGhpages.dependsOn(unidoc in Compile).value
   )
-  .dependsOn(core)
   .enablePlugins(MdocPlugin, DocusaurusPlugin, ScalaUnidocPlugin)
+  .dependsOn(core)
diff --git a/core/src/main/scala/org/apache/spark/ml/boosting/BoostingParams.scala b/core/src/main/scala/org/apache/spark/ml/boosting/BoostingParams.scala
@@ -43,11 +43,11 @@ private[ml] trait BoostingParams
     with HasTol
     with HasNumRound {
 
-  setDefault(numRound -> 5)
+  setDefault(numRound -> 2)
   setDefault(numBaseLearners -> 10)
   setDefault(tol -> 1e-6)
 
-  def evaluateOnValidation(
+  protected def evaluateOnValidation(
       weights: Array[Double],
       boosters: Array[EnsemblePredictionModelType],
       labelColName: String,
@@ -66,7 +66,7 @@ private[ml] trait BoostingParams
     }
   }
 
-  def evaluateOnValidation(
+  protected def evaluateOnValidation(
       numClasses: Int,
       weights: Array[Double],
       boosters: Array[EnsemblePredictionModelType],
@@ -87,7 +87,7 @@ private[ml] trait BoostingParams
     }
   }
 
-  def probabilize(
+  protected def probabilize(
       boostWeightColName: String,
       boostProbaColName: String,
       poissonProbaColName: String)(df: DataFrame): DataFrame = {
@@ -98,7 +98,7 @@ private[ml] trait BoostingParams
       .withColumn(poissonProbaColName, col(boostProbaColName) * numLines)
   }
 
-  def updateWeights(
+  protected def updateWeights(
       boostWeightColName: String,
       lossColName: String,
       beta: Double,
@@ -108,25 +108,26 @@ private[ml] trait BoostingParams
       col(boostWeightColName) * pow(lit(beta), lit(1) - col(lossColName)))
   }
 
-  def avgLoss(lossColName: String, boostProbaColName: String)(df: DataFrame): Double = {
+  protected def avgLoss(lossColName: String, boostProbaColName: String)(df: DataFrame): Double = {
     df.agg(sum(col(lossColName) * col(boostProbaColName)))
       .first()
       .getDouble(0)
   }
 
-  def beta(avgl: Double, numClasses: Int = 2): Double = {
+  protected def beta(avgl: Double, numClasses: Int = 2): Double = {
     avgl / ((1 - avgl) * (numClasses - 1))
   }
 
-  def weight(beta: Double): Double = {
+  protected def weight(beta: Double): Double = {
     if (beta == 0.0) {
       1.0
     } else {
       math.log(1 / beta)
     }
   }
 
-  def extractBoostedBag(poissonProbaColName: String, seed: Long)(df: DataFrame): DataFrame = {
+  protected def extractBoostedBag(poissonProbaColName: String, seed: Long)(
+      df: DataFrame): DataFrame = {
 
     val poissonProbaColIndex = df.schema.fieldIndex(poissonProbaColName)
 
@@ -149,7 +150,7 @@ private[ml] trait BoostingParams
 
   }
 
-  def terminateVal(
+  protected def terminateVal(
       withValidation: Boolean,
       error: Double,
       verror: Double,
@@ -178,7 +179,7 @@ private[ml] trait BoostingParams
 
   }
 
-  def terminate(
+  protected def terminate(
       avgl: Double,
       withValidation: Boolean,
       error: Double,
diff --git a/core/src/main/scala/org/apache/spark/ml/boosting/GBMParams.scala b/core/src/main/scala/org/apache/spark/ml/boosting/GBMParams.scala
@@ -57,7 +57,7 @@ private[ml] trait GBMParams
     with HasSubBag {
 
   setDefault(learningRate -> 0.1)
-  setDefault(numBaseLearners -> 100)
+  setDefault(numBaseLearners -> 10)
   setDefault(tol -> 1e-6)
   setDefault(maxIter -> 100)
 
@@ -77,7 +77,7 @@ private[ml] trait GBMParams
 
   setDefault(optimizedWeights -> false)
 
-  def findOptimizedWeight(
+  protected def findOptimizedWeight(
       labelColName: String,
       currentPredictionColName: String,
       boosterPredictionColName: String,
@@ -126,7 +126,7 @@ private[ml] trait GBMParams
     optimized(0)
   }
 
-  def findOptimizedWeight(
+  protected def findOptimizedWeight(
       labelColName: String,
       currentPredictionColName: String,
       boosterPredictionColName: String,
@@ -199,57 +199,7 @@ private[ml] trait GBMParams
 
   }
 
-  // def findOptimizedConst(
-  //     labelColName: String,
-  //     loss: (Array[Double], Array[Double]) => Double,
-  //     grad: (Array[Double], Array[Double]) => Array[Double],
-  //     numClasses: Int,
-  //     maxIter: Int,
-  //     tol: Double)(df: DataFrame): Array[Double] = {
-
-  //   val transformed = df
-  //     .select(col(labelColName))
-  //     .cache()
-
-  //   val cdf = new CachedDiffFunction[BreezeDV[Double]](new DiffFunction[BreezeDV[Double]] {
-  //     override def calculate(denseVector: BreezeDV[Double]): (Double, BreezeDV[Double]) = {
-  //       val x = denseVector.toArray
-  //       val df = transformed
-  //       val l = loss
-  //       val ludf =
-  //         udf[Double, Array[Double]]((label: Array[Double]) => l(label, x))
-  //       val g = grad
-  //       val gudf =
-  //         udf[Array[Double], Array[Double]]((label: Array[Double]) => g(label, x))
-  //       val lcn = labelColName
-  //       var agg = Seq.empty[Column]
-  //       var k = 0
-  //       while (k < numClasses) {
-  //         agg = agg :+ sum(element_at(gudf(col(lcn)), k + 1))
-  //         k += 1
-  //       }
-  //       val res = df.agg(sum(ludf(col(lcn))), agg: _*).first()
-  //       (
-  //         res.getDouble(0),
-  //         BreezeDV[Double](Array.range(0, numClasses).map(k => res.getDouble(k + 1))))
-
-  //     }
-  //   })
-
-  //   val lbfgsb =
-  //     new BreezeLBFGSB(
-  //       BreezeDV.fill(numClasses)(Double.NegativeInfinity),
-  //       BreezeDV.fill(numClasses)(Double.PositiveInfinity),
-  //       maxIter = maxIter,
-  //       tolerance = tol,
-  //       m = 10)
-  //   val optimized =
-  //     lbfgsb.minimize(cdf, BreezeDV.zeros(numClasses))
-
-  //   optimized.toArray
-  // }
-
-  def findOptimizedConst(
+  protected def findOptimizedConst(
       labelColName: String,
       loss: (Double, Double) => Double,
       grad: (Double, Double) => Double,
@@ -289,7 +239,7 @@ private[ml] trait GBMParams
     optimized(0)
   }
 
-  def evaluateOnValidation(
+  protected def evaluateOnValidation(
       model: GBMRegressionModel,
       labelColName: String,
       loss: (Double, Double) => Double)(df: DataFrame): Double = {
@@ -305,7 +255,7 @@ private[ml] trait GBMParams
     }
   }
 
-  def evaluateOnValidation(
+  protected def evaluateOnValidation(
       model: GBMClassificationModel,
       labelColName: String,
       loss: (Vector, Vector) => Double)(df: DataFrame): Double = {
@@ -323,7 +273,7 @@ private[ml] trait GBMParams
     }
   }
 
-  def terminate(
+  protected def terminate(
       weights: Array[Double],
       learningRate: Double,
       withValidation: Boolean,
@@ -343,7 +293,7 @@ private[ml] trait GBMParams
     }
   }
 
-  def terminate(
+  protected def terminate(
       weight: Double,
       learningRate: Double,
       withValidation: Boolean,
diff --git a/core/src/main/scala/org/apache/spark/ml/classification/BaggingClassifier.scala b/core/src/main/scala/org/apache/spark/ml/classification/BaggingClassifier.scala
@@ -164,7 +164,7 @@ class BaggingClassifier(override val uid: String)
       val bagged = df.transform(
         withBag(getReplacement, getSampleRatio, getNumBaseLearners, getSeed, bagColName))
 
-      val numFeatures = getNumFeatures(df, getFeaturesCol)
+      val numFeatures = MetadataUtils.getNumFeatures(df, getFeaturesCol)
 
       val futureModels = Array
         .range(0, getNumBaseLearners)
diff --git a/core/src/main/scala/org/apache/spark/ml/classification/GBMClassifier.scala b/core/src/main/scala/org/apache/spark/ml/classification/GBMClassifier.scala
@@ -95,7 +95,7 @@ private[ml] trait GBMClassifierParams
 
   setDefault(instanceTrimmingRatio -> 1.0)
 
-  def trim(instanceTrimmingRatio: Double, negGradColName: String, tol: Double)(
+  protected def trim(instanceTrimmingRatio: Double, negGradColName: String, tol: Double)(
       df: DataFrame): DataFrame = {
     val instanceWeightColName = "gbm$instance-weight" + UUID.randomUUID().toString
     val instanced = df
@@ -295,7 +295,7 @@ class GBMClassifier(override val uid: String)
       val bagged = train.transform(
         withBag(getReplacement, getSampleRatio, getNumBaseLearners, getSeed, bagColName))
 
-      val numFeatures = getNumFeatures(train, getFeaturesCol)
+      val numFeatures = MetadataUtils.getNumFeatures(train, getFeaturesCol)
 
       val numClasses = getNumClasses(train, maxNumClasses = numFeatures)
       instr.logNumClasses(numClasses)
diff --git a/core/src/main/scala/org/apache/spark/ml/ensemble/HasSubBag.scala b/core/src/main/scala/org/apache/spark/ml/ensemble/HasSubBag.scala
@@ -23,11 +23,11 @@ import org.apache.spark.ml.feature.VectorSlicer
 import org.apache.spark.ml.linalg.{DenseVector, SparseVector, Vector, Vectors}
 import org.apache.spark.ml.param._
 import org.apache.spark.ml.param.shared.HasSeed
-import org.apache.spark.ml.util.BaggingMetadataUtils
 import org.apache.spark.sql.bfunctions._
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.{DataFrame, Row}
 import org.apache.spark.util.random.XORShiftRandom
+import org.apache.spark.ml.util.MetadataUtils
 
 private[ml] trait HasSubBag extends Params with HasSeed {
 
@@ -78,7 +78,7 @@ private[ml] trait HasSubBag extends Params with HasSeed {
 
   setDefault(subspaceRatio -> 1)
 
-  def withBag(
+  protected def withBag(
       withReplacement: Boolean,
       sampleRatio: Double,
       numberSamples: Int,
@@ -87,7 +87,7 @@ private[ml] trait HasSubBag extends Params with HasSeed {
     df.withColumn(bagColName, bag(withReplacement, sampleRatio, numberSamples, seed))
   }
 
-  def mkSubspace(sampleRatio: Double, numFeatures: Int, seed: Long): SubSpace = {
+  protected def mkSubspace(sampleRatio: Double, numFeatures: Int, seed: Long): SubSpace = {
 
     val range = Array.range(0, numFeatures)
 
@@ -105,8 +105,11 @@ private[ml] trait HasSubBag extends Params with HasSeed {
 
   }
 
-  def extractSubBag(bagColName: String, index: Int, featuresColName: String, subspace: SubSpace)(
-      df: DataFrame): DataFrame = {
+  protected def extractSubBag(
+      bagColName: String,
+      index: Int,
+      featuresColName: String,
+      subspace: SubSpace)(df: DataFrame): DataFrame = {
 
     val tmpColName = "bag$tmp" + UUID.randomUUID().toString
     val replicated = df
@@ -125,27 +128,11 @@ private[ml] trait HasSubBag extends Params with HasSeed {
 
   }
 
-  def slicer(subspace: SubSpace): Vector => Vector = {
+  protected def slicer(subspace: SubSpace): Vector => Vector = {
     case features: DenseVector => Vectors.dense(subspace.map(features.apply))
     case features: SparseVector => features.slice(subspace)
   }
 
-  def getNumFeatures(dataset: DataFrame, featuresCol: String): Int = {
-    BaggingMetadataUtils.getNumFeatures(dataset.schema(featuresCol)) match {
-      case Some(n: Int) => n
-      case None =>
-        // Get number of classes from dataset itself.
-        val numFeaturesUDF = udf((features: Vector) => features.size)
-        val sizeFeaturesCol: Array[Row] = dataset.select(numFeaturesUDF(col(featuresCol))).take(1)
-        if (sizeFeaturesCol.isEmpty || sizeFeaturesCol(0).get(0) == null) {
-          throw new SparkException("ML algorithm was given empty dataset.")
-        }
-        val sizeArrayFeatures: Int = sizeFeaturesCol.head.getInt(0)
-        val numFeatures = sizeArrayFeatures.toInt
-        numFeatures
-    }
-  }
-
 }
 
 private[ml] object HasSubBag {
diff --git a/core/src/main/scala/org/apache/spark/ml/ensemble/ensembleParams.scala b/core/src/main/scala/org/apache/spark/ml/ensemble/ensembleParams.scala
@@ -96,7 +96,7 @@ private[ml] trait HasBaseLearner extends Params {
   /** @group getParam */
   def getBaseLearner: EnsemblePredictorType = $(baseLearner)
 
-  def fitBaseLearner(
+  protected def fitBaseLearner(
       baseLearner: EnsemblePredictorType,
       labelColName: String,
       featuresColName: String,
diff --git a/core/src/main/scala/org/apache/spark/ml/regression/BaggingRegressor.scala b/core/src/main/scala/org/apache/spark/ml/regression/BaggingRegressor.scala
@@ -164,7 +164,7 @@ class BaggingRegressor(override val uid: String)
       val bagged = df.transform(
         withBag(getReplacement, getSampleRatio, getNumBaseLearners, getSeed, bagColName))
 
-      val numFeatures = getNumFeatures(df, getFeaturesCol)
+      val numFeatures = MetadataUtils.getNumFeatures(df, getFeaturesCol)
 
       val futureModels = Array
         .range(0, getNumBaseLearners)
diff --git a/core/src/main/scala/org/apache/spark/ml/regression/GBMRegressor.scala b/core/src/main/scala/org/apache/spark/ml/regression/GBMRegressor.scala
@@ -250,7 +250,7 @@ class GBMRegressor(override val uid: String)
       val bagged = train.transform(
         withBag(getReplacement, getSampleRatio, getNumBaseLearners, getSeed, bagColName))
 
-      val numFeatures = getNumFeatures(train, getFeaturesCol)
+      val numFeatures = MetadataUtils.getNumFeatures(train, getFeaturesCol)
 
       @tailrec
       def trainBoosters(
diff --git a/core/src/main/scala/org/apache/spark/ml/util/BaggingMetadataUtils.scala b/core/src/main/scala/org/apache/spark/ml/util/BaggingMetadataUtils.scala
diff --git a/website/package.json b/website/package.json
@@ -9,6 +9,6 @@
     "rename-version": "docusaurus-rename-version"
   },
   "devDependencies": {
-    "docusaurus": "^1.12.0"
+    "docusaurus": "^1.14.7"
   }
 }
diff --git a/website/siteConfig.js b/website/siteConfig.js