CMSCompOps
diff --git a/‎capacity/capacity_admin.py
Lines changed: 2 additions & 2 deletions b/‎capacity/capacity_admin.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎cmssst/www/cgi-bin/log_getter.py
Lines changed: 3 additions & 3 deletions b/‎cmssst/www/cgi-bin/log_getter.py
Lines changed: 3 additions & 3 deletions
diff --git a/‎facility/adm_facility.py
Lines changed: 131 additions & 1 deletion b/‎facility/adm_facility.py
Lines changed: 131 additions & 1 deletion
diff --git a/‎hammercloud/eval_hc.py
Lines changed: 9 additions & 6 deletions b/‎hammercloud/eval_hc.py
Lines changed: 9 additions & 6 deletions
diff --git a/‎meeting_plots/meet_plots.sh
Lines changed: 10 additions & 10 deletions b/‎meeting_plots/meet_plots.sh
Lines changed: 10 additions & 10 deletions
@@ -274,8 +274,8 @@ def capa_startd_usage():
     # ##################################################### #
     # return dictionary of max cores used during last month #
     # ##################################################### #
-    URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/8332/_msearch?filter_path=responses.aggregations.cpus_per_site.buckets.key,responses.aggregations.cpus_per_site.buckets.max_cpus_a.value,responses.aggregations.cpus_per_site.buckets.max_cpus_b.value"
-    HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiWGdESVczR28ySGVVNFJMMHpRQ0FiM25EM0dKQm5HNTEiLCJuIjoiZnRzX2NsaSIsImlkIjoyNX0=", 'Content-Type': "application/json; charset=UTF-8"}
+    URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/9668/_msearch?filter_path=responses.aggregations.cpus_per_site.buckets.key,responses.aggregations.cpus_per_site.buckets.max_cpus_a.value,responses.aggregations.cpus_per_site.buckets.max_cpus_b.value"
+    HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiZWRnWXc1bUZWS0kwbWExN011TGNTN2I2S1JpZFFtTWYiLCJuIjoiY21zLXNzYiIsImlkIjoxMX0=", 'Content-Type': "application/json; charset=UTF-8"}
     #
     siteRegex = re.compile(r"T\d_[A-Z]{2,2}_\w+")
     #
 
@@ -274,10 +274,10 @@ def lget_grafana_fetch(cfg):
         for myResponse in myResult['responses']:
             try:
                 if nDocsHdr is None:
-                    nDocsHdr = myResponse['hits']['total']
-                elif ( nDocsHdr != myResponse['hits']['total'] ):
+                    nDocsHdr = myResponse['hits']['total']['value']
+                elif ( nDocsHdr != myResponse['hits']['total']['value'] ):
                     logging.warning("Changed job record count, %d versus %d" %
-                                    (nDocsHdr, myResponse['hits']['total']))
+                              (nDocsHdr, myResponse['hits']['total']['value']))
                 #
                 nDocsChnk += len( myResponse['hits']['hits'] )
                 #
 
@@ -984,6 +984,10 @@ def admf_influxdb_jobmon(firstTIS, limitTIS, siteDict, fsssDict):
     #       cores, the tags of interest.                                      #
     # ####################################################################### #
     URL_INFLUXDB = "https://monit-grafana.cern.ch/api/datasources/proxy/7731/query?db=monit_production_cmsjm&q=SELECT%%20SUM%%28wavg_count%%29%%20FROM%%20%%22long%%22.%%22condor_1d%%22%%20WHERE%%20%%22Status%%22%%20=%%20%%27Running%%27%%20AND%%20time%%20%%3E=%%20%ds%%20and%%20time%%20%%3C%%20%ds%%20GROUP%%20BY%%20%%22RequestCpus%%22%%2C%%20%%22Site%%22"
+    # -------------------------------------------------------------------------
+    # urllib.parse.unquote(URL_INFLUXDB % (123456789, 987654321))
+    # 'https://monit-grafana.cern.ch/api/datasources/proxy/7731/query?db=monit_production_cmsjm&q=SELECT SUM(wavg_count) FROM "long"."condor_1d" WHERE "Status" = \'Running\' AND time >= 123456789s and time < 987654321s GROUP BY "RequestCpus", "Site"'
+    # -------------------------------------------------------------------------
     HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiZWRnWXc1bUZWS0kwbWExN011TGNTN2I2S1JpZFFtTWYiLCJuIjoiY21zLXNzYiIsImlkIjoxMX0=", 'Content-Type': "application/x-www-form-urlencoded; charset=UTF-8", 'Accept': "application/json"}
     #
     first15m = int( firstTIS / 86400 ) * 96
@@ -1085,6 +1089,132 @@ def admf_influxdb_jobmon(firstTIS, limitTIS, siteDict, fsssDict):
 
 
 
+def admf_grafana_jobmon(firstTIS, limitTIS, siteDict, fsssDict):
+    """sum up CPU usage from MonIT/ElasticSearch and return a site list"""
+    # ####################################################################### #
+    # fetch summed up core usage times count during firstTIS and limitTIS     #
+    #       from MonIT/ElasticSearch and return a list of sites that provided #
+    #       100 cores or more of CPU during that period.                      #
+    # CMS job monitoring information in InfluxDB/ElasticSearch is aggregated  #
+    #       from HTCondor 12 minute job snapshots retaining tags. We thus     #
+    #       have to aggregate over the tags that are not of interest and sum  #
+    #       the product of number-of-cores and usage for each site.           #
+    # ####################################################################### #
+    URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/9475/_msearch"
+    HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiZWRnWXc1bUZWS0kwbWExN011TGNTN2I2S1JpZFFtTWYiLCJuIjoiY21zLXNzYiIsImlkIjoxMX0=", 'Content-Type': "application/json; charset=UTF-8", 'Accept': "application/json"}
+    #
+    first15m = int( firstTIS / 86400 ) * 96
+    limit15m = int( limitTIS / 86400 ) * 96
+    if ( first15m >= limit15m ):
+        logging.critical("Empty time interval for sites to provide computing")
+        return []
+    #
+    logging.info("Querying ElasticSearch about job core usage via Grafana")
+    logging.log(15, "   between %s and %s" %
+                       (time.strftime("%Y-%m-%d", time.gmtime(first15m * 900)),
+                   time.strftime("%Y-%m-%d", time.gmtime((limit15m * 900)-1))))
+
+
+    # prepare Lucene ElasticSearch query:
+    # ===================================
+    queryString = ("\"search_type\":\"query_then_fetch\",\"ignore_unavailabl" +
+                   "e\":true,\"index\":[\"monit_prod_condor_agg_metric*\"]}" +
+                   "\n{\"query\":{\"bool\":{\"must\":[{\"match_phrase\":{\"d" +
+                   "ata.Status\":\"Running\"}}],\"filter\":{\"range\":{\"met" +
+                   "adata.timestamp\":{\"gte\":%d,\"lt\":%d,\"format\":\"epo" +
+                   "ch_second\"}}}}},\"size\":0,\"aggs\":{\"corehours_per_si" +
+                   "te\":{\"terms\":{\"field\":\"data.Site\",\"size\":512}," +
+                   "\"aggs\":{\"corehours_of_entry\":{\"sum\":{\"script\":{" +
+                   "\"lang\":\"painless\",\"source\":\"doc['data.RequestCpus" +
+                   "'].value * doc['data.wavg_count'].value\"}}}}}}}\n") % \
+                                               (first15m * 900, limit15m * 900)
+
+
+    # execute query and receive results from ElasticSearch:
+    # =====================================================
+    try:
+        requestObj = urllib.request.Request(URL_GRAFANA,
+                                            data=queryString.encode("utf-8"),
+                                            headers=HDR_GRAFANA, method="POST")
+        with urllib.request.urlopen( requestObj, timeout=600 ) as responseObj:
+            urlCharset = responseObj.headers.get_content_charset()
+            if urlCharset is None:
+                urlCharset = "utf-8"
+            myData = responseObj.read().decode( urlCharset )
+            del urlCharset
+        #
+        # sanity check:
+        if ( len(myData) < 1024 ):
+            raise ValueError("Job core usage data failed sanity check")
+        #
+        # decode JSON:
+        myJson = json.loads( myData )
+        del myData
+        #
+    except urllib.error.URLError as excptn:
+        logging.error("Failed to query ElasticSearch via Grafana, %s" %
+                                                                   str(excptn))
+        return []
+
+
+    # loop over results and integrate core usage by site:
+    # ===================================================
+    integrationDict = {}
+    for myRspns in myJson['responses']:
+        for myBuckt in myRspns['aggregations']['corehours_per_site']['buckets']:
+            try:
+                mySite = myBuckt['key']
+                try:
+                    myFacility = siteDict[ mySite ]
+                except KeyError:
+                    continue
+                myFsss = myFacility + "___" + mySite
+                if ( myFsss not in fsssDict ):
+                    myFsss = myFacility
+                    if ( myFsss not in fsssDict ):
+                        continue
+                myUsage = myBuckt['corehours_of_entry']['value']
+                if ( myFsss in integrationDict ):
+                    integrationDict[ myFsss ] += myUsage
+                else:
+                    integrationDict[ myFsss ] = myUsage
+            except KeyError as excptn:
+                logging.warning("Bad query result entry, skipping, %s" %
+                                                                   str(excptn))
+                continue
+    ackSet = set()
+    myTime = ( limit15m - first15m ) / 4
+    for myFsss in sorted( integrationDict.keys(), reverse=True ):
+        myCPU = integrationDict[ myFsss ] / myTime
+        logging.log(25, "Fsss %s provided %.1f CPU cores" % (myFsss, myCPU))
+        if ( myCPU >= 100.0 ):
+            ackSet.add( fsssDict[myFsss] )
+        else:
+            fsssList = myFsss.split("___")
+            if ( len(fsssList) == 3 ):
+                parentFsss = fsssList[0] + "___" + fsssList[1]
+                if ( parentFsss not in fsssDict ):
+                    parentFsss = fsssList[0]
+            elif ( len(fsssList) == 2 ):
+                parentFsss = fsssList[0]
+            else:
+                continue
+            if ( parentFsss not in fsssDict ):
+                continue
+            if ( parentFsss in integrationDict ):
+                integrationDict[ parentFsss ] += integrationDict[ myFsss ]
+            else:
+                integrationDict[ parentFsss ] = integrationDict[ myFsss ]
+
+
+    logging.info("   found %d fsss'es providing 100 cores or more" %
+                                                                   len(ackSet))
+    #
+    return list( ackSet )
+# ########################################################################### #
+
+
+
 def admf_write_acknowledgement(quarterString, tupleList, filepath = None):
     """write computing acknowledgement LaTex file"""
     # ####################################################################### #
@@ -1851,7 +1981,7 @@ def admf_make_tzlist():
         #
         # get list of sites contributing computing:
         # =========================================
-        compTuple = admf_influxdb_jobmon(frstDay, nextDay, siteDict, fsssDict)
+        compTuple = admf_grafana_jobmon(frstDay, nextDay, siteDict, fsssDict)
         #
         #
         tupleList = sorted( set( diskTuple + compTuple ) )
 
@@ -304,8 +304,8 @@ def evhc_grafana_jobs(startTIS, limitTIS, mustClauses=None):
     # fill global HTCondor list with job records from ElasticSearch #
     # ############################################################# #
     global evhc_glbl_jobcondor
-    URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/8332/_msearch"
-    HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiWGdESVczR28ySGVVNFJMMHpRQ0FiM25EM0dKQm5HNTEiLCJuIjoiZnRzX2NsaSIsImlkIjoyNX0=", 'Content-Type': "application/json; charset=UTF-8"}
+    URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/9668/_msearch"
+    HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiZWRnWXc1bUZWS0kwbWExN011TGNTN2I2S1JpZFFtTWYiLCJuIjoiY21zLXNzYiIsImlkIjoxMX0=", 'Content-Type': "application/json; charset=UTF-8"}
     #
     logging.info("Fetching job records via Grafana, %d (%s) to %d (%s)" %
                  (startTIS, time.strftime("%Y-%m-%d %H:%M",
@@ -318,7 +318,7 @@ def evhc_grafana_jobs(startTIS, limitTIS, mustClauses=None):
     # ===================================
     queryType = {
         "search_type": "query_then_fetch",
-        "index": ["monit_prod_condor_raw_metric_v002-*"]
+        "index": ["monit_prod_condor_raw_metric*"]
     }
     source = {
         'includes': ['data.GlobalJobId', 'data.Site', 'data.Status',
@@ -400,10 +400,10 @@ def evhc_grafana_jobs(startTIS, limitTIS, mustClauses=None):
         for response in jobrecords['responses']:
             try:
                 if nHitsHdr is None:
-                    nHitsHdr = response['hits']['total']
-                elif ( nHitsHdr != response['hits']['total'] ):
+                    nHitsHdr = response['hits']['total']['value']
+                elif ( nHitsHdr != response['hits']['total']['value'] ):
                     logging.warning("Changed job record count, %d versus %d" %
-                                    (nHitsHdr, response['hits']['total']))
+                                (nHitsHdr, response['hits']['total']['value']))
                 lastTImS = response['hits']['hits'][-1] \
                                    ['_source']['data']['RecordTime']
 
@@ -472,6 +472,9 @@ def evhc_grafana_jobs(startTIS, limitTIS, mustClauses=None):
                                     elif ( rReason.find("ython-initiated action") != -1 ):
                                         # job cancelled by HammerCloud itself
                                         pass
+                                    elif ( rReason.find("due to proxy expiration") != -1 ):
+                                        # HammerCloud certificate issue
+                                        pass
                                     elif ( rReason.find("SYSTEM_PERIODIC_REMOVE") != -1 ):
                                         status = "Failed, GlobalPool periodic cleanup"
                                     else:
 
@@ -158,7 +158,7 @@ WE_TIS=`/bin/date +'%s' -u -d "last Wednesday"`
 SLOT_STIS=`echo "${WE_TIS} - 172800" | /usr/bin/bc`
 SLOT_ETIS=`echo "${WE_TIS} + 432000" | /usr/bin/bc`
 SLOT_SITES='T1_DE_KIT T1_ES_PIC T1_IT_CNAF T1_FR_CCIN2P3 T1_UK_RAL T1_US_FNAL T1_RU_JINR T2_CH_CERN T2_.*'
-SLOT_URL='https://monit-grafana.cern.ch/render/d-solo/YcGYFOVWz/requested-cpu?'
+SLOT_URL='https://monit-grafana.cern.ch/render/d-solo/YcGYFOVWz/requested-cpu'
 SLOT_QRYR="orgId=11&from=${SLOT_STIS}000&to=${SLOT_ETIS}000&panelId=2&width=1024&height=768&var-site="
 SLOT_QRYP="orgId=11&from=${SLOT_STIS}000&to=${SLOT_ETIS}000&panelId=4&width=1024&height=768&var-site="
 #
@@ -240,14 +240,14 @@ fi
 # now cut out Tier-1 and Tier-2 CERN images:
 if [ -f ${TMP_FILE} ]; then
    if [ ! -f ${PLOT_DIR}/T2_CH_CERN_sr.png ]; then
-      /usr/bin/convert -crop 1070x474+7+725 ${TMP_FILE} ${PLOT_DIR}/T1_DE_KIT_sr.png
-      /usr/bin/convert -crop 1070x474+7+1290 ${TMP_FILE} ${PLOT_DIR}/T1_ES_PIC_sr.png
-      /usr/bin/convert -crop 1070x474+7+1855 ${TMP_FILE} ${PLOT_DIR}/T1_FR_CCIN2P3_sr.png
-      /usr/bin/convert -crop 1070x474+7+2420 ${TMP_FILE} ${PLOT_DIR}/T1_IT_CNAF_sr.png
-      /usr/bin/convert -crop 1070x474+7+2985 ${TMP_FILE} ${PLOT_DIR}/T1_RU_JINR_sr.png
-      /usr/bin/convert -crop 1070x474+7+3550 ${TMP_FILE} ${PLOT_DIR}/T1_UK_RAL_sr.png
-      /usr/bin/convert -crop 1070x474+7+4115 ${TMP_FILE} ${PLOT_DIR}/T1_US_FNAL_sr.png
-      /usr/bin/convert -crop 1070x474+7+7505 ${TMP_FILE} ${PLOT_DIR}/T2_CH_CERN_sr.png
+      /usr/bin/convert -crop 1086x448+7+689 ${TMP_FILE} ${PLOT_DIR}/T1_DE_KIT_sr.png
+      /usr/bin/convert -crop 1086x448+7+1225 ${TMP_FILE} ${PLOT_DIR}/T1_ES_PIC_sr.png
+      /usr/bin/convert -crop 1086x448+7+1761 ${TMP_FILE} ${PLOT_DIR}/T1_FR_CCIN2P3_sr.png
+      /usr/bin/convert -crop 1086x448+7+2297 ${TMP_FILE} ${PLOT_DIR}/T1_IT_CNAF_sr.png
+      /usr/bin/convert -crop 1086x448+7+2833 ${TMP_FILE} ${PLOT_DIR}/T1_RU_JINR_sr.png
+      /usr/bin/convert -crop 1086x448+7+3369 ${TMP_FILE} ${PLOT_DIR}/T1_UK_RAL_sr.png
+      /usr/bin/convert -crop 1086x448+7+3905 ${TMP_FILE} ${PLOT_DIR}/T1_US_FNAL_sr.png
+      /usr/bin/convert -crop 1086x448+7+7121 ${TMP_FILE} ${PLOT_DIR}/T2_CH_CERN_sr.png
    else
       echo "t1_de_kit/pic/ccin2p3/cnaf/jinr/ral/fnal/cern.png exist, skipping"
    fi
@@ -277,7 +277,7 @@ fi
 # now cut out Tier-2 image:
 if [ -f ${TMP_FILE} ]; then
    if [ ! -f ${PLOT_DIR}/T2_sr.png ]; then
-      /usr/bin/convert -crop 1114x1458+7+394 ${TMP_FILE} ${PLOT_DIR}/T2_sr.png
+      /usr/bin/convert -crop 1150x1364+7+365 ${TMP_FILE} ${PLOT_DIR}/T2_sr.png
    else
       echo "T2_sr.png exist, skipping"
    fi
Original file line number	Diff line number	Diff line change
`@@ -274,8 +274,8 @@ def capa_startd_usage():`
`274`	`274`	`# ##################################################### #`
`275`	`275`	`# return dictionary of max cores used during last month #`
`276`	`276`	`# ##################################################### #`
`277`		`- URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/8332/_msearch?filter_path=responses.aggregations.cpus_per_site.buckets.key,responses.aggregations.cpus_per_site.buckets.max_cpus_a.value,responses.aggregations.cpus_per_site.buckets.max_cpus_b.value"`
`278`		`- HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiWGdESVczR28ySGVVNFJMMHpRQ0FiM25EM0dKQm5HNTEiLCJuIjoiZnRzX2NsaSIsImlkIjoyNX0=", 'Content-Type': "application/json; charset=UTF-8"}`
	`277`	`+ URL_GRAFANA = "https://monit-grafana.cern.ch/api/datasources/proxy/9668/_msearch?filter_path=responses.aggregations.cpus_per_site.buckets.key,responses.aggregations.cpus_per_site.buckets.max_cpus_a.value,responses.aggregations.cpus_per_site.buckets.max_cpus_b.value"`
	`278`	`+ HDR_GRAFANA = {'Authorization': "Bearer eyJrIjoiZWRnWXc1bUZWS0kwbWExN011TGNTN2I2S1JpZFFtTWYiLCJuIjoiY21zLXNzYiIsImlkIjoxMX0=", 'Content-Type': "application/json; charset=UTF-8"}`
`279`	`279`	`#`
`280`	`280`	`siteRegex = re.compile(r"T\d_[A-Z]{2,2}_\w+")`
`281`	`281`	`#`
Original file line number	Diff line number	Diff line change
`@@ -274,10 +274,10 @@ def lget_grafana_fetch(cfg):`
`274`	`274`	`for myResponse in myResult['responses']:`
`275`	`275`	`try:`
`276`	`276`	`if nDocsHdr is None:`
`277`		`- nDocsHdr = myResponse['hits']['total']`
`278`		`- elif ( nDocsHdr != myResponse['hits']['total'] ):`
	`277`	`+ nDocsHdr = myResponse['hits']['total']['value']`
	`278`	`+ elif ( nDocsHdr != myResponse['hits']['total']['value'] ):`
`279`	`279`	`logging.warning("Changed job record count, %d versus %d" %`
`280`		`- (nDocsHdr, myResponse['hits']['total']))`
	`280`	`+ (nDocsHdr, myResponse['hits']['total']['value']))`
`281`	`281`	`#`
`282`	`282`	`nDocsChnk += len( myResponse['hits']['hits'] )`
`283`	`283`	`#`