Android Daily的benchmark只放出了case吗?论文里提到用LLM judge评估,怎么个judge法也没说,这也能叫benchmark吗?
Android Daily的benchmark只放出了case吗?论文里提到用LLM judge评估,怎么个judge法也没说,这也能叫benchmark吗?