银行 社区服务 每日签到 会员排行 网站地图
  • 6066阅读
  • 46回复

引擎公平对战测试的建议

楼层直达
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 27楼 发表于: 2023-09-01
全局设置
思考策略    限时制:1+0+0 0.6
线程数    1
哈希表    128
后台思考    ×
开局库    ×
局面文件    tournament\220-250分80426局面.txt
随机选取    √
编排模式    循环赛
循环次数    1000
同时进行场数    10
超时宽限    1000ms
自动判和    回合数>=60 双方分数绝对值<=25
每场对局重新加载引擎    ×

排名
排名    引擎    胜    和    负    胜率    ΔElo
1    0408-pika-avx2-fold
2    0827-pika-avx2-liu        
3    0827-pika-avx2-ling    

正常结果应该是这样的吧,如果不一致我再回复,一样就不回了,可能对打没结束,新版本又又又出来了.
舟遥遥以轻扬  风飘飘而吹衣
级别: 版主
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻2级]金币数量≥1000枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
479
金币
1159
威望
2
贡献值
0
乐币
7
主题
14

只看该作者 26楼 发表于: 2023-09-01
回 20楼(风的线条) 的帖子
官网昨天更新了权重,请到官网下载,或到本人帖子第6页,102楼下载。
级别: 版主
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻2级]金币数量≥1000枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
479
金币
1159
威望
2
贡献值
0
乐币
7
主题
14

只看该作者 25楼 发表于: 2023-09-01
引用
引用第10楼风的线条于2023-08-27 14:08发表的  :
时间长短上我也各种测试过,现在也是按stockfish的1分加1/100秒,3分+1.8秒的标准来.

应该是1/100分,也就是每步加局时的百分之一,3分钟局时,每步加3/100分,即1. 8秒。线下比赛加时赛的超快棋,常用5分钟+ 3秒,也是同理。
级别: 版主
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻2级]金币数量≥1000枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
479
金币
1159
威望
2
贡献值
0
乐币
7
主题
14

只看该作者 24楼 发表于: 2023-08-31
回 23楼(风的线条) 的帖子
那是架构环境时间,在皮卡猫之后。是0827版
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 23楼 发表于: 2023-08-31
全局设置
思考策略    限时制:1+0+0 0.6
线程数    1
哈希表    128
后台思考    ×
开局库    ×
局面文件    tournament\220-250分80426局面.txt
随机选取    √
编排模式    循环赛
循环次数    1000
同时进行场数    8
超时宽限    200ms
自动判和    回合数>=60 双方分数绝对值<=25
每场对局重新加载引擎    ×

排名
排名    引擎    胜    和    负    胜率    ΔElo
1    0827-pika-avx2    748    581    671    51.92%    +13.4±12.8
2    0826-pika-avx2    671    581    748    48.07%    -13.4±12.8
我看您0827编译的时间早于PikaCat-OuO侠的发布时间,这样可能是0826第二版和0827版对打,liuwei版有点吃亏的哦.
舟遥遥以轻扬  风飘飘而吹衣
级别: 版主
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻2级]金币数量≥1000枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
479
金币
1159
威望
2
贡献值
0
乐币
7
主题
14

只看该作者 22楼 发表于: 2023-08-31
回 21楼(风的线条) 的帖子
请移步到第6页,102楼下载测试。谢谢
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 21楼 发表于: 2023-08-31
回 19楼(六维演易) 的帖子
您的帖子只有0826的呢,0827您没放出来咯.
舟遥遥以轻扬  风飘飘而吹衣
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 20楼 发表于: 2023-08-31
现在测着0828的旋风,等过两天,我一般用305,不用408的,那个版本没能扛的,305以后大家都算快棋版吧,编译用clang棋力好一些.
舟遥遥以轻扬  风飘飘而吹衣
级别: 版主
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻2级]金币数量≥1000枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
479
金币
1159
威望
2
贡献值
0
乐币
7
主题
14

只看该作者 19楼 发表于: 2023-08-31
回 13楼(风的线条) 的帖子
我用此方法测试pk0827 pk0408 lingshipk0827,同一cpu指令集,同-规则(亚规),0408关闭胜率计分,也用原始计分。循环500,3*2*500=3000。结果我就不公布了,想请你也来测一下。最近,我在编译方式方法的不同,对可执行文件的影响,产生的引擎性能不同,这个问题上花了太多时间。
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻3级]金币数量≥2000枚 [棋中蓝钻2级]乐币数量≥50枚 [棋中粉钻1级]贡献值数量≥1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
292
金币
3999
威望
0
贡献值
1
乐币
65
主题
2
只看该作者 18楼 发表于: 2023-08-30
回 16楼(石破天惊) 的帖子
森罗万象的命令行接口。
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
191
金币
24
威望
0
贡献值
0
乐币
0
主题
3
只看该作者 17楼 发表于: 2023-08-30
回 15楼(xxx) 的帖子
主要是一些低端局占大优后攻杀方面有很大的差别。。在这些低端局里面.新版小虫(老版也有这个问题)与皮卡鱼残局攻杀能力是最差的。(其它几款软件稍好一点。新版名手没试过。老版名手还是可以的。但326不行。是64位176名手多子残局占大优后挺不错的。少子残局略弱于倚天64位版但倚天64位版多子残局占大优后略弱于176名手。所以他们攻杀各有千秋)有很多局面都绝杀分了。大数软件 有时候给时间都算不到。非要纯人变招提示。才能算出来。

这样局面是非常多了。我都测了几年了.测的时候不限时间发现有问题的局面我会让软件 算很久。不管怎么更新。有些局面没很大的改善.最后我得出结论。所有带NNUE引擎都没跑过低端的谱。导至陌生局面占大优后。有些招数走不太理想。有些十几步弃车叫杀算不到。(以上我所说的软件缺点是通过对象棋巫师对战发现问题的)测高端局是发现不了这些问题
306275732@qq.com
级别: 伯爵
[棋中红钻4级]发帖数量≥1000篇 [棋中黄钻5级]金币数量≥10000枚 [棋中蓝钻2级]乐币数量≥50枚 [棋中粉钻2级]贡献值数量≥5点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
1650
金币
16261
威望
0
贡献值
6
乐币
60
主题
480

只看该作者 16楼 发表于: 2023-08-30
Sylvan-CLI 这个是什么软件啊?哪位知道的大神说一下。
计算永远是下好棋的不二法则
https://www.ixigua.com/channel/dianying
xxx
级别: 首席版主
[棋中红钻5级]发帖数量≥2000篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻2级]乐币数量≥50枚 [未点亮棋中粉钻]贡献值数量<1点 [棋中彩钻2级]精华帖数量≥2篇
发帖
2359
金币
173
威望
5
贡献值
0
乐币
52
主题
257

只看该作者 15楼 发表于: 2023-08-27
现在的风、虫、鱼、猫的棋力都在伯仲之间,想要测出引擎的差别真是太难了,也不知道哪种方法最好
306275732@qq.com
级别: 伯爵
[棋中红钻4级]发帖数量≥1000篇 [棋中黄钻5级]金币数量≥10000枚 [棋中蓝钻2级]乐币数量≥50枚 [棋中粉钻2级]贡献值数量≥5点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
1650
金币
16261
威望
0
贡献值
6
乐币
60
主题
480

只看该作者 14楼 发表于: 2023-08-27
优秀文章,我一直认为上面的两种测试引擎的方法(即高优和核心数和时间设置不平等的测试)不靠谱
计算永远是下好棋的不二法则
https://www.ixigua.com/channel/dianying
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 13楼 发表于: 2023-08-27
全局设置
思考策略    限时制:1+0+0 0.6
线程数    1
哈希表    128
后台思考    ×
开局库    ×
局面文件    tournament\220-250分80426局面.txt
随机选取    √
编排模式    循环赛
循环次数    200
同时进行场数    10
超时宽限    200ms
自动判和    回合数>=60 双方分数绝对值<=25
每场对局重新加载引擎    ×

排名
排名    引擎    胜    和    负    胜率    ΔElo
1    0819-pika-avx2    462    335    403    52.46%    +17.1±16.7
2    0818-pika-avx2    424    361    415    50.38%    +2.6±16.4
3    0810-pika-avx2    398    371    431    48.63%    -9.6±16.3
4    0807-pika-avx2    408    349    443    48.54%    -10.1±16.5

计算公式是引擎数n*(n-1)*轮数x*局数y,4*(4-1)*1*200=2400局,2个引擎换先是2*1000=2000局.立即换先,局面数有N个万的,随机抽取,分数么用的和云库的一样,A引擎认为亏了200,B引擎认为亏了180分,忽略不计了,我用的鱼群测试局面为主,旋风的百万局面也有用,没自己单独做,
舟遥遥以轻扬  风飘飘而吹衣
级别: 三级士官
[棋中红钻1级]发帖数量≥10篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
73
金币
23
威望
0
贡献值
0
乐币
0
主题
0
只看该作者 12楼 发表于: 2023-08-27
这个帖子很有用
我发帖:不隐藏、不叫卖、不加密。
级别: 论坛检查
[棋中红钻4级]发帖数量≥1000篇 [棋中黄钻5级]金币数量≥10000枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [棋中彩钻3级]精华帖数量≥5篇
发帖
1509
金币
10650
威望
13
贡献值
0
乐币
33
主题
139

只看该作者 11楼 发表于: 2023-08-27
回 9楼(风的线条) 的帖子
局面换先也有问题讨论的,是每一个局面立即换先,还是所有局面轮完再换先。如果是立即换先,同一局面,会不会被之前搜索的Hash干扰呢?如果轮完再换先,要怎样设置总局数才能确保每个局面都轮到呢?

局面换先是每个局面有2局,那设置总局数1000局,实际上是打了1000局还是2000局呢?

引擎不同对局面的优略认定也不同,比如你拿一个200的局面来说,你凭什么肯定两个引擎都一致认为该局面时200呢?

如果人为选局面不当,看是200的局面,实际上大优或者大劣呢?

所以还是初始局面公平。


(好在时机器对决,如果是人和人打架,搞局面换先,允许一个人先拿铁锤把对方捶一下,请问对方还有能力换先吗)
我发帖:不隐藏、不叫卖、不加密
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 10楼 发表于: 2023-08-27
时间长短上我也各种测试过,现在也是按stockfish的1分加1/100秒,3分+1.8秒的标准来.
舟遥遥以轻扬  风飘飘而吹衣
舟遥遥以轻扬  风飘飘而吹衣
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
379
金币
752
威望
0
贡献值
0
乐币
42
主题
7
只看该作者 9楼 发表于: 2023-08-27
非平衡局面是换先的,这和举重一个道理,我能举200公斤,你能举180公斤,不就分出胜负了么,如果红开局亏分-200分,我后手能顶和您后手输了,这样能适当拉大胜负比,一样能综合判断引擎棋力的强弱.起始局面,开局红随机走一步,开局红黑各随机走一步,红黑随机走二步,非平衡各种分值比,我都试过了,现在用最多还是200-300分的非平衡局面,分差太大太小意义不大,个人见解,您可以参考着用不同的方法对比测试一下.
舟遥遥以轻扬  风飘飘而吹衣
我发帖:不隐藏、不叫卖、不加密。
级别: 论坛检查
[棋中红钻4级]发帖数量≥1000篇 [棋中黄钻5级]金币数量≥10000枚 [棋中蓝钻1级]乐币数量≥10枚 [未点亮棋中粉钻]贡献值数量<1点 [棋中彩钻3级]精华帖数量≥5篇
发帖
1509
金币
10650
威望
13
贡献值
0
乐币
33
主题
139

只看该作者 8楼 发表于: 2023-08-27
回 7楼(棋中弃帅) 的帖子
如果棋力相差不大,和棋是正常啊,只要测试的局数够多,总有能分出胜负的。

但是如果为了减少和棋,分出胜负。搞打压式设置,或者搞不均衡局面,那就真的不公平了
我发帖:不隐藏、不叫卖、不加密
快速回复

限56 字节
请不要在回贴只采用字母:“ PP、asdfhjkl、HAO、OK、ddddddd ......”。  请不要在回贴过于简单的内容:“不错、顶、支持、厉害、呵呵、靠、晕........”
 
验证问题: 本站网址是?不带http://
上一个 下一个