第102章 BPE算法完成!(1 / 2)
第102章bpe算法完成!
喝完粥后,閔欣柔去洗碗。
吴辰则打开电脑,把给康寧药厂的解决方案写成了一份文档。
前后时间总共花了不到半个小时。
但这份文档,却能为他赚100万。
等明天钱到帐后,就又是1000点的技能点到帐。
等梁嘉诚帮自己把深圳的地皮搞定后,他就可以从系统商城中买设备生產初级的显卡了。
伸了个懒腰,忙碌了一天的吴辰也感受到了一丝倦意。
他站起身想回臥室睡觉,一转头才发现閔欣柔还坐在旁边看著自己,吴淑芬则在她纤细的大腿上呼呼大睡。
“你怎么不去睡觉,有什么问题吗”
吴辰问。
閔欣柔似乎走神了。
她连忙挪开目光,神情有些慌张。
不过说到问题,她又冷静了下来,不好意思道:“老师,我在实现bpe算法的时候发现rge规则很怪,词表切出来全是单字,英文还被拆成一个一个字母。”
“我看看。”
吴辰坐到她身边,看向了她的屏幕。
从上次他帮閔欣柔理清思路后,小姑娘的工作果然进入了正轨。
她先花了两天从天涯上抓取了5000条高质量的帖子,並且將贴子的每一个部分都分成了標题、
內容两个部分。
除此之外,每个贴子还包含了至少5条有效回復。
而且她没有像最开始的200多条数据那样去標记各种顏色,甚至还加粗加下划线来標註重点。
因为那是给人看的。
这一次的数据数据,完全就是最原始的数据。
虽然这项工作的绝大部分时间都是在机械的复製和粘贴,十分考验耐心。
但它的成果,也是用来训练人工智慧大语言模型最佳的分词语料。
吴辰运行了一下她的分词算法程序。
果然如閔欣柔所说,虽然能运行,但生成的分词结果却不对。
但这个问题应该不是语料质量不够。
吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。
101看书海量小说在101看书网,101.任你读全手打无错站
干是他道:“你帮我去泡杯咖啡,然后把菸灰缸拿过来。”
閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了过来。
但她犹豫了一下道:“老师,今天太晚了,您要是累了的话就先休息,我再研究研究,明天您再帮我看也是一样的。”
“不用。”
吴辰直接拒绝了。
深夜才是调试代码的最好时机。
没有產品经理在旁边bb,没有沙雕同事突然把资料库弄坏,也没有閒著没事干的领导突然要开站会。
见他態度坚决,閔欣柔便没有再劝,而是乖乖去厨房了。
“喵!”
閔欣柔都没说什么,倒是刚刚睡在她大腿上的吴淑芬不满了。
吴辰瞅了它一眼,当即给了几个耳刮子。
这傻猫不知道在叫什么,要是他们现在不努力,它哪还有罐罐吃。
等閔欣柔泡好咖啡回来后,吴辰已经把她的代码基本看了一遍,並且已经发现了问题。
於是喝了一口后,他立即开始指导了起来。
“首先,你在这个地方的pair频次统计用的不对,你遍歷的是vocab的键,完全忽略了每个词条的出现次数,所以每一轮选出来的最频繁符號对其实並不频繁。”
pair频次统计在bpe分词算法中,是用来决定每一轮要合併哪一对相邻符號的。
只有把词频权重算进去,rge规则才会稳定收敛。
閔欣柔把它的代码写成了这样:
这就导致她每轮合併挑到的pair像抽籤一样,越训练越碎,最后分词当然乱。
盯著吴辰指出的地方看了半天,閔欣柔才若有所思的开口。
“老师,是不是要在遍歷时加权,而且合併时还要考虑边界”
“没错。”
吴辰夸奖了一句。
他果然没有看错人。