第102章 bpe算法完成!
    喝完粥后,閔欣柔去洗碗。
    吴辰则打开电脑,把给康寧药厂的解决方案写成了一份文档。
    前后时间总共花了不到半个小时。
    但这份文档,却能为他赚100万。
    等明天钱到帐后,就又是1000点的技能点到帐。
    等梁嘉诚帮自己把深圳的地皮搞定后,他就可以从系统商城中买设备生產初级的显卡了。
    伸了个懒腰,忙碌了一天的吴辰也感受到了一丝倦意。
    他站起身想回臥室睡觉,一转头才发现閔欣柔还坐在旁边看著自己,吴淑芬则在她纤细的大腿上呼呼大睡。
    “你怎么不去睡觉,有什么问题吗?”
    吴辰问。
    閔欣柔似乎走神了。
    她连忙挪开目光,神情有些慌张。
    不过说到问题,她又冷静了下来,不好意思道:“老师,我在实现bpe算法的时候发现merge规则很怪,词表切出来全是单字,英文还被拆成一个一个字母。”
    “我看看。”
    吴辰坐到她身边,看向了她的屏幕。
    从上次他帮閔欣柔理清思路后,小姑娘的工作果然进入了正轨。
    她先花了两天从天涯上抓取了5000条高质量的帖子,並且將贴子的每一个部分都分成了標题、
    內容两个部分。
    除此之外,每个贴子还包含了至少5条有效回復。
    而且她没有像最开始的200多条数据那样去標记各种顏色,甚至还加粗加下划线来標註重点。
    因为那是给人看的。
    这一次的数据数据,完全就是最原始的数据。
    虽然这项工作的绝大部分时间都是在机械的复製和粘贴,十分考验耐心。
    但它的成果,也是用来训练人工智慧大语言模型最佳的分词语料。
    吴辰运行了一下她的分词算法程序。
    果然如閔欣柔所说,虽然能运行,但生成的分词结果却不对。
    但这个问题应该不是语料质量不够。
    吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。
    101看书 海量小说在 101 看书网,101??????.??????任你读 全手打无错站
    干是他道:“你帮我去泡杯咖啡,然后把菸灰缸拿过来。”
    閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了过来。
    但她犹豫了一下道:“老师,今天太晚了,您要是累了的话就先休息,我再研究研究,明天您再帮我看也是一样的。”
    “不用。”
    吴辰直接拒绝了。
    深夜才是调试代码的最好时机。
    没有產品经理在旁边bb,没有沙雕同事突然把资料库弄坏,也没有閒著没事干的领导突然要开站会。
    见他態度坚决,閔欣柔便没有再劝,而是乖乖去厨房了。
    “喵!”
    閔欣柔都没说什么,倒是刚刚睡在她大腿上的吴淑芬不满了。
    吴辰瞅了它一眼,当即给了几个耳刮子。
    这傻猫不知道在叫什么,要是他们现在不努力,它哪还有罐罐吃。
    等閔欣柔泡好咖啡回来后,吴辰已经把她的代码基本看了一遍,並且已经发现了问题。
    於是喝了一口后,他立即开始指导了起来。
    “首先,你在这个地方的pair频次统计用的不对,你遍歷的是vocab的键,完全忽略了每个词条的出现次数,所以每一轮选出来的最频繁符號对其实並不频繁。”
    pair频次统计在bpe分词算法中,是用来决定每一轮要合併哪一对相邻符號的。
    只有把词频权重算进去,merge规则才会稳定收敛。
    閔欣柔把它的代码写成了这样:
    这就导致她每轮合併挑到的pair像抽籤一样,越训练越碎,最后分词当然乱。
    盯著吴辰指出的地方看了半天,閔欣柔才若有所思的开口。
    “老师,是不是要在遍歷时加权,而且合併时还要考虑边界?”
    “没错。”
    吴辰夸奖了一句。
    他果然没有看错人。
    閔欣柔靦腆的笑了起来。
    不过吴辰看她笑了半天,也不见她动手改代码,於是提醒道:“改啊。”
    “啊,是您看著我改吗?”
    閔欣柔有些吃惊。
    “不然呢,难道我帮你改?”
    吴辰奇怪的反问。
    “呃,好————”
    閔欣柔扭捏著靠近了一点,然后在吴辰的注视下敲起了键盘。
    不过她好像有点走神,一个简单的vocab.items()写了好几次没运行成功。
    “认真点。”
    吴辰把手敲了敲她的脑袋。
    被教训的閔欣柔缩了缩脖子。
    不过看到吴辰认真的眼神,她也终於收敛思绪,开始认真思考了起来。
    这一次,她改代码的效率明显提升了不少。
    两个小时后,代码终於被改好了。
    最终的代码是这样:
    怀著激动的心情,閔欣柔运行了程序。
    她並没有直接对5000条数据进行分词,因为那会花几十个小时。
    所以她先用100条数据进行了测试。
    在程序运行的几分钟里,閔欣柔感觉异常的紧张。
    虽然吴辰教过她许多理论知识,但这还是第一次手把手的教她实际写代码。
    这种感觉很奇妙。
    所以一定要成功呀————
    少女在內心祈祷著。
    等程序终於运行完成后,她忐忑的点开了生成的分词文件。
    成功了!
    这一次,程序分词后的文件终於不是满屏单字和黏连的碎片了,而是规整的子词序列!
    就像这样:
    閔欣柔忍不住小小的欢呼了一声。
    与此同时,系统也发来了一条提示。
    【人工智慧:1级(30%—&gt:50%)】
    这一次,就连吴辰也忍不住笑了起来。
    完成bpe算法,竟然一次性提升了20%的进度!
    这样的话,他只要完成transformer架构的设计,那就能晋升人工智慧2级了!
    而等他这个月拿到科大讯飞和搜狗他们的数据,再加上自己马上可以生產的专用显卡的话————
    那gpt—1级別的人工智慧大语言模型,在2008年底的时候就有望完成!
    虽然当年openai完成这一步的时候没引起什么反响,但吴辰却有自己的计划。
    已经足够顛覆某些行业了!
    “乾的不错!”
    想到閔欣柔替自己省了两个月的时间,吴辰忍不住高兴的拍了拍她的脑袋瓜子。
    “唔————谢谢老师。”
    閔欣柔也很开心。
    不过她还是道:“老师,现在只是小规模的测试,完整的分词表还没做好呢,而且5000条帖子的数据不一定够呢!”
    “已经很不错了,等讯飞他们把数据送过来就行,剩下的时间你继续完善bpe算法,到时候直接就可以用了。”
    吴辰不在意道。
    对他来说,这种没有太多技术含量的工作交给別人就好。
    他要全力以赴的完成transformer架构的开发了。
    閔欣柔並不知道他的打算,不过她只要能帮吴辰完成工作就很开心了。
    两人开心了一会儿后,吴辰想起一件事。
    “这个成果足够写一篇论文了,等待程序运行的时候你可以学习一下怎么写论文。”
    “我可以吗?”
    閔欣柔愣了一下。
    抱歉今天更新晚了,主要是为了那几张截图写代码花了太久的时间。
    >

章节目录

重生2008:从助教逆袭为院士所有内容均来自互联网,欲望社只为原作者佚名的小说进行宣传。欢迎各位书友支持佚名并收藏重生2008:从助教逆袭为院士最新章节