第102章 BPE算法完成!
⚡ 自动翻页
开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  吴辰坐到她身边,看向了她的屏幕。
  从上次他帮閔欣柔理清思路后,小姑娘的工作果然进入了正轨。
  她先花了两天从天涯上抓取了5000条高质量的帖子,並且將贴子的每一个部分都分成了標题、
  內容两个部分。
  除此之外,每个贴子还包含了至少5条有效回復。
  而且她没有像最开始的200多条数据那样去標记各种顏色,甚至还加粗加下划线来標註重点。
  因为那是给人看的。
  这一次的数据数据,完全就是最原始的数据。
  虽然这项工作的绝大部分时间都是在机械的复製和粘贴,十分考验耐心。
  但它的成果,也是用来训练人工智慧大语言模型最佳的分词语料。
  吴辰运行了一下她的分词算法程序。
  果然如閔欣柔所说,虽然能运行,但生成的分词结果却不对。
  但这个问题应该不是语料质量不够。
  吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。
  101看书 海量小说在 101 看书网,101??????.??????任你读 全手打无错站