`
wzhiju
  • 浏览: 139049 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
   在这篇文章中,着重介绍了利用三叉树的结构特点来进行分词词典的组织。     三叉树,顾名思义,具有三个分支lower,higher,equal。首先为每一个结点设置“转向词”,也即用来进行比较和搜索的一个字。比如有三个词语,“我们”,“中国”,“人们”;在构造词典时,首先创建树根,root ;root 的“转向词”设置为“我”,root的equal分支为“们”;然后,由于  "中国".charAt(0) - root.splitchar >0;所有将“中”其放置在root的higher节点位置,“国”放置在“中”的equal结点位置;同理进行词“人们”的构造。 ...
    我们在涉及到读取文本文件时,常常会由于格式的设置原因出现乱码问题,有些人经常通过设置整个项目的编码格式来解决,殊不知通过此方法常常会使java文件中的汉字转化为乱码,仍然不可取。最好的途径是在读取文件时,就设置好格式。例子程序如下:           try {                        BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(fileChooser.getSelectedFile()),"gb2312"));    ...
    最近在写一个桌面程序时,涉及到要向JTextArea 中每次循环写入数据,开始程序如下: for (int k = 0; k < hrefs.size() && k < 50; k++) {     ......     ......     jTextArea1.append(hrefs.get(k).getUrl() + "  Analysis Completed...\n"); } 其中jTextArea1为一个文本区域,hrefs 为一个链表LinkedList<Href>,(Href 为自己定义的一个类),但是当运行 ...
    最近经常登陆邮箱,虽然浏览器能够记住登陆的用户名和密码,但是每次还要手动打开浏览器,感觉有些许麻烦,所以写了一个自动登录到我的yahoo邮箱的一个简单页面,在这里和大家一同分享一下。     以yahoo邮箱为例:     <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.or ...
最近在一个项目用到了从网页中提取正文信息,基于这个模块有很多专家学者讨论了各种各样的算法和网页提取工具。但有些算法,比如配置摸版和基于视觉的分析、块分析方法,有些复杂麻烦,有些针对性太强,况且网页类型 ...
Global site tag (gtag.js) - Google Analytics