如何将文本拆分为单词,然后在Python中进行过滤?

嗨,伙计们,我有一个问题,我希望你们给我一个主意如何开始使用。首先,我使用Windows 7和Python 2.7我有一个文本文件中,我试图从文件读课文,然后检查每一个字与40个单词这个词,这个词,以确保没有被不止一次重复。换句话说,我想首先把文本分割成单词,把它们放在一个列表,然后检查[0]与[1]到[39]。然后我想检查[1]与[40],然后检查[2]对[41]等。分裂的话不是那么难我想,我只是需要在每一个空间,每一个点。什么是我不知道如何检查文本中的词与句话说. .任何想法人如何能做吗?=)

# 回答1

是的,我有个主意如何这是可以做到的。文本分割成一个单词列表,转换为小写,带任何标点符号。列表上进行迭代,并创建一个分表,切片的列表单词(lowIdx highIdx):。调整高低指标时需要在单词列表的开始和结束。流行从子列表当前的单词。其余的成员上迭代子列表比较当前词。学习如何在Python程序的最好方法是编写程序。尝试编写代码和发布你的问题。
# 回答2

你好,再一次我将解释更多我想做的。我想读一个文本文件,检查是否一个词出现不止一次在过去的40个单词,换句话说;我想过滤词通过添加* RandomWordThatAppearedMoreThanOnceInTheLast40Word s *。这是到目前为止我一直在做的代码。目前我无视所有的点,分号等。我只是想完成基础知识。

选择 | 换行 | 行号
  1. infil = open ('story.txt')
  2.  
  3. line = infil.readlines()
  4.  
  5. wordlist = list()
  6.  
  7. allTheWords = line.split()
  8.  
  9.  
  10. if string in dictionary:
  11.     dictionary(string) += 1
  12.     else:
  13.         dictionary(string) = 1
  14.  
  15.  
  16. if len(wordlist) > 40:
  17.     del wordlist[0]
  18.  
  19.  
  20.  
  21.  
  22.  
  23.  
  24.  
  25.  
  26.  
  27.  
  28.  
  29. finishedText = (' ').join(allTheWords)
  30.  
# 回答3

你应该打印"线","allTheWords","词库",看看是否包含你认为他们做什么。同样,如果缩进,其他是不正确的。你可以最后40行词库(今日)参见14.5节在这里例如阅读的一个文件,然后用这个名字的文件你想读的书。一些信息列表http://www.greenteapress.com/thinkpy...l/book011.html

标签: python

添加新评论