如何将文本拆分为单词，然后在Python中进行过滤？

作者: admin

时间: 22/12/06 15:52:48

嗨,伙计们,我有一个问题,我希望你们给我一个主意如何开始使用。首先,我使用Windows 7和Python 2.7我有一个文本文件中,我试图从文件读课文,然后检查每一个字与40个单词这个词,这个词,以确保没有被不止一次重复。换句话说,我想首先把文本分割成单词,把它们放在一个列表,然后检查[0]与[1]到[39]。然后我想检查[1]与[40],然后检查[2]对[41]等。分裂的话不是那么难我想,我只是需要在每一个空间,每一个点。什么是我不知道如何检查文本中的词与句话说. .任何想法人如何能做吗?=)

# 回答1

是的,我有个主意如何这是可以做到的。文本分割成一个单词列表,转换为小写,带任何标点符号。列表上进行迭代,并创建一个分表,切片的列表单词(lowIdx highIdx):。调整高低指标时需要在单词列表的开始和结束。流行从子列表当前的单词。其余的成员上迭代子列表比较当前词。学习如何在Python程序的最好方法是编写程序。尝试编写代码和发布你的问题。

# 回答2

你好,再一次我将解释更多我想做的。我想读一个文本文件,检查是否一个词出现不止一次在过去的40个单词,换句话说;我想过滤词通过添加* RandomWordThatAppearedMoreThanOnceInTheLast40Word s *。这是到目前为止我一直在做的代码。目前我无视所有的点,分号等。我只是想完成基础知识。

选择 | 换行 | 行号

 infil = open ('story.txt')
 
line = infil.readlines()
 
wordlist = list()
 
allTheWords = line.split()
 
if string in dictionary:
    dictionary(string) += 1
    else:
        dictionary(string) = 1
 
if len(wordlist) > 40:
    del wordlist[0]
 
finishedText = (' ').join(allTheWords)

# 回答3

你应该打印"线","allTheWords","词库",看看是否包含你认为他们做什么。同样,如果缩进,其他是不正确的。你可以最后40行词库(今日)参见14.5节在这里例如阅读的一个文件,然后用这个名字的文件你想读的书。一些信息列表http://www.greenteapress.com/thinkpy...l/book011.html

如何将文本拆分为单词，然后在Python中进行过滤？

添加新评论

最新文章

分类

最近回复

归档

其它