By matsugorou この投稿を引用
Bonjour, matsugorou です。すぐにご返答いただきありがとうございます。ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。# この正規表現にタイトルがマッチするページは書籍に収録されません。#my @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$', # '^Category:.*操り人形だと疑われるユーザー', );my $skip_heading = '';if (@skip_headings) { foreach $heading (@skip_headings) { $skip_heading .= '|'.$heading; } $skip_heading =~ s/^\|(.*)$/\($1\)/; $fpwwikipedia_conf{'skip_heading'} = $skip_heading;} AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。 具体的にはどのような書き換えになるのでしょうか? お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。 お元気で、
No.23 2007/11/06 08:12:37
By kazuhiro このコメントを引用
分冊は、例えばmy @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$', '^[^a-mA-M]');のようにしてA-Mで始まる見出しを収録し、書籍を保存してからmy @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$', '^[a-mA-M]' );のようにしてA-M以外でで始まる見出しを収録すればよいと思います。(確認はしていません)ただし、Entry 7537で止まるというのは容量の問題ではなくwikipedia-fpwのバグで止まっている可能性が高いように思います。相互参照を無効にしても同じ場所で止まるか一度確認したほうがよいと思います。
No.24 2007/11/07 03:53:23