132件中 26-30件目     [ 1 2 3 4 5 6 7 8 9 10 ... ]

取得したHTMLファイルやXHTMLファイルの文字列を取り出した場合、それが文字参照や実体参照で書かれていると、表示上の文字と異なってしまう。そこで、文字列に文字参照や実体参照が含まれていた場合に、それを通常の文字に戻す処理が必要になる。


TinySegmenterのPHP版も見当たらなかったので、PHP版も作ってみた。


PHPでMeCabを使って形態素解析してみた。 環境は以下の通り。


Google App Engineではpure-Pythonなライブラリしか使えないため、Google App Engineで形態素解析をする場合には、Yahoo!の形態素解析サービスに処理を投げているものが多い。そうなると当然、他のサービスに依存してしまうため、そのサービスが落ちたりすると困ったことになる。できれば自分で形態素解析をしたいのだが、自分で全て書くには手間がかかるし、MeCabChasenなどはpure-Pythonなものではないため使えない。

そこで「TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア」のTinySegmenterをPythonで書いてみた。

(ちなみに、Perl版Ruby版は既にあった。)


今更だが、JavaScriptでコードハイライトをしてくれるgoogle-code-prettify というものを知った。 C、C++、Java、Javascript、Python、Ruby、PHP、Perl、Bash、Awk、Makefiles、HTML、XML、CSSなど多数の言語に対応していて、私のサイトで使う言語はほぼカヴァーしているので、使ってみることにした。

※ 現在はgoogle-code-prettifyではなく、SyntaxHighlighterを改造したものを使っています。

132件中 26-30件目     [ 1 2 3 4 5 6 7 8 9 10 ... ]