MultivalentでPDFリーディング

RwJ経由でMultivalentというPDFリーダ。JavaによるPDF読み込みライブラリで、少なくともWindows環境だと超簡単にPDFをStringで受け取ることが出来るとのことなので、下のような感じで読んでみた (例によってソースはやる気ない)。

package net.txqz.pdf;
import java.net.URI;
import java.net.URISyntaxException;

import tool.doc.ExtractText;

public class PDFTest {
    public static void main(String[] args) throws URISyntaxException, Exception{
        ExtractText et = new ExtractText();
        String text = et.extract(new URI("http://www.miv.t.u-tokyo.ac.jp/papers/matumura_IPSJ_2ch.pdf"));
        System.out.println(text);
    }
}

読んでみたPDFファイルは、たまたま窓が開いていた『2ちゃんねるが盛り上がるダイナミズム』。結果は:

MD5: null vs 50b1d9d5499b67c77d890ddcee0c8b8
URI: http://www.miv.t.u-tokyo.ac.jp/papers/matumura_IPSJ_2ch.pdf
producer: Acrobat Distiller 5.0 (Windows)
pages: 9

Vol. 45 No. 3 ??? ?????? Mar. 2004 
2 ? ? Μ ? Δ? ? Γ ?? Δμ Π φ ?ζ ? 
? ? ? ? 
† 1,? 
? ? ? ? 
† 2 
? ? ? ? 
† 3 
? ? ? ? 
† 4 
? ? ? 
† 1 
? 2 ? ? Μ ? Δ ? ?? ? ? ? ? Φ ? ? Π ? ?? ? χ ? Ο α Π τ? ?Δ ? ? ?Ζ ? ? ? ? ? ? ? ? ? Ε 
Δ ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ?? ? Ε Δ Α ? ? ? ? ? ? Δ ? ?? ? ? ? ? ? ? ?? ? ? ? 
?? ? ? ? ? ? ? ? ? ? Ε ? ? ?? ? ? ? ? ?? ? Δ ? ? ? ? ? ? ? ? ? ? ? ? ? Λ ? Δ ? ? ? ? ? 
? ? ? ? ? ? ? ? ? Ε Δ ? ? ? ??? ? Β Ε?? ? Β ??Δ ? ? ? ? ? 2 ?? Μ ? Δ ? ?Ε ? ? ? Γ 
? ? ? ? ? Δ ? ? Ζ ? ? ? ? ? ? ? Β ? Ε ? ?? ? ? ?Α ? ? ? ? Δ?? ? ? ? ? ? Γ ? Γ ? 2 ?? 
Μ? Δ ??? β ? ? ? ? ? ?Γ ? ? Ε ? 2 ? ? Μ ? Δ ? ? Γ ? ? Δ ? ? ? ?? ??Δ ? ? ? ? Ε ? ? ? 
? ? Α ? ? ?? ?Β ?? ?? ? 2 ? ? Μ? Δ ? ? ? Δ ? ? ? χ?? γ ? ? ? ? ? ? ? ? ? ? ? 2 ?? 
Μ? Δ ? ? Γ ? ? Δ μ Π φ ? ζ ? Λ ? ? ? ? ? ? ? Λ ? ? ? ? ? ? ? ? ? ?χ?? γ ? ? ? ?? ? ? 
? ? ? ο η ? δ ? α Π ζ? ? ? ?? ? ? ?? ? ? ? Ε Δ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2 ?? Μ ? 
Δ ? ?? ? ? ?? ? ? ? 2 ? ? Μ ? Δ? ?Ξ ε Ω ? Ξ ? τ ? AA? ? ? ? ?? ? ? ?? ?? ? ? ? ? 
Δ? ?? ?? ?? ? ? ΑΓ? ? ? ? ? 2 ? ? Μ ? Δ ? σ ? ? ? ? ? ?? ?? ?? ? ? ?? ?? ? ? ? 
??? ?? ? ? ? ? ? ? ? ? Λ ? Β?? ? ? ? Δ ? 
The Dynamism of 2 channel 
Naohiro Matsumura, 
† 1,? 
Asako Miura, 
† 2 
Yasufumi Shibanai, 
† 3 
Yukio Ohsawa 
† 4 
and Mitsuru Ishizuka 
† 1 
‘2 channel’ is the most popular online-community site in Japan, where millions of partic- 
ipants are chitchatting or discussing various topics. However, this fact sometimes confuses 
us because most of messages in 2 channel seem to be meaningless, often said as gra?ti. To 
understand the mystery of 2 channel, we assume the existence of something at the back of 
2 channel that governs the activity of participants. Looking at 2 channel from this point of 
view, there could be many factors that a?ect online communication. For example, terms that 
seem to be meaningless for us might have some meanings for participants in 2 channel, and 
communication with the terms might activate interaction. In this paper, we aim at analyz- 
ing the dynamism of 2 channel by applying Structural Equation Modeling (SEM) to eight 
observable characteristics of communication including basic properties (message size, posting 
activity, reply rate, etc), anonymity, and speci?c expressions (jargons and ASCII arts peculiar 
to 2 channel). The structural equation model of 2 channel clearly shows various causalities 
among the characteristics, i.e. the use of speci?c expressions a?ects positively to chitchat-type 
communication, and negatively to discussion-type communication. 

† 1 ?? ?????? ??????? ? 
Graduate School of Information Science and Technol- 
ogy, The University of Tokyo 
† 2 ?? ?????? ?????? 
Graduate School of Human Sciences, Osaka University 
† 3 ?? ?????? ???? 
Department of Social Sciences, Doshisha University 
† 4 ?? ????? ? δ ω ε ? ??? ? 
Graduate School of Business Sciences, University of 
Tsukuba 
? 
??? ????? ??????? ? 
Presently with Graduate School of Economics, Osaka 
University 
1. ?? ? ? 
1999 ? 5 ?? ? ? ? ? 2 ?? Μ? Δ 
? 
? ? ??? 
δ? ? ? ? Χ ? ? ?? ? ? ? Λ 400 ?? 
?? 
?? ? ? ? 
Δ Π ? λ ? ω ο τ ? ? ? ? ? χ ? Ο α Π τ ??Δ? 2 
? ? Μ ? Δ ? ? ??? ?? ? ? χ? Ο α Π τ ? ? ? Θ Ε 

? 
http://www.2ch.net/ 
?? 
2002 ? 6 ? 13 ? ? ?? ? ? ? ? ?? ? Α Δ ? ? 2 ?? Μ ? Δ 
?? 35 ?Χ ? ? ? ? 442 ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? 
το ? ? ? δ ? ? Ε Δ ? ? ? ε ?ο υ ? ?? ? ? 6,017 ?? ? 
?? ? ? ? ? ?? τ ο ? ? ? δ ? Β ? ? ? ? Δ ε ? ο υ ? ? ? ? 
Ε? ? ? ?? 166,610 ?ε ? ο υ ? ? ? ? ? 
1053 




================================================================================

長いので最初の1ページに該当するところのみコピペしたけれども、日本語部分が化けた。

Google Scholarを使ってさまざまなPDFファイルで調べてみたけれども、どうやら、マルチカラムになっている部分があると化けるようだ。たとえば『競技弁論における 時系列的技術について』は化けない。

MD5: null vs a5b955b3217e3301ed6ce15df7e5ad
reading UniJIS-UCS2-H from JAR
URI: http://page.freett.com/houbennbu/%E7%AB%B6%E6%8A%80%E5%BC%81%E8%AB%96%E8%AB%96%E6%96%87.pdf
producer: ?いきなりPDF Version 1.2 Build 0037
pages: 34

  
  
  
  
  
「 競 技 弁 論 に お け る   
時 系 列 的 技 術 に つ い て 」   
  
  
  
  
  
  
  
法政 大 学 HDS 弁論 部   
中   宣 昭     
  
  
      




================================================================================


目 次   
はじめ に   
  
第 Ⅰ 章     競技弁論大 会 と は   
1.  弁 論 と は   
  2.  競技弁 論 と は   
  3.競技弁論大会全 般 のおけ る ルー ル   
1 ) 形 式   
    2 ) 時 間 につい て   
    3 ) 審 査   
    4 ) 分 野 ・ テー マ   
    5 ) 野 次 につい て       
  
第 Ⅱ 章     競技弁 論 の 構 成   
  1.競技弁 論 の 構成過 程   
    1 ) 弁 論 の 構成過 程   
    2 ) 競技弁 論 の 構成過 程   
  2.競技弁 論 の 主 な 技術構 成   
    1 ) 競技弁 論 で 使 われ る 技 術 の 3 種   
    2 ) エート ス によって の 説 得   
    3 ) パト ス によ る 説 得   
    4 ) 言 論 が 証 明 を 与 え る 説 得   
  
第 Ⅲ 章     事前準 備   
  1.事前準 備   
    1 ) 分 野 ・ テー マ を 決 め る   
    2 ) 調 べ る   
    3 ) 解決 策 を 模 索 す る   
    4 ) 解決 策 を 見 直 す   
  
第 Ⅳ 章     原 稿 を 書 く   
  1.配 置   
    1 ) 配 置 と は   
    2 ) 競技弁 論 で の 配 置   
  2.原 稿 を 書 く   
    1 ) 原 稿 を 書 く 際 の 基本姿 勢   
    2 ) 原 稿 を 彩 る 文 彩   
  3.演 題 を 決 め る   




================================================================================

デザインルールのプレスリリースPDFも化けずに読めた。ただ、上のもそうなのだけれども、文字間にスペースが入る。段落によっては入らないこともある。

たいてい学術論文って本文部分が2カラムになっているからなぁ。この問題を解決しないと、このライブラリは使えないな。問題を解決できるまでは、これまでどおりPDFファイルは取得対象外にしておこう。

PowerPoint由来のPDFは化けずに読めた。

挙動が興味深すぎる。ネットレイティングスのこないだのやつを読ませると:

MD5: null vs 95971fd6234d9d6410553f3c52ef1a
reading UniJIS-UCS2-H from JAR
reading UniJIS-UCS2-HW-H from JAR
reading UniJIS-UCS2-H from JAR
URI: http://csp.netratings.co.jp/nnr/PDF/Newsrelease07252007_J.pdf
producer: Xelo PDF Library
creator: ?クセロPDF v1.11 Rev0475
subject:  
title:  
pages: 4
author: Soichiro Nishimura

2 

0 

0 

7 

年 

7 

月 

2 

5 

日 

  

ネ 

ッ 

ト 

レ 

イ 

テ 

ィ 

ン 

グ 

ス 

株 

式 

会 

社 

  

  

  

ネ 

ッ 

ト 

レ 

イ 

テ 

ィ 

ン 

グ 

ス 

、 

「 

総 

利 

用 

時 

間 

」 

に 

よ 

る 

日 

本 

の 

ウ 

ェ 

ブ 

ド 

メ 

イ 

ン 

ラ 

ン 

キ 

ン 

グ 

を 

算 

出 

  

~ 

  

m 

i 

x 

i 

  

が 

2 

位 

、 

Y 

o 

u 

T 

u 

b 

e 

が 

4 

位 

、 

動 

画 

と 

C 

G 

M 

が 

上 

位 

へ 

~ 

  

  

  

ネ 

ッ 

ト 

レ 

イ 

テ 

ィ 

ン 

グ 

ス 

株 

式 

会 

社 

( 

本 

社 

: 

東 

京 

都 

渋 

谷 

区 

、 

代 

表 

取 

締 

役 

社 

長 

: 

萩 

原 

雅 

之 

) 

は 

、 

米 

  

N 

i 

e 

l 

s 

e 

n 

/ 

/ 

  

N 

e 

t 

R 

a 

t 

i 

n 

g 

s 

  

が 

7 

月 

1 

0 

日 

に 

発 

表 

し 

た 

イ 

ン 

タ 

ー 

ネ 

ッ 

ト 

利 

用 

動 

向 

調 

査 

の 

新 

指 

標 

「 

総 

利 

用 

時 

間 

( 

T 

o 

t 

a 

l 

  

M 

i 

n 

u 

t 

e 

s 

) 

」 

の 

定 

義 

1 

  

に 

基 

づ 

く 

日 

本 

の 

ウ 

ェ 

ブ 

ド 

メ 

イ 

ン 

の 

最 

新 

ラ 

ン 

キ 

ン 

グ 

を 

算 

出 

し 

ま 

し 

た 

。 

  

こういうのはちょっと。。。

タグ
© 2001-2008 Chisa YOUZAKA. Some rights reserved.